ตัวแปรประเภทหมวดหมู่(Categorical Variable)และผลของปัจจัยร่วม(Interaction) ที่ส่งผลต่อตัวแบบถดถอย

ตัวแบบถดถอย (Regression Model) เป็นเครื่องมือที่นำมาใช้แก้ปัญหาได้เกือบทุกอย่าง แต่บางครั้งเรามักจำกัดรูปแบบสมการของตัวแบบที่จะได้ไว้ในรูปแบบสมการเชิงเส้น  

ค่าทำนาย y  = mx + b

เมื่อ m แทนค่าความชัน ซึ่งหมายถึงค่า y จะเปลี่ยนไปโดยเฉลี่ย เมื่อ x เพิ่มขึ้น1 หน่วย และ b แทนค่าจุดตัดแกนตั้ง (y – interception) ซึ่งหมายถึงค่า y เมื่อ x มีค่าเป็นศูนย์ ในทางปฏิบัติเราจะให้ความสนใจไปที่ผลที่จะเกิดจาก x และค่าความชัน

ในตัวแบบถดถอยสมมติฐานหลักจะกำหนดไว้ว่าค่าความชันของสมการมีค่าเป็นศูนย์ และถ้าได้ผลการทดสอบมาว่า p-value มีค่าน้อยกว่า 0.05 จะมีความหมายว่าผลของปัจจัยหลัก(main effect) มีนัยสำคัญและสามารถสร้างตัวแบบความสัมพันธ์ของ x และ y ได้ ในบทความนี้จะกล่าวถึงอิทธิพลของค่าความชันและค่าจุดตัดแกนตั้งเมื่อทำการเพิ่มตัวแปรแบบหมวดหมู่และพจน์ของผลของปัจจัยร่วม(interaction) ลงในตัวแบบถดถอย

ตัวแบบถดถอย: สมการเส้นตรงของค่าทำนาย (Regression: Best Fitted Line)

ซึ่งจะมีการใช้ตัวอย่างจากกรณีการใช้รังสีในการฆ่าเชื้อผลิตภัณฑ์สำหรับเครื่องมือแพทย์ โดยในการศึกษาจะทำการทดสอบสองวิธีการให้รังสีด้วยวิธีการ 2 อย่าง คือ วิธีการที่ 1 และ 2 โดยจะทำการบันทึกค่าปริมาณรังสีที่ให้ โดยมีเป้าหมายให้จำนวนสิ่งปนเปื้อนมีค่าต่ำกว่า 70 PPM โดยใช้ปริมาณรังสีให้น้อยที่สุด

Regression Categorical Interaction Fitted Line Plot 1

จากตัวแบบที่ได้จะเห็นว่ามีตัวแปรที่เป็นค่าวัด(ตัวแปรค่าต่อเนื่อง) ซึ่งเป็นค่าของปริมาณรังสี พบว่าความสัมพันธ์ระหว่างตัวแปรทั้งสองเป็นลบ แปลความได้ว่าเมื่อเพิ่มปริมาณรังสีมากขึ้นจะทำให้การปนเปื้อนมีค่าน้อยลง  ตัวแบบที่ได้คือ  

Average PPM = 218.6 – 117.0*Dose

โดยที่ “Average PPM”  คือ ค่าเฉลี่ยสิ่งปนเปื้อน  และ “Dose”  คือ ปริมาณรังสีที่ใช้

จากสมการมีความหมายว่า ปริมาณรังสีที่ใช้ 1 หน่วย จะทำให้จำนวนเฉลี่ยของสิ่งปนเปื้อนลดลง 117 หน่วย จากเริ่มต้นเราให้ค่าปริมาณรังสีอยู่ในช่วง 1.1 – 1.4 ซึ่งทำให้เราพอเห็นความเป็นไปได้ว่าถ้าเพิ่มปริมาณรังสี 0.1  หน่วยจะทำให้จำนวนสิ่งปนเปื้อนลดลง 11.7 PPM

แต่บริษัทต้องการเพียงวิธีการทำงานแบบเดียวที่จะใช้ปริมาณรังสีน้อยที่สุดและยังทำให้จำนวนสิ่งปนเปื้อนน้อยกว่า 70 PPM ต่อไปเราจะเริ่มเพิ่มบางอย่างลงในตัวแบบ โดยจะให้ถือว่ามีเพียงแค่ main effect ของปัจจัยทั้ง 2 อย่างเท่านั้น โดยยังไม่มีเรื่อง interaction มาเกี่ยวข้องก่อน

ตัวแบบถดถอยเมื่อมีตัวแปรแบบหมวดหมู่ (Regression Modeling with a Categorical Variable)

Main effect จะเป็นผลกระทบที่ตัวแปรตั้งต้น (input) ส่งผลโดยตรงต่อตัวแปรผลลัพธ์ (output) และให้ตัวแปรอื่นคงที่ ตัวอย่างเช่น  main effect ของปริมาณรังสี คือ เมื่อปริมาณรังสีเพิ่มขึ้น 1 หน่วย ทำให้ปริมาณสิ่งปนเปื้อนลดลง 117 PPM

สมมติฐานหลักของตัวแปรแบบหมวดหมู่ในตัวแบบถดถอยที่ต้องนำมาทดสอบสมมติฐานเปรียบเทียบค่าเฉลี่ยด้วยวิธี ANOVA คือ

H0: μMethod1 = μMethod2

ถ้าค่าเฉลี่ยระหว่างสองวิธีการนี้มีค่าแตกต่างกัน จะสามารถสร้างตัวแบบถดถอยแยกเป็นสองสมการ จากกราฟการเปรียบเทียบ main effect ของตัวแปรตั้งต้นแบบหมวดหมู่ ที่มีค่าตัดแกนตั้งแตกต่างกัน

Regression Categorical Interaction Scatterplot Contaminants

จะเห็นว่าตัวแบบทั้งสองสมการนี้มีความแตกต่างกันเล็กน้อย

Method 1 (PPM) = 216.4 – 116.4*Dose

Method 2 (PPM) = 219.0 – 116.5*Dose

วิธีที่ 1 จะให้ผลดีว่าวิธีที่ 2 เล็กน้อย เพราะค่าตัดแกนตั้งของวิธีที่ 1 มีค่าต่ำกว่าเล็กน้อย

เนื่องจากตอนนี้ในสมการยังไม่มีพจน์ของ interaction , Minitab จะสมมติให้ผลของปริมาณรังสีคงที่ทั้งสองวิธี ดังนั้นค่าความชันของสมการทั้งสองตัวแบบจึงเท่ากัน ค่าความชันจะเปลี่ยนแปลงเล็กน้อยเมื่อเปลี่ยนวิธีการ ปริมาณรังสีที่จะใช้จะแตกต่างกันเมื่อวิธีการแตกต่างกันซึ่งส่งผลต่อจำนวนสิ่งปนเปื้อนให้แตกต่างกัน

การพิจารณาเฉพาะ Main effect เพียงอย่างเดียวเท่านั้นอาจทำให้เกิดข้อผิดพลาดได้ ดังนั้นควรต้องนำผลของ interaction ระหว่างตัวแปรมาพิจารณาเพื่อหาความแตกต่างของความชันด้วยเสมอ

Interaction ของตัวแบบถดถอย (Interaction Regression Model)

ในการวิเคราะห์เราจะพิจารณาเรื่อง interaction เพื่อทำให้ตัวแบบที่ได้มีความเหมาะสมยิ่งขึ้น โดยเฉพาะเมื่อมีการพิจารณาเรื่องตัวแปรประเภทหมวดหมู่ (categorical variable) แทนที่จะกำหนดให้ความชันของปริมาณรังสีคงที่ เราจะทำการพิจารณาผลกระทบที่เกิดจากวิธีการทำงานที่แตกต่างกัน สมมติฐานหลักทีใช้ในการทดสอบจะตั้งว่า

H0: βMethod1 = βMethod2

โดยที่ β จะเป็นสัญลักษณ์แทนค่าสัมประสิทธิ์ของประชากร

Regression Categorical Interaction Scatterplot Contaminants 2

ในวิธีการที่ 1 จะได้ว่าไม่มีผลกระทบใดๆ ต่อจำนวนสิ่งปนเปื้อน โดยสิ่งปนเปื้อนจะมีค่าประมาณ 74 PPM ตลอดทุกค่าปริมาณรังสีที่ศึกษา หรือ ความชันของเส้นสมการของตัวแบบมีค่าเท่ากับศูนย์  แต่ถ้าเป็นวิธีการที่ 2 เราสามารถเพิ่มปริมาณรังสีไปได้ถึง 1.3 หน่วยและจะได้ปริมาณสิ่งปนเปื้อนเฉลี่ย 60 PPM ซึ่งต่ำกว่าเป้าหมาย 70 PPM

ถ้าบริษัทต้องการผลที่สม่ำเสมอ ควรใช้วิธีการที่ 1และใช้ปริมาณรังสีจำนวนน้อยที่สุดในช่วง (1.1)  แต่ถ้าต้องการจะลดปริมาณสิ่งปนเปื้อนให้ต่ำกว่า 70 PPM ควรเลือกใช้วิธีที่ 2 และใช้ปริมาณรังสีเท่ากับ 1.3 และถ้าพิจารณาเรื่อง interaction จะได้ผลลัพธ์ที่มีหลายทางเลือกซึ่งควรทำการวิเคราะห์เพิ่มเติม ผลของ Interaction จะทำให้ผลการวิเคราะห์เปลี่ยนแปลงได้และมีผลต่อการตัดสินใจ

ตัวแปรตามหมวดหมู่(Categorical Variable)และผลของปัจจัยร่วม(Interaction)มีผลต่อโมเดลการถดถอย(Regression Model) อย่างไร

คำสั่ง  Regression ใน Minitab จะให้ผลลัพธ์ที่แปลความได้ง่ายแต่การทำความเข้าใจแนวคิดหลักของการวิเคราะห์ถดถอยทำให้มีการตัดสินใจได้ถูกต้องขึ้น ตัวแปรแบบหมวดหมู่และพจน์ interaction จะมีความหมายหลายอย่างต่อการวิเคราะห์ดังนั้นควรทำความเข้าใจและตรวจสอบให้ถูกต้องเสมอ


คุณต้องลองวิเคราะห์โจทย์ที่คล้ายๆกันนี้ด้วยตัวเองไหม?

Download

บทความต้นฉบับ : Understanding How Categorical Variables and Interaction Terms Affect a Regression Model

ต้นฉบับนำมาจาก Minitab blog, แปลและเรียบเรียงโดยสุวดี นำพาเจริญ,

บริหารจัดการ SCM Blog โดยชลทิชา จำรัสพร บริษัท โซลูชั่น เซ็นเตอร์ จํากัด ตัวแทน Minitab ในประเทศไทย

Minitabbloglogo

เพิ่มเติมเกี่ยวกับบริษัท Minitab

Minitab ช่วยให้บริษัทและองค์กรต่างๆ สามารถมองเห็นแนวโน้มของข้อมูล, แก้ปัญหาและค้นพบประเด็นสำคัญจากข้อมูลเชิงลึก โดยนำเสนอชุดโซลูชั่นที่ครอบคลุมทุกด้านและดีที่สุดสำหรับซอฟต์แวร์ในระดับเดียวกัน ที่ใช้สำหรับการวิเคราะห์ข้อมูลและการปรับปรุงกระบวนการ 
ด้วยวิธีการที่เป็นเอกลักษณ์ และการนำเสนอซอฟต์แวร์และบริการแบบองค์รวม Minitab ช่วยให้องค์กรเข้าถึงกระบวนการตัดสินใจในส่วนที่ช่วยผลักดันให้เกิดความเป็นเลิศทางธุรกิจได้ดีขึ้น ความง่ายในการใช้งานที่โดดเด่นกว่าใครมีส่วนช่วยให้ Minitab สามารถทำให้การเข้าถึงข้อมูลเชิงลึกเป็นเรื่องที่ง่าย ทีมงานของ Minitab ซึ่งประกอบด้วยผู้เชี่ยวชาญทางด้านการวิเคราะห์ข้อมูลที่ได้ผ่านการอบรมมาเป็นอย่างเข้มงวด จะช่วยให้ผู้ใช้งานมั่นใจว่าจะได้รับประโยชน์สูงสุดจากการใช้งานวิเคราะห์ข้อมูลและพร้อมที่จะให้คำปรึกษาตลอดเวลาที่ใช้งานเพื่อนำไปสู่การตัดสินใจที่ดีขึ้น รวดเร็ว และแม่นยำ 
เป็นเวลากว่า 50 ปีที่ Minitab ได้ช่วยองค์การต่าง ๆ เพิ่มรายได้ ควบคุมและลดต้นทุน เพิ่มคุณภาพ เสริมสร้างความพึงพอใจของลูกค้า และเพิ่มประสิทธิภาพ ธุรกิจและองค์นับหมื่นทั่วโลกใช้ Minitab Statistical Software®, Companion by Minitab®, Minitab Workspace®, Salford Predictive Modeler® and Quality Trainer® เป็นเครื่องมือช่วยในการค้นพบและปรับปรุงความบกพร่องใน