ระหว่าง Regression และ ANOVA เราจะเลือกใช้เครื่องมือไหนเมื่อไหร่

สมมติว่ามีการเก็บข้อมูลของรอบเวลา (cycle time)  รายได้ (revenue)  มิติขนาดของชิ้นงาน (dimension) หรือตัวชี้วัด (metric) บางค่าที่มีความสำคัญกับคุณ  แล้วคุณต้องการรู้ว่าตัวแปรใดที่มีความสัมพันธ์กับค่าเหล่านี้ แล้วควรทำอย่างไรต่อไป

เมื่อตอนที่ผมเรียนจบมาด้วยปริญญาที่เกี่ยวกับทางสถิติ ซึ่งในตอนเรียนนั้นได้มีการลงเรียนหลากหลายในวิชาสถิติ เช่น ตัวแบบการถดถอยเชิงเส้น (Linear regression) , ANOVA หรือ ตัวแบบถดถอยลอจิสติกส์ (Logistic regression)

แต่ไม่มีวิชาไหนเลยที่รวมเอาหัวข้อเหล่านี้มาอธิบายในเรื่องเดียวกัน และระบุว่าเครื่องมือไหนที่เราควรเลือกใช้ เมื่ออยู่ในสถานการณ์อะไร  เมื่อผมมีข้อมูลทั้ง Y และ X’s และต้องการที่จะอธิบายความสัมพันธ์ระหว่างสองตัวแปรนี้ จะต้องทำอย่างไร

ซึ่งผมต้องการใครสักคนที่จะมาอธิบายว่า ในการวิเคราะห์ด้วย  regression  หรือ ANOVA นั้นเหมาะสมกับข้อมูลแบบใด ดังนั้นเรามาเริ่มต้นกันที่ การเลือกเครื่องมือที่เหมาะสมกับค่า Y ที่เป็นข้อมูลแบบต่อเนื่อง (ค่าวัด)

เมื่อค่า Y และ X(s) เป็นข้อมูลต่อเนื่อง (ค่าวัด)

ตัวอย่างเช่น

Y: น้ำหนักของผู้ใหญ่เพศชาย

X’s: อายุ  ความสูง  จำนวนนาทีที่ออกกำลังกายในหนึ่งสัปดาห์

เครื่องมือใดที่เลือกใช้   ถ้าคำตอบคือ Regression

ใน Minitab จะสามารถใช้ได้ด้วยการเลือก Stat > Regression > Regression > Fit Regression Model

กรณีที่ ค่า Y เป็นค่าต่อเนื่อง (ค่าวัด)และ X(s) เป็นข้อมูลประเภทหรือหมวดหมู่ (Categorical)

ตัวอย่างเช่น

Y: คะแนนจากเกม Mario Kart Wii

X’s: การใช้ตัวควบคุมของ  Wii (แบบ พวงมาลัยบังคับ (racing wheel) หรือ แบบมาตรฐาน)  ท่าที่ใช้ขณะเล่น (ยืน หรือ นั่ง) ตัวละครที่ใช้ในการเล่นเกม (Mario, Luigi, Yoshi, Bowser, Peach)

เครื่องมือใดที่เลือกใช้   ถ้าคำตอบคือ ANOVA

ใน Minitab จะสามารถใช้ได้ด้วยการเลือก Stat > ANOVA > General Linear Model > Fit General Linear Model

กรณีที่ ค่า Y เป็นค่าต่อเนื่อง (ค่าวัด)และ X(s) เป็นข้อมูลประเภทหรือหมวดหมู่ (Categorical) และ ค่าต่อเนื่อง (ค่าวัด)

ตัวอย่างเช่น

Y: จำนวนชั่วโมงที่นอนในแต่ละคืน

X’s: อายุ กิจกรรมที่ทำก่อนเข้านอน (ไม่ได้ทำอะไรเลย อ่านหนังสือ ดูโทรทัศน์ เล่นอินเตอร์เนท) มีเด็กเล็กอยู่ด้วยหรือไม่… “ฝันร้าย” “หิวน้ำ” “มีปีศาจอยู่ใต้เตียง” (เป็นกรณีจากเด็กๆที่มักจะโวยวายกับผู้ใหญ่ในระหว่างคืน)

เครื่องมือใดที่เลือกใช้   ถ้าคำตอบคือ ANOVA หรือ Regression

ใน Minitab จะสามารถใช้ได้ด้วยการเลือก Stat > ANOVA > General Linear Model > Fit General Linear Model  หรือ  Stat > Regression > Regression > Fit Regression Model

ส่วนตัวแล้วผมจะเลือกใช้ GLM เพราะว่าสามารถทำการเปรียบเทียบเชิงซ้อนได้ (multiple comparisons) ซึ่งมีประโยชน์มากกับกรณีที่เจอกับข้อมูล X ที่เป็นแบบประเภทหรือหมวดหมู่ ตั้งแต่ 2 ระดับขึ้นไปและมีนัยสำคัญ  ตัวอย่างเช่น กิจกรรมที่ทำก่อนเข้านอนมีนัยสำคัญ  การเปรียบเทียบจะบอกได้ว่าระหว่าง 4 กิจกรรม – ไม่ได้ทำอะไรเลย  อ่านหนังสือ ดูโทรทัศน์ และ เล่นอินเตอร์เนท – มีนัยสำคัญ และแตกต่างกันอย่างไร

คนที่ดูโทรทัศน์ มีจำนวนชั่วโมงในการนอนคล้ายคลึงกับคนที่เล่นอินเตอร์เนท แต่น้อยกว่าคนที่ไม่ได้ทำอะไร และ คนที่อ่านหนังสือ หรือ คนที่เล่นอินเตอร์เนทจะมีผลแตกต่างอย่างมีนัยสำคัญ จากอีกสามกิจกรรมที่เหลือ ซึ่งการวิเคราะห์แบบเปรียบเทียบจะทำให้รู้ถึงความแตกต่างนี้ได้

ข้อมูล Y ที่เป็นแบบประเภทหรือหมวดหมู่ (Categorical)

กรณีที่ Y เป็นข้อมูลนับ แบบประเภทหรือหมวดหมู่ คุณควรใช้เครื่องมือในการวิเคราะห์คือ ตัวแบบถดถอยแบบลอจิสติกส์ (logistic regression) สำหรับข้อมูล X’s ที่อาจเป็นได้ทั้งข้อมูลวัดและข้อมูลนับ ซึ่งตัวแบบถดถอยแบบลอจิสติกส์

มีทั้งหมด 3 แบบให้เลือกใช้ได้ คือ

Binary:  ค่า Y มี 2 ระดับ เช่น ใช่/ไม่ใช่ หรือ ผ่าน/ไม่ผ่าน (yes/no, pass/fail)

Ordinal:  ค่า Y มีมากกว่า 2 ระดับ และมีลักษณะเป็นการเรียงลำดับขั้น เช่น ต่ำ กลาง สูง (low/medium/high)

Nominal:  ค่า Y มีมากกว่า 2 ระดับและไม่มีลักษณะการเรียงลำดับ  เช่น ประเภทรถ sedan/SUV/minivan/บรรทุก

ดังนั้นในครั้งต่อไปที่คุณมีข้อมูล X’s และ Y อยู่ แล้วคุณต้องการศึกษาถึงความสัมพันธ์ของข้อมูลทั้งสองตัวแปรนี้ ให้เลือกเครื่องมือโดยมีเกณฑ์ตามที่สรุปให้ดังนี้

1 9

สำหรับขั้นตอนในการใช้เครื่องมือ General Regression, General Linear Model, หรือ Logistic Regression ใน Minitab นั้นสามารถหาได้เพิ่มเติมจากการเลือก Help จากตัวเลือกด้านล่างซ้ายของกล่องข้อความ ซึ่งจะแสดงตัวอย่างการใช้งานที่อยู่ในหน้าจอด้านบนของหน้าต่าง Help  หรือ สามารถติดต่อฝ่ายสนับสนุนลูกค้าของ Minitab ซึ่งมีทีมงานที่จะคอยตอบคำถามทางเทคนิคให้กับทุกคนโดยไม่มีค่าใช้จ่ายเพิ่มเติม

Minitab Technical Support at 814-231-2682 or www.minitab.com/contact-us


บทความต้นฉบับ : Regression versus ANOVA: Which Tool to Use When

ต้นฉบับนำมาจาก Minitab blog, แปลและเรียบเรียงโดยสุวดี นำพาเจริญ,

บริหารจัดการ SCM Blog โดยชลทิชา จำรัสพร บริษัท โซลูชั่น เซ็นเตอร์ จํากัด ตัวแทน Minitab ในประเทศไทย

Minitabbloglogo

เพิ่มเติมเกี่ยวกับบริษัท Minitab

Minitab ช่วยให้บริษัทและองค์กรต่างๆ สามารถมองเห็นแนวโน้มของข้อมูล, แก้ปัญหาและค้นพบประเด็นสำคัญจากข้อมูลเชิงลึก โดยนำเสนอชุดโซลูชั่นที่ครอบคลุมทุกด้านและดีที่สุดสำหรับซอฟต์แวร์ในระดับเดียวกัน ที่ใช้สำหรับการวิเคราะห์ข้อมูลและการปรับปรุงกระบวนการ 
ด้วยวิธีการที่เป็นเอกลักษณ์ และการนำเสนอซอฟต์แวร์และบริการแบบองค์รวม Minitab ช่วยให้องค์กรเข้าถึงกระบวนการตัดสินใจในส่วนที่ช่วยผลักดันให้เกิดความเป็นเลิศทางธุรกิจได้ดีขึ้น ความง่ายในการใช้งานที่โดดเด่นกว่าใครมีส่วนช่วยให้ Minitab สามารถทำให้การเข้าถึงข้อมูลเชิงลึกเป็นเรื่องที่ง่าย ทีมงานของ Minitab ซึ่งประกอบด้วยผู้เชี่ยวชาญทางด้านการวิเคราะห์ข้อมูลที่ได้ผ่านการอบรมมาเป็นอย่างเข้มงวด จะช่วยให้ผู้ใช้งานมั่นใจว่าจะได้รับประโยชน์สูงสุดจากการใช้งานวิเคราะห์ข้อมูลและพร้อมที่จะให้คำปรึกษาตลอดเวลาที่ใช้งานเพื่อนำไปสู่การตัดสินใจที่ดีขึ้น รวดเร็ว และแม่นยำ 
เป็นเวลากว่า 50 ปีที่ Minitab ได้ช่วยองค์การต่าง ๆ เพิ่มรายได้ ควบคุมและลดต้นทุน เพิ่มคุณภาพ เสริมสร้างความพึงพอใจของลูกค้า และเพิ่มประสิทธิภาพ ธุรกิจและองค์นับหมื่นทั่วโลกใช้ Minitab Statistical Software®, Companion by Minitab®, Minitab Workspace®, Salford Predictive Modeler® and Quality Trainer® เป็นเครื่องมือช่วยในการค้นพบและปรับปรุงความบกพร่องในกระบวนการ