4 เทคนิคในการวิเคราะห์สมการถดถอยเพื่อหลีกเลี่ยงปัญหาพื้นฐาน

บทความก่อนหน้า ฉันได้เน้นถึงงานวิจัยทางวิชาการล่าสุดที่แสดงถึงผลของการตีความผลลัพธ์ที่ได้จากสมการถดถอยผิด ในบทความนี้จะพูดถึงเทคนิค 4 หัวข้อที่จะช่วยทำหลีกเลี่ยงข้อผิดพลาดพื้นฐานในการวิเคราะห์การถดถอย ที่มีพบเห็นได้ในงานวิจัยต่างๆ

ซึ่งจะมุ่งไปที่งานที่มีการประยุกต์ใช้การวิเคราะห์การถดถอยเพื่อการตัดสินใจมากกว่าการชี้ว่าตัวทำนายทาง สถิตินั้นมีนัยสำคัญหรือไม่  ซึ่งการประยุกต์ใช้การวิเคราะห์การถดถอยจะเน้นไปที่ผลที่สามารถส่งไปถึงค่าผลลัพธ์ และความแม่นยำในการทำนาย

1. ใช้ผลการศึกษาก่อนหน้าเพื่อมากำหนดตัวแปรที่จะรวมในตัวแบบการถดถอย

ก่อนที่จะเริ่มการวิเคราะห์การถดถอย คุณควรที่จะมีกรอบว่าตัวแปรใดมีความสำคัญในความสัมพันธ์ เครื่องหมายของตัวสัมประสิทธิ์และขนาดของอิทธิพล ซึ่งอ้างอิงจากงานวิจัยที่ทำมาก่อนหน้า น่าเสียดายที่แนวโน้มของ แนวคิดนี้ได้เปลี่ยนไปแล้ว แม้ว่าจะมีฐานข้อมูลเดิมและสามารถนำฐานข้อมูลนั้นมาสร้างตัวแบบถดถอยได้

ถ้าคุณต้องการเห็นปัญหานี้ ให้เริ่มต้นตั้งแต่การสังเคราะห์ข้อมูล โดยเริ่มสร้างแผ่นงาน (worksheet) ใน Minitab Statistical Software ให้มี 101 คอลัมน์ แต่ละคอลัมน์มี 30 แถว และสร้างข้อมูลอย่างสุ่มลงในแผ่นงาน หรือใช้ ข้อมูลจากไฟล์ตัวอย่าง (worksheet) จากสร้างการถดถอยแบบขั้นบันได (stepwise regression) โดยให้ คอลัมน์หนึ่งเป็นตัวแปรตอบสนอง (responsive variable) และให้คอลัมน์ที่เหลือเป็นตัวแปรทำนายที่มีความเป็นไปได้(potential predictor variable) ทำการจำลอง สถานการณ์ของข้อมูลเพื่อดูผลวิเคราะห์ที่เกิดขึ้น

จากผลลัพธ์ที่แสดงข้างล่างนี้  แต่ละคอลัมน์ของผลลัพธ์แสดงค่าตัวสถิติของ 5 ขั้นแรกที่ได้จากการวิเคราะห์ แบบขั้นบันได สำหรับกรณีที่มีตัวแปรทำนาย 5 ตัว มีค่า R-squared  84.23% และ ค่า adjusted R-squared 80.12%   ค่า p-values ไม่ได้แสดงไว้ที่นี่ แต่ทุกตัวมีค่าน้อยและไม่ถึง 0.01

random stepwise

ส่วนของ stepwise regression and best subsets regression จะเป็นงานในส่วนขั้นตอนแรก คุณจะต้องมีเหตุผล ที่มากพอที่จะบอกว่าตัวแปรทำนายใดที่ควรนำไปรวมในตัวแบบถดถอย มากกว่าเพียงแค่นำมาตัดสินใจว่าจะปฏิเสธ สมมติฐานหลัก (Null hypothesis) หรือไม่

2. ทำให้ตัวแบบเป็นตัวแบบที่ง่ายที่สุด (Keep the model simple)

ถึงแม้ว่า ปัญหาที่มีความซับซ้อนอาจจะทำให้คิดว่าตัวแบบที่ได้ควรจะมีความซับซ้อนด้วย แต่ในความเป็นจริง จากการศึกษาหลายๆงานพบว่า ตัวแบบที่มีความซับซ้อนน้อยยิ่งทำให้การทำนายมีความแม่นยำมากขึ้น  อย่างไรจึงจะ เรียกว่าไม่ซับซ้อน ในหลายๆกรณีจะถือว่าตัวแบบที่มีเพียง 3 ตัวแปรทำนาย ถือว่าเพียงพอแล้ว

overfitlineplotnoequ

ดังนั้นควรเริ่มจากตัวแบบอย่างง่าย และจะใช้ตัวแบบที่มีความซับซ้อนต่อเมื่อมีความจำเป็นเท่านั้น และต้องมั่นใจ ด้วยว่าตัวแปรที่เพิ่มเข้ามานั้นจะทำให้มีความแม่นยำเพิ่มขึ้น โดยเมื่อความซับซ้อนเพิ่มขึ้นเหมือนว่าจะทำให้สมการมีความ สมรูปมากขึ้น (the model fit) (ค่า r-squared) แต่อาจจะทำให้ความแม่นยำของการทำนายมีค่าลดลง (ความกว้างของช่วงของทำนาย จะมีความกว้างเพิ่มขึ้น)

บทความอีกอันหนึ่งจะเขียนอธิบายถึงผลดีผลเสีย และการเลือกตัวแปรทำนายกี่ตัวให้อยู่ในตัวแบบถึงจะได้ผลดี ที่เหมาะสม ซึ่งอ่านได้ในบทความ adjusted and predicted r-squared

3. ความสัมพันธ์ไม่ได้หมายความว่าเป็นเหตุให้เกิดสิ่งนั้น  เช่นเดียวกับในการวิเคราะห์การถดถอยด้วย

ข้อความนี้เป็นข้อเท็จจริงทางสถิติที่ดูไม่ซับซ้อนอะไร แต่ในการวิเคราะห์การถดถอยหลายๆครั้งบางคนก็ลืมกฎข้อนี้ไป  ตัวแบบที่คุณได้อาจจะเป็นตัวแบบที่ดีมีตัวแปรทำนายที่มีนัยสำคัญ ค่า r-squared สูง แต่อาจจะได้เพียงค่าความสัมพันธ์ (correlation)  แต่ไม่ได้สาเหตุที่เกิดสิ่งนั้น (causation)

การวิเคราะห์การถดถอยนอกขอบเขตแบบการทดลองไม่ใช่แนวทางที่ดีในการระบุสาเหตุความสัมพันธ์ระหว่างตัวแปร

ในบางกรณี อาจจะไม่ได้เป็นปัญหาใดๆการทำนายอาจไม่จำเป็นต้องการเหตุผลว่าทำไมตัวแปรทำนายและ ตัวแปรตอบสนองจึงมีความสัมพันธ์กัน  ในทางกลับกัน ตัวแปรแทน (proxy variable ) ที่มีความสัมพันธ์กับตัวแปร ตอบสนอง ที่สามารถแสดงความสัมพันธ์ออกมาได้ง่ายกว่าและทำให้การทำนายที่ผลมีความน่าเชื่อถือได้เพียงพอ

อย่างไรก็ตามถ้าคุณต้องการศึกษาผลลัพธ์ที่ได้จากการกำหนดค่าตัวแปร คุณต้องระบุจากความสัมพันธ์ที่แท้จริง

เพื่อให้ภาพตรงนี้ชัดเจนขึ้น ให้นึกถึงการศึกษาที่ไม่ได้มีการควบคุมการทดลองให้เกิดแบบสุ่ม (randomized controlled trials) ของการศึกษาว่าวิตามินมีผลต่อสุขภาพหรือไม่ หรือ การรับประทานวิตามินทำให้เกิดนิสัยที่เป็น ประโยชน์ต่อสุขภาพทำให้เกิดสุขภาพที่ดีขึ้น (read my post) ซึ่งคิดได้ง่ายๆว่า ถ้าการรับประทานวิตามินไม่ได้ทำให้สุขภาพดีขึ้น ดังนั้นการทานวิตามินมากขึ้นก็จะไม่ทำให้สุขภาพดีขึ้น

4. การแสดงค่าช่วงความเชื่อมั่นและช่วงการทำนายเพิ่มจากผลความมีนัยสำคัญของการวิเคราะห์

ผลความมีนัยสำคัญและช่วงความเชื่อมั่นจะต้องมีผลที่สอดคล้องกัน เช่น ถ้าตัวสถิตินั้นมีค่าไม่ใช่ค่าศูนย์ มีผลนัยสำคัญ ที่ α = 0.05 คุณจะได้ผลของ 95% ช่วงความเชื่อมั่นของตัวสถิตินั้นไม่ครอบคลุมค่าศูนย์

ผลที่ได้อย่างสอดคล้องกันนี้ ทำให้ การนำสาระข้อมูลไปใช้มีความเปลี่ยนแปลงไป ซึ่งได้มีการกล่าวไว้ ในบทความก่อนหน้านี้แล้ว ในการแสดงผลทั้งสองนี้ทำให้การแปลผลมีความถูกต้องเพิ่มขึ้น การศึกษาด้วยการแสดงผล ความมีนัยสำคัญที่ระดับนัยสำคัญของการทดสอบ จะให้ข้อสรุปที่ถูกต้อง เพียงแค่ 40% แต่ถ้ามีการแสดงผลของ ช่วงความเชื่อมั่นด้วยจะทำให้ความถูกต้องเพิ่มเป็น 95%

รายละเอียดเพิ่มเติม อ่านบทความของฉันเรื่อง confidence intervals, prediction intervals, and tolerance intervals.

จะทำการแยกการวิเคราะห์การถดถอยที่ดีและที่มีความถูกต้องน้อยได้อย่างไร

สำหรับการวิเคราะห์การถดถอยที่ดี ผู้วิเคราะห์ :

  • ใช้ข้อมูลที่เชื่อถือจำนวนมากพอ และมีตัวแปรทำนายจำนวนน้อยที่สามารถแสดง ความสัมพันธ์ระหว่างกันได้อย่างดี
  • ใช้เหตุผลที่ดีในการนำตัวแปรนั้นมารวมในตัวแบบ
  • ใช้งานวิจัยหลากหลายที่เกี่ยวข้องและจำเป็นต้องมีมาร่วมด้วย
  • นำเสนอผลด้วยกราฟ ช่วงความเชื่อมั่น และ ช่วงการทำนาย โดยให้การแปลผลนั้นมีความสอดคล้องกัน และสนับสนุนกัน

ทางกลับกัน การวิเคราะห์ที่มีข้อกพร่อง

  • ผู้วิเคราะห์ใช้สมการการถดถอยที่อยู่นอก การทดลอง เพื่อค้นหาเรื่องความเป็นเหตุเป็นผลของตัวแปร
  • เข้าใจผิดเรื่องการสังเคราะห์ข้อมูล ทั้งนี้เพราะมีฐานข้อมูลจำนวนมากอยู่ในมือ
  • ทำการรวมตัวแปรทุกตัวในตัวแบบเพียงเพราะผลการทดสอบนั้นมีนัยสำคัญ
  • ใช้ตัวแบบที่มีความซับซ้อน เพราะต้องการให้ค่า r-squared มีค่าเพิ่มขึ้น
  • แสดงผลการวิเคราะห์เฉพาะ ค่าสัมประสิทธิ์(coefficients) ค่า p-values ค่า r-squared  ซึ่งอาจทำให้มีการแปลผลอย่างไม่ถูกต้อง

ถ้าคุณกำลังเรียนรู้เกี่ยวกับการถดถอย อ่าน regression tutorial!


บทความต้นฉบับ : Four Tips on How to Perform a Regression Analysis that Avoids Common Problems

ต้นฉบับนำมาจาก Minitab blog, แปลและเรียบเรียงโดยสุวดี นำพาเจริญ,

บริหารจัดการ SCM Blog โดยชลทิชา จำรัสพร บริษัท โซลูชั่น เซ็นเตอร์ จํากัด ตัวแทน Minitab ในประเทศไทย

Minitabbloglogo

เพิ่มเติมเกี่ยวกับบริษัท Minitab

Minitab ช่วยให้บริษัทและองค์กรต่างๆ สามารถมองเห็นแนวโน้มของข้อมูล, แก้ปัญหาและค้นพบประเด็นสำคัญจากข้อมูลเชิงลึก โดยนำเสนอชุดโซลูชั่นที่ครอบคลุมทุกด้านและดีที่สุดสำหรับซอฟต์แวร์ในระดับเดียวกัน ที่ใช้สำหรับการวิเคราะห์ข้อมูลและการปรับปรุงกระบวนการ 
ด้วยวิธีการที่เป็นเอกลักษณ์ และการนำเสนอซอฟต์แวร์และบริการแบบองค์รวม Minitab ช่วยให้องค์กรเข้าถึงกระบวนการตัดสินใจในส่วนที่ช่วยผลักดันให้เกิดความเป็นเลิศทางธุรกิจได้ดีขึ้น ความง่ายในการใช้งานที่โดดเด่นกว่าใครมีส่วนช่วยให้ Minitab สามารถทำให้การเข้าถึงข้อมูลเชิงลึกเป็นเรื่องที่ง่าย ทีมงานของ Minitab ซึ่งประกอบด้วยผู้เชี่ยวชาญทางด้านการวิเคราะห์ข้อมูลที่ได้ผ่านการอบรมมาเป็นอย่างเข้มงวด จะช่วยให้ผู้ใช้งานมั่นใจว่าจะได้รับประโยชน์สูงสุดจากการใช้งานวิเคราะห์ข้อมูลและพร้อมที่จะให้คำปรึกษาตลอดเวลาที่ใช้งานเพื่อนำไปสู่การตัดสินใจที่ดีขึ้น รวดเร็ว และแม่นยำ 
เป็นเวลากว่า 50 ปีที่ Minitab ได้ช่วยองค์การต่าง ๆ เพิ่มรายได้ ควบคุมและลดต้นทุน เพิ่มคุณภาพ เสริมสร้างความพึงพอใจของลูกค้า และเพิ่มประสิทธิภาพ ธุรกิจและองค์นับหมื่นทั่วโลกใช้ Minitab Statistical Software®, Companion by Minitab®, Minitab Workspace®, Salford Predictive Modeler® and Quality Trainer® เป็นเครื่องมือช่วยในการค้นพบและปรับปรุงความบกพร่องในกระบวนการ