บทความก่อนหน้า ฉันได้เน้นถึงงานวิจัยทางวิชาการล่าสุดที่แสดงถึงผลของการตีความผลลัพธ์ที่ได้จากสมการถดถอยผิด ในบทความนี้จะพูดถึงเทคนิค 4 หัวข้อที่จะช่วยทำหลีกเลี่ยงข้อผิดพลาดพื้นฐานในการวิเคราะห์การถดถอย ที่มีพบเห็นได้ในงานวิจัยต่างๆ
ซึ่งจะมุ่งไปที่งานที่มีการประยุกต์ใช้การวิเคราะห์การถดถอยเพื่อการตัดสินใจมากกว่าการชี้ว่าตัวทำนายทาง สถิตินั้นมีนัยสำคัญหรือไม่ ซึ่งการประยุกต์ใช้การวิเคราะห์การถดถอยจะเน้นไปที่ผลที่สามารถส่งไปถึงค่าผลลัพธ์ และความแม่นยำในการทำนาย
1. ใช้ผลการศึกษาก่อนหน้าเพื่อมากำหนดตัวแปรที่จะรวมในตัวแบบการถดถอย
ก่อนที่จะเริ่มการวิเคราะห์การถดถอย คุณควรที่จะมีกรอบว่าตัวแปรใดมีความสำคัญในความสัมพันธ์ เครื่องหมายของตัวสัมประสิทธิ์และขนาดของอิทธิพล ซึ่งอ้างอิงจากงานวิจัยที่ทำมาก่อนหน้า น่าเสียดายที่แนวโน้มของ แนวคิดนี้ได้เปลี่ยนไปแล้ว แม้ว่าจะมีฐานข้อมูลเดิมและสามารถนำฐานข้อมูลนั้นมาสร้างตัวแบบถดถอยได้
ถ้าคุณต้องการเห็นปัญหานี้ ให้เริ่มต้นตั้งแต่การสังเคราะห์ข้อมูล โดยเริ่มสร้างแผ่นงาน (worksheet) ใน Minitab Statistical Software ให้มี 101 คอลัมน์ แต่ละคอลัมน์มี 30 แถว และสร้างข้อมูลอย่างสุ่มลงในแผ่นงาน หรือใช้ ข้อมูลจากไฟล์ตัวอย่าง (worksheet) จากสร้างการถดถอยแบบขั้นบันได (stepwise regression) โดยให้ คอลัมน์หนึ่งเป็นตัวแปรตอบสนอง (responsive variable) และให้คอลัมน์ที่เหลือเป็นตัวแปรทำนายที่มีความเป็นไปได้(potential predictor variable) ทำการจำลอง สถานการณ์ของข้อมูลเพื่อดูผลวิเคราะห์ที่เกิดขึ้น
จากผลลัพธ์ที่แสดงข้างล่างนี้ แต่ละคอลัมน์ของผลลัพธ์แสดงค่าตัวสถิติของ 5 ขั้นแรกที่ได้จากการวิเคราะห์ แบบขั้นบันได สำหรับกรณีที่มีตัวแปรทำนาย 5 ตัว มีค่า R-squared 84.23% และ ค่า adjusted R-squared 80.12% ค่า p-values ไม่ได้แสดงไว้ที่นี่ แต่ทุกตัวมีค่าน้อยและไม่ถึง 0.01
ส่วนของ stepwise regression and best subsets regression จะเป็นงานในส่วนขั้นตอนแรก คุณจะต้องมีเหตุผล ที่มากพอที่จะบอกว่าตัวแปรทำนายใดที่ควรนำไปรวมในตัวแบบถดถอย มากกว่าเพียงแค่นำมาตัดสินใจว่าจะปฏิเสธ สมมติฐานหลัก (Null hypothesis) หรือไม่
2. ทำให้ตัวแบบเป็นตัวแบบที่ง่ายที่สุด (Keep the model simple)
ถึงแม้ว่า ปัญหาที่มีความซับซ้อนอาจจะทำให้คิดว่าตัวแบบที่ได้ควรจะมีความซับซ้อนด้วย แต่ในความเป็นจริง จากการศึกษาหลายๆงานพบว่า ตัวแบบที่มีความซับซ้อนน้อยยิ่งทำให้การทำนายมีความแม่นยำมากขึ้น อย่างไรจึงจะ เรียกว่าไม่ซับซ้อน ในหลายๆกรณีจะถือว่าตัวแบบที่มีเพียง 3 ตัวแปรทำนาย ถือว่าเพียงพอแล้ว
ดังนั้นควรเริ่มจากตัวแบบอย่างง่าย และจะใช้ตัวแบบที่มีความซับซ้อนต่อเมื่อมีความจำเป็นเท่านั้น และต้องมั่นใจ ด้วยว่าตัวแปรที่เพิ่มเข้ามานั้นจะทำให้มีความแม่นยำเพิ่มขึ้น โดยเมื่อความซับซ้อนเพิ่มขึ้นเหมือนว่าจะทำให้สมการมีความ สมรูปมากขึ้น (the model fit) (ค่า r-squared) แต่อาจจะทำให้ความแม่นยำของการทำนายมีค่าลดลง (ความกว้างของช่วงของทำนาย จะมีความกว้างเพิ่มขึ้น)
บทความอีกอันหนึ่งจะเขียนอธิบายถึงผลดีผลเสีย และการเลือกตัวแปรทำนายกี่ตัวให้อยู่ในตัวแบบถึงจะได้ผลดี ที่เหมาะสม ซึ่งอ่านได้ในบทความ adjusted and predicted r-squared
3. ความสัมพันธ์ไม่ได้หมายความว่าเป็นเหตุให้เกิดสิ่งนั้น เช่นเดียวกับในการวิเคราะห์การถดถอยด้วย
ข้อความนี้เป็นข้อเท็จจริงทางสถิติที่ดูไม่ซับซ้อนอะไร แต่ในการวิเคราะห์การถดถอยหลายๆครั้งบางคนก็ลืมกฎข้อนี้ไป ตัวแบบที่คุณได้อาจจะเป็นตัวแบบที่ดีมีตัวแปรทำนายที่มีนัยสำคัญ ค่า r-squared สูง แต่อาจจะได้เพียงค่าความสัมพันธ์ (correlation) แต่ไม่ได้สาเหตุที่เกิดสิ่งนั้น (causation)
การวิเคราะห์การถดถอยนอกขอบเขตแบบการทดลองไม่ใช่แนวทางที่ดีในการระบุสาเหตุความสัมพันธ์ระหว่างตัวแปร
ในบางกรณี อาจจะไม่ได้เป็นปัญหาใดๆการทำนายอาจไม่จำเป็นต้องการเหตุผลว่าทำไมตัวแปรทำนายและ ตัวแปรตอบสนองจึงมีความสัมพันธ์กัน ในทางกลับกัน ตัวแปรแทน (proxy variable ) ที่มีความสัมพันธ์กับตัวแปร ตอบสนอง ที่สามารถแสดงความสัมพันธ์ออกมาได้ง่ายกว่าและทำให้การทำนายที่ผลมีความน่าเชื่อถือได้เพียงพอ
อย่างไรก็ตามถ้าคุณต้องการศึกษาผลลัพธ์ที่ได้จากการกำหนดค่าตัวแปร คุณต้องระบุจากความสัมพันธ์ที่แท้จริง
เพื่อให้ภาพตรงนี้ชัดเจนขึ้น ให้นึกถึงการศึกษาที่ไม่ได้มีการควบคุมการทดลองให้เกิดแบบสุ่ม (randomized controlled trials) ของการศึกษาว่าวิตามินมีผลต่อสุขภาพหรือไม่ หรือ การรับประทานวิตามินทำให้เกิดนิสัยที่เป็น ประโยชน์ต่อสุขภาพทำให้เกิดสุขภาพที่ดีขึ้น (read my post) ซึ่งคิดได้ง่ายๆว่า ถ้าการรับประทานวิตามินไม่ได้ทำให้สุขภาพดีขึ้น ดังนั้นการทานวิตามินมากขึ้นก็จะไม่ทำให้สุขภาพดีขึ้น
4. การแสดงค่าช่วงความเชื่อมั่นและช่วงการทำนายเพิ่มจากผลความมีนัยสำคัญของการวิเคราะห์
ผลความมีนัยสำคัญและช่วงความเชื่อมั่นจะต้องมีผลที่สอดคล้องกัน เช่น ถ้าตัวสถิตินั้นมีค่าไม่ใช่ค่าศูนย์ มีผลนัยสำคัญ ที่ α = 0.05 คุณจะได้ผลของ 95% ช่วงความเชื่อมั่นของตัวสถิตินั้นไม่ครอบคลุมค่าศูนย์
ผลที่ได้อย่างสอดคล้องกันนี้ ทำให้ การนำสาระข้อมูลไปใช้มีความเปลี่ยนแปลงไป ซึ่งได้มีการกล่าวไว้ ในบทความก่อนหน้านี้แล้ว ในการแสดงผลทั้งสองนี้ทำให้การแปลผลมีความถูกต้องเพิ่มขึ้น การศึกษาด้วยการแสดงผล ความมีนัยสำคัญที่ระดับนัยสำคัญของการทดสอบ จะให้ข้อสรุปที่ถูกต้อง เพียงแค่ 40% แต่ถ้ามีการแสดงผลของ ช่วงความเชื่อมั่นด้วยจะทำให้ความถูกต้องเพิ่มเป็น 95%
รายละเอียดเพิ่มเติม อ่านบทความของฉันเรื่อง confidence intervals, prediction intervals, and tolerance intervals.
จะทำการแยกการวิเคราะห์การถดถอยที่ดีและที่มีความถูกต้องน้อยได้อย่างไร
สำหรับการวิเคราะห์การถดถอยที่ดี ผู้วิเคราะห์ :
- ใช้ข้อมูลที่เชื่อถือจำนวนมากพอ และมีตัวแปรทำนายจำนวนน้อยที่สามารถแสดง ความสัมพันธ์ระหว่างกันได้อย่างดี
- ใช้เหตุผลที่ดีในการนำตัวแปรนั้นมารวมในตัวแบบ
- ใช้งานวิจัยหลากหลายที่เกี่ยวข้องและจำเป็นต้องมีมาร่วมด้วย
- นำเสนอผลด้วยกราฟ ช่วงความเชื่อมั่น และ ช่วงการทำนาย โดยให้การแปลผลนั้นมีความสอดคล้องกัน และสนับสนุนกัน
ทางกลับกัน การวิเคราะห์ที่มีข้อกพร่อง
- ผู้วิเคราะห์ใช้สมการการถดถอยที่อยู่นอก การทดลอง เพื่อค้นหาเรื่องความเป็นเหตุเป็นผลของตัวแปร
- เข้าใจผิดเรื่องการสังเคราะห์ข้อมูล ทั้งนี้เพราะมีฐานข้อมูลจำนวนมากอยู่ในมือ
- ทำการรวมตัวแปรทุกตัวในตัวแบบเพียงเพราะผลการทดสอบนั้นมีนัยสำคัญ
- ใช้ตัวแบบที่มีความซับซ้อน เพราะต้องการให้ค่า r-squared มีค่าเพิ่มขึ้น
- แสดงผลการวิเคราะห์เฉพาะ ค่าสัมประสิทธิ์(coefficients) ค่า p-values ค่า r-squared ซึ่งอาจทำให้มีการแปลผลอย่างไม่ถูกต้อง
ถ้าคุณกำลังเรียนรู้เกี่ยวกับการถดถอย อ่าน regression tutorial!
บทความต้นฉบับ : Four Tips on How to Perform a Regression Analysis that Avoids Common Problems
ต้นฉบับนำมาจาก Minitab blog, แปลและเรียบเรียงโดยสุวดี นำพาเจริญ,
บริหารจัดการ SCM Blog โดยชลทิชา จำรัสพร บริษัท โซลูชั่น เซ็นเตอร์ จํากัด ตัวแทน Minitab ในประเทศไทย
เพิ่มเติมเกี่ยวกับบริษัท Minitab
Minitab ช่วยให้บริษัทและองค์กรต่างๆ สามารถมองเห็นแนวโน้มของข้อมูล, แก้ปัญหาและค้นพบประเด็นสำคัญจากข้อมูลเชิงลึก โดยนำเสนอชุดโซลูชั่นที่ครอบคลุมทุกด้านและดีที่สุดสำหรับซอฟต์แวร์ในระดับเดียวกัน ที่ใช้สำหรับการวิเคราะห์ข้อมูลและการปรับปรุงกระบวนการ
ด้วยวิธีการที่เป็นเอกลักษณ์ และการนำเสนอซอฟต์แวร์และบริการแบบองค์รวม Minitab ช่วยให้องค์กรเข้าถึงกระบวนการตัดสินใจในส่วนที่ช่วยผลักดันให้เกิดความเป็นเลิศทางธุรกิจได้ดีขึ้น ความง่ายในการใช้งานที่โดดเด่นกว่าใครมีส่วนช่วยให้ Minitab สามารถทำให้การเข้าถึงข้อมูลเชิงลึกเป็นเรื่องที่ง่าย ทีมงานของ Minitab ซึ่งประกอบด้วยผู้เชี่ยวชาญทางด้านการวิเคราะห์ข้อมูลที่ได้ผ่านการอบรมมาเป็นอย่างเข้มงวด จะช่วยให้ผู้ใช้งานมั่นใจว่าจะได้รับประโยชน์สูงสุดจากการใช้งานวิเคราะห์ข้อมูลและพร้อมที่จะให้คำปรึกษาตลอดเวลาที่ใช้งานเพื่อนำไปสู่การตัดสินใจที่ดีขึ้น รวดเร็ว และแม่นยำ
เป็นเวลากว่า 50 ปีที่ Minitab ได้ช่วยองค์การต่าง ๆ เพิ่มรายได้ ควบคุมและลดต้นทุน เพิ่มคุณภาพ เสริมสร้างความพึงพอใจของลูกค้า และเพิ่มประสิทธิภาพ ธุรกิจและองค์นับหมื่นทั่วโลกใช้ Minitab Statistical Software®, Companion by Minitab®, Minitab Workspace®, Salford Predictive Modeler® and Quality Trainer® เป็นเครื่องมือช่วยในการค้นพบและปรับปรุงความบกพร่องในกระบวนการ