เป้าหมายของการวิเคราะห์การถดถอย คือ การคาดการณ์ที่แม่นยำ มี 2 ปัจจัยสองที่ส่งผลต่อความสามารถในการคาดการณ์ของตัวแบบจำลอง คือ รูปแบบสมการทางคณิตศาสตร์ของตัวแปรในตัวแบบ (รูปแบบเชิงเส้นตรง พจน์ของ interactions หรือ รูปแบบกำลังสอง) และ ตัวอย่างข้อมูลที่นำมาใช้ในสร้างตัวแบบ ตัวแบบที่มีจำนวนพจน์ของตัวแปรมากเกินไปมักทำให้การคาดการณ์ข้อมูลใหมได้ไม่ดี
โปรแกรม Minitab Statistical Software ทำให้งานวิเคราะห์การถดถอยมีความง่ายยิ่งขึ้น โดยการวิเคราะห์การถดถอยมักนำไปใช้
- สร้าง ตรวจสอบ และ แสดงภาพจำลองสถานการณ์ของการใช้ตัวแบบทำนาย (อยู่ในบทความส่วนที่ 1)
- ทวนสอบ(Validate)ความถูกต้องของตัวแบบในการให้ผลค่าทำนายว่าเป็นอย่างไร
- วิเคราะห์และทำการเลือกตัวแบบที่เหมาะสมที่สุดให้อัตโนมัติ(Automate)
- ทำนายผลลัพธ์(Predict) และหาค่าปัจจัยที่เหมาะสม
ในบทความก่อนหน้านี้ได้กล่าวถึงการสร้าง การตรวจสอบ และ แสดงภาพจำลองสถานการณ์ของการใช้ตัวแบบทำนายไว้แล้ว ในบทความส่วนนี้จะเป็นการกล่าวถึง การทวนสอบความถูกต้องของตัวแบบในการให้ผลค่าทำนายว่าเป็นอย่างไร การวิเคราะห์และทำการเลือกตัวแบบที่เหมาะสมที่สุด การทำนายผลลัพธ์และการหาค่าปัจจัยที่เหมาะสม
การทวนสอบ(Validate)ความถูกต้องของตัวแบบในการให้ผลค่าทำนายว่าเป็นอย่างไร
รูปภาพด้านล่างแสดงตัวแบบที่มีลักษณะ overfit เมื่อมีการทดลองใช้ตัวแบบจำลองที่ได้มากับข้อมูลใหม่ที่มาจากกระบวนการเดียวกัน ผลของคาดการณ์ค่าวัดใหม่ที่ได้จากตัวแบบจำลองนี้จะให้ผลลัพธ์การทำนายได้ไม่ดีนัก หากใช้ตัวแบบจำลองเชิงเส้นเที่มีลักษณะพอดีกับข้อมูลต้นฉบับ (good fit) จะทำให้ผลัพธ์ของการคาดการณ์มีความแม่นยำยิ่งขึ้น จึงต้องมีการทวนสอบเพื่อป้องกันไม่ให้ได้ตัวแบบที่มีความสามารถในการทำนายต่ำเกินไป
การทวนสอบความถูกต้อง จะแบ่งเป็นสองขั้นตอน โดยขั้นตอนแรกเป็นการสร้างตัวแบบจำลองที่ใช้ข้อมูลจำนวนหนึ่ง (ถือเป็นชุดข้อมูลให้ตัวแบบได้เรียนรู้ เรียก “ชุดเรียนรู้” – “ training set”) ขั้นตอนที่สองจะใช้ตัวแบบจำลองที่สร้างมาทำการคาดการณ์กับข้อมูลชุดที่ไม่ได้นำไปใช้ตอนสร้างและฝึกตัวแบบในขั้นตอนแรก (ถือเป็นชุดข้อมูลในการทดสอบ เรียก “ชุดทดสอบ” – “test set”) ในขั้นตอนการทวนสวนมีเทคนิคการทวนสอบความถูกต้องอยู่ 3 วิธีได้แก่ leave-one-out , K-Fold และการทวนสอบความถูกต้องด้วยชุดการทดสอบ
ในช่วงการทวนสอบ นักวิเคราะห์จะต้องทำความเข้าใจผลที่ได้จากการใช้ตัวแบบจำลองและค่า R2 โดยค่า R2 เหล่านี้ใช้เพื่อดูว่าตัวแบบที่ได้มามีความผันแปรมากน้อยเพียงใด และความสามารถในการทำนายค่าของตัวแบบมีความแม่นยำเท่าไหร่ ทางทฤษฎีค่า R2 ที่ยิ่งมากยิ่งดี แต่ถ้ามีการใส่ตัวแปรในตัวแบบมากเกินไปอาจทำให้เกิดปัญหา overfitting และจะทำให้ค่า R2 แตกต่างกันอย่างมากระหว่างชุดทดสอบและชุดฝึก
การทวนสอบด้วยวิธี Leave-One-Out Validation
ในขั้นตอนการทวนสอบด้วยวิธีนี้ จะทำการลดจำนวนข้อมูลออกจากชุดข้อมูลทดสอบไปทีละตัว เมื่อเหลือข้อมูลจำนวน n-1 ตัวจะนำไปใช้กับตัวแบบจำลองที่ได้มาจากขั้นตอนการสร้าง (โดยข้อมูลที่ใช้ในการสร้างตัวแบบจะเป็นคนละส่วนกับที่ใช้ในการทวนสอบ) เมื่อได้ค่าทำนายของข้อมูลตัวที่ถูกลบออกไปจะนำไปหาค่าความคลาดเคลื่อน จากนั้นทำซ้ำขั้นตอนดังกล่าวนี้ไปจนครบข้อมูลทุกตัวในชุดทดสอบ ค่าความคลาดเคลื่อนจากการทำนายทั้งหมดจะถูกนำมาคิดเป็นค่า predicted R2 ซึ่งถือเป็นค่าพื้นฐานที่ต้องมีการคำนวณเวลาวิเคราะห์ตัวแบบถดถอย
การทวนสอบด้วยวิธี K-Fold
ในการทวนสอบแบบ K-Fold จะเริ่มจากการจัดกลุ่มข้อมูลที่มีจำนวนเท่ากัน จำนวน K กลุ่ม ค่าที่นิยมใช้ทั่วไปของ K คือ 10 วิธีการทวนสอบจะเริ่มจากนำข้อมูลกลุ่มแรกออกจากการทดสอบตัวแบบ และใช้ข้อมูลกลุ่มที่เหลือกับตัวแบบที่ได้มา ข้อมูลกลุ่มที่เว้นไว้จะถูกนำมาคำนวณหาค่าความคลาดเคลื่อนจากการทำนาย และทำขั้นตอนดังกล่าวนี้ซ้ำๆไปจนครบ แล้วนำค่าคลาดเคลื่อนทั้งหมดไปคำนวณหาค่า composite K-Fold R2
เทคนิคการทวนสอบด้วยวิธีชุดทดสอบ(Test Set)
การทวนสอบด้วยวิธีนี้จะใช้ข้อมูลชุดทดสอบที่จัดสรรไว้ตั้งแต่แรกในการทดสอบตัวแบบ โดยอาจจะมีการแบ่งข้อมูลไว้ 30% เพื่อการทดสอบ และ 70% เป็นข้อมูลที่ใช้ในการสร้าง(ฝึก) ตัวแบบ ข้อมูล 30% ดังกล่าวจะถูกนำมาคำนวณหาค่าความคลาดเคลื่อนในการทำนาย และทำการหาค่า R2 ของการทดสอบ (Test R2)
การเปรียบเทียบเทคนิคการทวนสอบ
เทคนิค K-Fold ถือเป็นวิธีที่ดีที่สุดในกรณีที่มีจำนวนข้อมูลขนาดกำลังดี และ เทคนิคการทวนสอบด้วยวิธีชุดทดสอบเหมาะกับกรณีที่มีจำนวนข้อมูลมาก และข้อสังเกตสำคัญ คือ เทคนิค leave-one-out และ K-fold เป็นการตรวจสอบความถูกต้องของรูปแบบของตัวแบบเท่านั้น ไม่ใช่เป็นการทวนสอบค่าสัมประสิทธิ์ของตัวแบบจำลองเหมือนกับการทวนสอบความถูกต้องด้วยวิธีชุดทดสอบ
การวิเคราะห์อัตโนมัติ(Automate)และการเลือกแบบจำลอง
โดยทั่วไปนักวิเคราะห์จะเป็นผู้เลือกแบบจำลองการถดถอยด้วยตัวเอง แต่อย่างไรก็ตามเมื่อจำนวนข้อมูลมากขึ้นและจำนวนตัวแปรที่เพิ่มขึ้นตามมาด้วย ส่งผลให้การเลือกพจน์ของตัวแปรที่จะมาอยู่ในตัวแบบด้วยตนเองเป็นเรื่องยากขึ้น ดังนั้นการเลือกตัวแบบโดยอัตโนมัติ สามารถทำได้โดยมีขั้นตอนทั่วไปอยู่ 3 แบบ คือ
- ใช้เกณฑ์อัลฟ่าสำหรับค่า p ของแต่ละพจน์: เรียกวิธีนี้ว่า Stepwise เป็นการเลือกแบบ forward และ การกำจัดแบบ backward เพื่อเลือกพจน์ที่มีนัยสำคัญ(เปรียบเทียบกับค่าระดับนัยสำคัญที่เป็นเกณฑ์) ไปอยู่ในตัวแบบ
- ใช้เกณฑ์ข้อมูลสำหรับตัวแบบจำลอง: การเลือกแบบ AICc หรือ BIC Forward เป็นการเลือกตัวแบบ ที่ลดเกณฑ์ข้อมูลที่ใช้
- ใช้ค่า R-Squared เพื่อให้ได้ความสามารถในการคาดการณ์ของตัวแบบที่ดี: ในวิธี K-Fold หรือ วิธีการตรวจสอบความถูกต้องด้วยชุดทดสอบ จะใช้ร่วมกับการเลือกแบบ forward เพื่อเลือกตัวแบบที่มีค่า test R2 สูงที่สุด
วิธีการเหล่านี้มักทำให้ผลของการเลือกตัวแบบแตกต่างกัน ดังนั้นเพื่อให้ผลการเลือกตัวแบบเป็นไปอย่างดีที่สุด จึงควรใช้ความรู้ในอุตสาหกรรมที่เกี่ยวข้องกับกระบวนการนั้นเพื่อค้นหาวิธีแก้ปัญหาที่เป็นประโยชน์และมีประสิทธิภาพมากที่สุด
การทำนายผลลัพธ์(Predict)และหาค่าปัจจัยที่เหมาะสม
การวิเคราะห์การถดถอยถือเป็นเครื่องมือที่มีประสิทธิภาพ และเมื่อเลือกตัวแบบจำลองที่ “ดีที่สุด” แล้วก็สามารถนำตัวแบบนั้นไปใช้ในการคาดการณ์ได้ ตัวอย่างที่นำมาพิจารณานี้เกี่ยวข้องกับห้องปลอดเชื้อในโรงงานผลิตหนึ่ง ค่าที่จะทำการคาดการณ์ คือ จำนวนอนุภาคที่มีขนาดอย่างน้อย 0.5 μ ต่อลูกบาศก์ฟุตที่มีจำนวนอย่างน้อย 100 ซึ่งค่าดังกล่าวนี้ขึ้นกับตัวทำนายหลายตัว วิศวกรที่ดูแลกระบวนการนี้ได้ทำการสร้างตัวแบบจำลองสำหรับคาดการณ์จำนวนอนุภาคไว้ดังนี้
ตัวแปรทำนายที่ใช้ คือ ค่า Production volume เท่ากับ 1,000 ค่า Employees เท่ากับ 7 และ และค่า Entrances/Exits เท่ากับ 24 และได้ผลของการทำนายดังนี้
ผลลัพธ์จากการทำนาย คือ จำนวนอนุภาคเฉลี่ยเท่ากับ 87.63 และยังมีช่วงความเชื่อมั่น (CI) และ ช่วงการคาดการณ์ (PI) เพื่อให้ครอบคลุมความคลาดเคลื่อนในการทำนาย
Minitab ทำให้การวิเคราะห์ถดถอยเป็นเรื่องง่ายขึ้น
ความสามารถของ Minitab ช่วยให้นักวิเคราะห์ใช้เครื่องมือหลายๆอย่างสำหรับวิเคราะห์การถดถอย (Regression) หากคุณยังไม่ได้เคยใช้ Minitab เพื่อการทำงานกับข้อมูลของคุณ คุณสามารถทดลองใช้โปรแกรม Minitab Statistical Software ได้ฟรี 30 วันนับตั้งแต่วันนี้ด้วยการดาวน์โหลดที่ download 30-day trial of Minitab Statistical Software
บทความต้นฉบับ : Predictive Analytics using Minitab’s Regression – Part II
ต้นฉบับนำมาจาก Minitab blog, แปลและเรียบเรียงโดยสุวดี นำพาเจริญ,
บริหารจัดการ SCM Blog โดยชลทิชา จำรัสพร บริษัท โซลูชั่น เซ็นเตอร์ จํากัด ตัวแทน Minitab ในประเทศไทย
เพิ่มเติมเกี่ยวกับบริษัท Minitab
Minitab ช่วยให้บริษัทและองค์กรต่างๆ สามารถมองเห็นแนวโน้มของข้อมูล, แก้ปัญหาและค้นพบประเด็นสำคัญจากข้อมูลเชิงลึก โดยนำเสนอชุดโซลูชั่นที่ครอบคลุมทุกด้านและดีที่สุดสำหรับซอฟต์แวร์ในระดับเดียวกัน ที่ใช้สำหรับการวิเคราะห์ข้อมูลและการปรับปรุงกระบวนการ
ด้วยวิธีการที่เป็นเอกลักษณ์ และการนำเสนอซอฟต์แวร์และบริการแบบองค์รวม Minitab ช่วยให้องค์กรเข้าถึงกระบวนการตัดสินใจในส่วนที่ช่วยผลักดันให้เกิดความเป็นเลิศทางธุรกิจได้ดีขึ้น ความง่ายในการใช้งานที่โดดเด่นกว่าใครมีส่วนช่วยให้ Minitab สามารถทำให้การเข้าถึงข้อมูลเชิงลึกเป็นเรื่องที่ง่าย ทีมงานของ Minitab ซึ่งประกอบด้วยผู้เชี่ยวชาญทางด้านการวิเคราะห์ข้อมูลที่ได้ผ่านการอบรมมาเป็นอย่างเข้มงวด จะช่วยให้ผู้ใช้งานมั่นใจว่าจะได้รับประโยชน์สูงสุดจากการใช้งานวิเคราะห์ข้อมูลและพร้อมที่จะให้คำปรึกษาตลอดเวลาที่ใช้งานเพื่อนำไปสู่การตัดสินใจที่ดีขึ้น รวดเร็ว และแม่นยำ
เป็นเวลากว่า 50 ปีที่ Minitab ได้ช่วยองค์การต่าง ๆ เพิ่มรายได้ ควบคุมและลดต้นทุน เพิ่มคุณภาพ เสริมสร้างความพึงพอใจของลูกค้า และเพิ่มประสิทธิภาพ ธุรกิจและองค์นับหมื่นทั่วโลกใช้ Minitab Statistical Software®, Companion by Minitab®, Minitab Workspace®, Salford Predictive Modeler® and Quality Trainer® เป็นเครื่องมือช่วยในการค้นพบและปรับปรุงความบกพร่องในกระบวนการ