การวิเคราะห์สมการถดถอย การแปลความหมายค่า R-Square และการประเมินตัวแบบว่าเหมาะสมหรือไม่

เมื่อทำการหาตัวแบบเชิงเส้นด้วยการวิเคราะห์การถดดอย  ANOVA และ การออกแบบการทดลอง เราจะต้องมี การประเมินตัวแบบนั้นด้วยว่ามีความเหมาะสมในการนำไปใช้งานหรื่อไม่ ซึ่งใน Minitab statistical software มีตัวสถิติที่ใช้ทดสอบความ สมรูปของตัวแบบ (Goodness of fit statistics) ให้เลือกนำมาใช้ในการประเมินตัวแบบอยู่หลากหลายตัว แต่ในที่นี้จะพูดถึง ตัวสถิติ ค่า R2 (R-Squared) โดยพูดถึงข้อจำกัดและความหมายอื่นๆ ซึ่งในบางครั้งการที่ค่า R2  มีค่าต่ำ อาจไม่ได้หมายความ ว่าไม่ดีทุกครั้งไป และเช่นกันค่า R2 ที่มีค่าสูงก็ไม่ได้มีความหมายในเชิงบวกเสมอไป

ตัวแบบเชิงเส้นที่มีความสมรูปคือ

ตัวแบบการถดถอยเชิงเส้น (Linear Regression Model) ได้มาจากการคำนวณระยะห่างระหว่างเส้นตรง ที่มาจากข้อมูลค่าสังเกต และ ค่าที่คำนวณได้จากสมการเส้นตรง (Fitted) และสมการเส้นตรงที่ได้จะให้เกิดค่าระยะห่าง ของจุดข้อมูลกับเส้นตรงโดยรวมน้อยที่สุด ทางเทคนิคจะใช้ค่า OSL (Ordinary Least Square) เพื่อทำให้เกิดค่าผลรวมของค่าเศษเหลือกำลังสอง (sum of the square residual) ให้น้อยที่สุด

โดยทั่วไปแล้วตัวแบบที่เหมาะสม จะมีความแตกต่างของค่าที่สังเกตได้กับค่าที่คำนวณตามสมการน้อย และเป็นค่าที่ไม่เอนเอียง (unbiased)

ก่อนที่จะทำการวิเคราะห์ความสมรูปทางสถิติ คุณควรที่จะทำการตรวจสอบแผนภาพเศษเหลือ (Residual plots) ร่วมด้วยเสมอ   ซึ่งจากแผนภาพเศษเหลือนี้ จะทำให้เห็นรูปแบบของค่าเศษเหลือที่ไม่มีคุณภาพ ซึ่งบ่งบอกถึงความเอนเอียง ได้ดีกว่าการวิเคราะห์ด้วยตัวเลข ถ้าแผนภาพเศษเหลือนี้แสดงให้เห็นว่าไม่มีความผิดปกติใดๆ การวิเคราะห์ด้วยตัวเลขก็ทำให้ น่าเชื่อถือได้ดีขึ้นแล้วจึงไปทำการวิเคราะห์ความสมรูปของตัวแบบอีกทีหนึ่ง

ค่า R-Squared คืออะไร

ค่า R-Squared คือตัวสถิติที่ใช้วัดว่าตัวแบบคณิตศาสตร์ที่ได้นี้มีความสมรูปกับข้อมูลมากน้อยอย่างไร หรือรู้จักกัน ในอีกความหมายหนึ่งว่าเป็น ค่าสัมประสิทธิ์แสดงการตัดสินใจ (Coefficient of Determination) หรือ ค่าสัมประสิทธิ์แสดง การตัดสินใจเชิงซ้อน (Coefficient of Multiple Determination) สำหรับการวิเคราะห์การถดถอยแบบพหุคูณ (Multiple Regression)

นิยามของค่า R-Squared คือ ค่าความผันแปรของตัวแปรตอบสนองที่สามารถอธิบายได้มีอยู่ในตัวแบบเชิงเส้นนี้ กี่เปอร์เซ็นต์ หรือ

R-Squared = ความผันแปรที่สามารถอธิบายได้ / ความผันแปรทั้งหมด (Explained variation / Total Variation)

ค่า R-Squared จะมีค่าอยู่ระหว่าง  0%  – 100%

  • 0% แสดงให้เห็นว่า ตัวแบบคณิตศาสาตร์ที่ได้มานั้นไม่สามารถอธิบายความผันแปรของค่าตัวแปรตอบสนอง ต่างที่กระจายรอบค่าเฉลี่ยได้เลย
  • 100% แสดงให้เห็นว่า ตัวแบบคณิตศาสาตร์ที่ได้มานั้นสามารถอธิบายความผันแปรของค่าตัวแปรตอบสนอง ต่างที่กระจายรอบค่าเฉลี่ยได้เป็นอย่างดี

โดยทั่วไปแล้ว ค่า R-Squared สูงๆ หมายความว่า ตัวแบบคณิตศาสตร์นั้นดี (เหมาะสมกับข้อมูล) แต่อย่างไรก็ตาม ยังมีเงื่อนไขบางอย่างที่ต้องมีพร้อมกับค่า R-Squared สูงๆนี้ด้วย

แผนภาพที่แสดงถึงค่า R-Squared

ในแผนภาพนี้เป็นการพลอตค่าข้อมูลที่สังเกตได้และค่าข้อมูลที่คำนวณได้จากตัวแบบคณิตศาสตร์  ซึ่งทั้งสอง แผนภาพนี้มีค่า R-Squared แตกต่างกัน

fittedxobserved

ตัวแบบด้านซ้าย มีค่า 38% ของความแปรปรวน ส่วนของตัวแบบด้านขวามีค่า 87.4% ของความแปรปรวน ซึ่งถ้า ค่าเปอร์เซนต์ยิ่งมีค่ามาก หมายความว่าตัวแบบสามารถคำนวณค่าได้ใกล้เคียงกับค่าสังเกตมาก (หรือ ค่าสังเกตจะอยู่บน เส้นตรงของตัวแบบ) ในทางทฤษฎีถ้าตัวแบบสามารถอธิบายความแปรปรวนได้ 100% หมายความว่า ค่าที่คำนวณได้จะ มีค่าเท่ากับค่าที่สังเกตได้ ดังนั้นค่าข้อมูลที่สังเกตได้จะอยู่บนเส้นตรงของตัวแบบคณิตศาสาตร์ทุกจุด


ready

ข้อจำกัดของค่า R-Squared

ค่า R-Squared ไม่สามารถบอกได้ว่าค่าที่คำนวณได้นั้นมีความเอนเอียงหรือไม่ ซึ่งจำเป็นต้องใช้การวิเคราะห์ แผนภาพเศษเหลือมาเป็นตัวช่วย

ค่า R-Squared ไม่สามารถบอกได้ว่า ตัวแบบคณิตศาสตร์นี้มีความเหมาะสมดีแล้วหรือไม่ ซึ่งบางครั้งตัวแบบ คณิตศาสตร์ที่ดีอาจให้ค่า R-Squared ต่ำ และบางกรณีที่มีค่า R-Squared สูงตัวแบบก็ไม่เหมาะสมกับข้อมูล

ดูรายละเอียดเพิ่มเติม : The R-squared in your output is a biased estimate of the population R-squared

ค่า R-Squared ต่ำ ย่อมมีความหมายไม่ดีเสมอไปหรือไม่

คำตอบคือ ไม่ ด้วยเหตุผล 2 ข้อ คือ

ในบางสาขา เรารู้อยู่แล้วว่าค่า R-Squared ที่จะได้มาจะมีค่าต่ำ เช่น การทำนายพฤติกรรมมนุษย์ ในสาขาจิตวิทยา โดยทั่วไปค่า R-Squared ที่ได้จะมีค่าต่ำกว่า 50% เนื่องด้วย มนุษย์เป็นสิ่งที่ยากจะคาดเดาได้ เมื่อเทียบกับกระบวนการทาง กายภาพ

ถ้าในกรณีที่ R-Squared มีค่าต่ำ แต่ค่าตัวทำนายมีนัยสำคัญทางสถิติ คุณยังสามารถใช้ผลสรุปว่า เมื่อทำการ เปลี่ยนแปลงค่าตัวทำนายนี้เป็นแบบไหน จะทำให้ค่าตัวแปรตอบสนองเป็นอย่างไร และไม่ว่า ค่า R-Squared จะเป็นอย่างไร ค่าสัมประสิทธิ์ในตัวแบบตัวใดที่มีนัยสำคัญ ก็ยังคงใช้เพื่ออธิบายการ เปลี่ยนแปลงของตัวแปรตอบสนองว่ามีจำนวนเท่าไหร่ เมื่อมีการเปลี่ยนแปลงค่าตัวทำนาย (predictor) 1 หน่วย (โดยที่ให้ค่า ตัวทำนายที่เหลือมีค่าคงที่) ซึ่งถือว่าข้อมูลตรงนี้มีคุณค่าที่ต้องคำนึงถึงเป็นอย่างมาก

ดูรายละเอียดเพิ่มเติม : See a graphical illustration of why a low R-squared doesn’t affect the interpretation of significant variables

ส่วนค่า R-Squared ที่มีค่าต่ำ จะเป็นปัญหาอย่างมากเมื่อต้องการทำนายค่าตัวแปรตอบสนองให้มีความแม่นยำ ของค่าที่มากขึ้น (ช่วงของการทำนาย (prediction interval) มีค่าช่วงไม่กว้างมากนัก) ดังนั้นเพื่อให้การทำนายได้ผลอย่างเหมาะสม ค่า R-Squared ควรมีค่าประมาณเท่าไหร่ ? คำตอบก็ขึ้นอยู่กับว่า ความต้องการของคุณที่อยากจะได้ช่วงของความกว้างของค่าที่ทำนายนั้นมีขนาดช่วงเท่าไหร่ และความผันแปรที่จะมีในข้อมูล มีค่าเป็นเท่าไหร่ เพราะค่า R-Squared ที่มีค่าสูงย่อมให้การทำนายค่าตัวแปรตอบสนองที่มีความแม่นยำสูงกว่า แต่เท่านี้อาจไม่ เพียงพอ ซึ่งเราจะมาดูกันในหัวข้อต่อไป

ค่า R-Squared สูง ย่อมมีความหมายดีเสมอไปหรือไม่

คำตอบคือ ไม่ ค่า R-Squared ที่มีค่าสูง อาจไม่ได้หมายความว่าตัวแบบที่ได้นั้นมีความสมรูปกับข้อมูลเป็นอย่างดี ซึ่งมีคำตอบที่ซ่อนอยู่ ดูจากแผนภาพเศษเหลือและแผนภาพของเส้นตัวแบบ ด้านล่างทั้ง 2 แผนภาพนี้ แผนภาพของเส้นตัวแบบ (Fitted Line Plot) เป็นแผนภาพที่แสดงความสัมพันธ์ระหว่าง ค่า Mobility ของอิเลคตรอนใน ชิ้นส่วน semiconductor และค่า  natural log (ln) ของ density ที่เกิดขึ้นในการทดลอง

flplinear 1
reslinear 1

จากแผนภาพจะเห็นได้ว่า ตัวแบบมีความเหมาะสมดีกับข้อมูล (ข้อมูลเรียงตัวอยู่บนเส้นสมการในแผนภาพ) และค่า R-Squared สูงถึง 98.5% ซึ่งถือว่าเป็นผลที่ดีมากแต่ถ้าดูไปที่เส้นสมการถดถอยจะเห็นได้ว่าในแต่ละช่วงของเส้นโค้งจะมีความ เบี่ยงเบน (bias) ของข้อมูลอยู่ทั้งเหนือ และ ใต้เส้นโค้งตลอดช่วง ซึ่งเมื่อมาพิจารณาที่แผนภาพเศษเหลือ (Residual plot) จะเห็นได้ว่าในแผนภาพเศษเหลือไม่แสดงรูปแบบ random ของข้อมูล ซึ่งเป็นตัวบ่งบอกว่าตัวแบบนั้นไม่ดี ดังนั้นทุกครั้งในการวิเคราะห์ความเหมาะสมของตัวแบบ จะต้องมีการวิเคราะห์แผนภาพเศษเหลือด้วยเสมอ

จากตัวอย่างนี้ จะเห็นได้ว่าการต้องเลือกระหว่างสมการถดถอยเชิงเส้นและสมการถดถอยแบบไม่เป็นเชิงเส้น(linear and nonlinear regression) ถ้าจะต้องนำมาพิจารณา คำตอบสำหรับตัวอย่างกรณีนี้คือ จะต้องมีการใช้ตัวแบบสมการถดถอยแบบไม่เป็นเชิงเส้น เพราะว่าข้อมูลไม่สมรูปกับตัวแบบเชิงเส้นนั่นเอง

ดูรายละเอียดเพิ่มเติม : Five Reasons Why Your R-squared Can Be Too High

บทสรุปเกี่ยวกับค่า R-Squared

ค่า R-Squared ถือเป็นค่าที่นำมาใช้วัดว่าตัวแบบสมการเชิงเส้นที่ได้มานั้นมีความเหมาะสมกับข้อมูลหรือไม่ แต่อย่างไรก็ตาม การมองเฉพาะค่า R-Squared อย่างเดียวอาจไม่สามารถตอบได้ว่าตัวแบบสมการนั้นเหมาะสมหรือไม่ แต่ต้องมีการพิจารณาค่า R-Squared ร่วมกับการวิเคราะห์แผนภาพเศษเหลือ และตัวสถิติอื่นๆ (F-test of overall significance)

ในเรื่องถัดไป จะยังพูดถึงค่า R-Squared ต่อ ซึ่งยังมีค่า R-Squared อีก 2 ค่าคือ ค่า adjusted R-squared and predicted R-squared ซึ่งค่าวัดทั้ง 2 ค่านี้จะสามารถตอบคำถามที่ ค่า R-Squared ยังไม่สามารถให้คำตอบได้

ดูรายละเอียดเพิ่มเติม : How high should R-squared be?

หากคุณต้องการเรียนรู้เพิ่มเติมเกี่ยวกับ Regression สามารถหาอ่านเพิ่มเติมได้ที่ regression tutorial!


บทความต้นฉบับ : Regression Analysis: How Do I Interpret R-squared and Assess the Goodness-of-Fit?

ต้นฉบับนำมาจาก Minitab blog, แปลและเรียบเรียงโดยสุวดี นำพาเจริญ,

บริหารจัดการ SCM Blog โดยชลทิชา จำรัสพร บริษัท โซลูชั่น เซ็นเตอร์ จํากัด ตัวแทน Minitab ในประเทศไทย

Minitabbloglogo

เพิ่มเติมเกี่ยวกับบริษัท Minitab

Minitab ช่วยให้บริษัทและองค์กรต่างๆ สามารถมองเห็นแนวโน้มของข้อมูล, แก้ปัญหาและค้นพบประเด็นสำคัญจากข้อมูลเชิงลึก โดยนำเสนอชุดโซลูชั่นที่ครอบคลุมทุกด้านและดีที่สุดสำหรับซอฟต์แวร์ในระดับเดียวกัน ที่ใช้สำหรับการวิเคราะห์ข้อมูลและการปรับปรุงกระบวนการ 
ด้วยวิธีการที่เป็นเอกลักษณ์ และการนำเสนอซอฟต์แวร์และบริการแบบองค์รวม Minitab ช่วยให้องค์กรเข้าถึงกระบวนการตัดสินใจในส่วนที่ช่วยผลักดันให้เกิดความเป็นเลิศทางธุรกิจได้ดีขึ้น ความง่ายในการใช้งานที่โดดเด่นกว่าใครมีส่วนช่วยให้ Minitab สามารถทำให้การเข้าถึงข้อมูลเชิงลึกเป็นเรื่องที่ง่าย ทีมงานของ Minitab ซึ่งประกอบด้วยผู้เชี่ยวชาญทางด้านการวิเคราะห์ข้อมูลที่ได้ผ่านการอบรมมาเป็นอย่างเข้มงวด จะช่วยให้ผู้ใช้งานมั่นใจว่าจะได้รับประโยชน์สูงสุดจากการใช้งานวิเคราะห์ข้อมูลและพร้อมที่จะให้คำปรึกษาตลอดเวลาที่ใช้งานเพื่อนำไปสู่การตัดสินใจที่ดีขึ้น รวดเร็ว และแม่นยำ 
เป็นเวลากว่า 50 ปีที่ Minitab ได้ช่วยองค์การต่าง ๆ เพิ่มรายได้ ควบคุมและลดต้นทุน เพิ่มคุณภาพ เสริมสร้างความพึงพอใจของลูกค้า และเพิ่มประสิทธิภาพ ธุรกิจและองค์นับหมื่นทั่วโลกใช้ Minitab Statistical Software®, Companion by Minitab®, Minitab Workspace®, Salford Predictive Modeler® and Quality Trainer® เป็นเครื่องมือช่วยในการค้นพบและปรับปรุงความบกพร่องในกระบวนการ