ค่า R-squared ควรจะมีค่ามากเท่าไหร่ในการวิเคราะห์การถดถอย

ในการวิเคราะห์การถดถอย ค่า R2 ควรจะมีค่ามากเท่าไหร่ เป็นคำถามที่เราจะได้ยินบ่อยๆ

จากก่อนหน้านี้ได้กล่าวถึงการแปลความหมายของค่า R2 และได้แสดงถึงความเข้าใจผิดเกี่ยวกับค่าสถิติตัวนี้ ค่า R2 ต่ำไม่ได้หมายความไม่ดี และค่า R2 สูงไม่ได้จำเป็นต้องมีความหมายดีเสมอไป

ดังนั้น คำตอบสำหรับค่า R2  ควรจะมีค่ามากเท่าไหร่ ต้องขึ้นกับอะไรบ้าง….

ในบทความนี้จะช่วยตอบคำถามนี้สำหรับคุณ เริ่มจากถ้าคุณถามว่าค่า R2  ควรมีค่าสูงเท่าไหร่ดี นี่เป็นการตั้งคำถามที่ไม่ถูกต้องเท่าไหร่นัก แต่ควรตั้งคำถามแบบไหนจึงจะถูกต้องมากกว่า และคุณควรจะมีคำตอบว่าอะไร

ทำไมถึงเป็นคำถามที่ไม่ถูกต้อง?

“ค่า R2 ควรมีค่าสูงเท่าไหร่” ทำไมคำถามนี้จึงไม่ถูกต้อง มีคำตอบที่เป็นไปได้อย่างเดียวสำหรับคำถามนี้คือ ค่า R2  ต้องมีค่าเท่ากับเปอร์เซนต์ของความผันแปรของตัวแปรที่อธิบายได้ในตัวแบบ

หมายความว่าเมื่อคุณถามด้วยคำถามนี้ คุณต้องการจะรู้ว่าตัวแบบถดถอยที่คุณหานั้นเป็นไปตามที่คุณต้องการ และตัวแบบนั้นเพียงพอต่อความต้องการของคุณ

คำถามที่ควรจะเป็น ควรจะมีเป็นไปตามนี้ โดยคำถามที่จะใช้ก็ขึ้นกับวัตถุประสงค์ของความต้องการที่จะใช้ตัวแบบถดถอยนั้นๆ

  • ต้องการอธิบายถึงความสัมพันธ์ระหว่างตัวทำนาย(predictors) และตัวแปรตอบสนอง (Response variable)
  • ต้องการทำนายค่าตัวแปรตอบสนอง (หรือตัวแปรตาม Response variable)

ค่า R2 และความสัมพันธ์ระหว่างตัวแปรทำนาย (หรือตัวแปรอิสระ) และตัวแปรตอบสนอง

อันนี้ง่าย หากเป้าหมายหลักของคุณคือการกำหนดว่าตัวทำนายใดที่มีนัยสำคัญทางสถิติและการเปลี่ยนแปลงในตัวทำนายสัมพันธ์กับการเปลี่ยนแปลงในตัวแปรการตอบสนองอย่างไร R-squared แทบไม่มีความเกี่ยวข้องเลย

ถ้าเป้าหมายของคุณคือการหาว่าตัวแปรทำนายมีนัยสำคัญทางสถิติหรือไม่และถ้าตัวแปรทำนายเปลี่ยนไปจะทำให้ตัวแปรตอบสนองเปลี่ยนไปอย่างไร ซึ่งไม่เกี่ยวข้องกับค่า R2 แต่อย่างใด

ถ้าสมมติว่าตัวแบบถดถอยที่หามาได้นั้นถูกต้อง ค่า R2 ก็ไม่ได้ส่งผลใดๆต่อความสัมพันธ์ระหว่างตัวแปรทำนายและตัวแปรตอบสนอง

ถ้าตัวแบบความสัมพันธ์ระหว่างตัวแปรทำนายและตัวแปรตอบสนอง พบว่าผลค่า p-value ของตัวแปรทำนายมีนัยสำคัญ และค่าสัมประสิทธิ์มีค่าเป็น 2 ผลที่ได้นี้แปลความได้ว่า ถ้าตัวแปรทำนายมีค่าเพิ่มขึ้น 1 หน่วย ทำให้ค่าเฉลี่ยของผลลัพธ์เพิ่มขึ้น 2 หน่วย ซึ่งการแปลความนี้จะมีค่าเป็นเช่นเดิมไม่ว่าค่า R2 จะมีค่าเป็น 25% หรือ 95%

ดูเพิ่มเติมในบทความ See a graphical illustration of why a low R-squared doesn’t affect this interpretation

ดังนั้นกับคำถามที่ว่า “ค่า R2 ควรมีค่ามากแค่ไหน” จึงดูไม่ใช่คำถามที่เหมาะสมกับเนื้อหาตรงนี้เพราะไม่มีความเกี่ยวข้องกัน ถึงแม้ว่า R2 จะน้อยก็ไม่ได้ทำให้ผลว่าตัวแปรทำนายมีนัยสำคัญ หรือ ค่าสัมประสิทธิ์นั้นเปลี่ยนแปลงแต่อย่างใด ค่า R2 จะมีค่าเท่าไหร่ก็ตาม

การแปลความหมายยังคงเช่นเดิม และในการแปลความหมายควรจะเพื่อตอบคำถามเหล่านี้มากกว่าเช่น

ค่า R2และการทำนายค่าตัวแปรตอบสนอง

ถ้าเป้าหมายคือการหาตัวแบบที่ทำนายได้แม่นยำ ค่า R2 เป็นสิ่งที่ควรให้ความสนใจ การทำนายไม่ใช่เพียงค่าการหาค่าทำนายของตัวแปรตอบสนองแต่หมายถึงความผิดพลาดของการทำนายควรมีค่าน้อยเพื่อให้การทำนายนั้นแม่นยำขึ้น

ค่า R2 เป็นสิ่งต้องนำมาพิจารณาเพราะว่าค่า R2 ยิ่งน้อยหมายถึงตัวแบบมีความผิดพลาดเพิ่มขึ้น ดังนั้น ค่า R2 ที่ต่ำ เป็นการเตือนให้รู้ว่าการทำนายนั้นมีความแม่นยำน้อย อย่างไรก็ตามการใช้ค่า R2 เพื่อดูว่าการทำนายนั้นมีความแม่นยำเพียงพอหรือไม่ในการนำไปใช้งาน

การใช้คำถามว่า “ค่า R2 ควรมีค่ามากแค่ไหน” ยังคงไม่ใช่คำถามที่ถูกต้องอยู่ดี แต่ควรถามว่า

“ช่วงของค่าการทำนาย (prediction intervals) เพียงพอต่อความต้องการหรือไม่”

ไม่ต้องกังวล Minitab Statistical Software มีคำสั่งที่สามารถให้คำตอบตรงนี้ได้

ช่วงของค่าการทำนายและความแม่นยำ (Prediction intervals and precision)

ช่วงของค่าการทำนาย (Prediction intervals) เป็นค่าที่แทนช่วงของค่าทำนายค่าหนึ่งที่ได้จากค่าของตัวแปรทำนายที่กำหนด ช่วงของค่านี้จะนับรวมค่าผิดพลาดรอบค่าเฉลี่ยของค่าทำนาย ซึ่งช่วงค่าการทำนายที่แคบหมายถึงมีความแม่นยำสูง

ตัวอย่างเช่น ในบทความ BMI to predict body fat percentage ซึ่งใช้ค่า BMI ในการทำนายค่าเปอร์เซ็นต์ไขมันในร่างกาย ซึ่งค่า BMI เท่ากับ 18 ซึ่งได้ผลว่าค่าช่วงการทำนายเปอร์เซ็นต์ไขมันอยู่ที่ 16-30% และให้ความเชื่อมั่น 95% ว่าค่าสังเกตตัวใหม่ที่จะได้จะอยู่ในช่วงดังกล่าวนี้

fittedlp intervals

ตอนนี้คุณพอจะนึกออกแล้วว่าเรื่องนี้ควรเกี่ยวข้องกับอะไรบ้าง เช่น ข้อกำหนดเฉพาะ ความต้องการของลูกค้า เป็นต้น ซึ่งช่วงของค่าทำนายนั้นเพียงพอกับสิ่งที่คุณต้องการหรือไม่ แนวคิดนี้ใช้ประเมินว่าตัวแบบมีความแม่นยำเท่าใดซึ่งดีกว่าเป็นการบอกว่าค่า R-squared ที่ดีควรมีค่าเท่าใด

เช่นตัวอย่าง ตัวแบบไขมันในร่างกายถึงแม้ว่าช่วงของค่าทำนายจะมีความกว้างอยู่มากแต่ผมมั่นใจว่าแพทย์สามารถใช้ค่านี้ให้เป็นประโยชน์ได้อย่างแน่นอน ในการหาช่วงค่าการทำนายสามารถหาอ่านเพิ่มเติมได้ที่ “how to obtain and use prediction intervals”

ความหมายของ R-squared ที่อาจจะเกินจริง!

เวลาที่คุณถามว่า  “ค่า R2 ควรมีค่ามากแค่ไหน” เป็นเพราะคุณต้องการที่จะรู้ว่าตัวแบบการถดถอยที่ได้มานั้นเป็นไปตามความต้องการหรือไม่ แต่จากในส่วนต้นของบทความนี้การหาว่าตัวแบบนี้เพียงพอสำหรับความต้องการหรือไม่ควรจะพิจารณาจากสิ่งใดมากกว่ามาสนใจค่า  R2 เพียงอย่างเดียว

ค่า R2 มักเป็นค่าที่ทุกคนให้ความสนใจอาจเป็นเพราะคิดว่าค่านั้นสามารถแปลความได้ง่ายและสะท้อนภาพออกมาได้ดี ซึ่งจริงๆไม่ใช่เลย แต่นั่นไม่ได้หมายความว่า ค่า R2 ไม่มีประโยชน์เลย แต่แทนที่จะสนใจว่ามีค่าสูงหรือต่ำควรจะหันไปสนใจว่าทำไมค่า R2 ที่ได้ถึงมีค่าแตกต่างกัน

ในบทความต่อไป จะกล่าวถึงเรื่อง S (standard error of the regression) ค่าส่วนเบี่ยงมาตรฐานของการถดถอยแตกต่างจากค่า goodness-of-fit ซึ่งสามารถนำไปใช้ได้มากกว่า ค่า R2

ถ้าต้องการจะเรียนรู้เพิ่มเติมเกี่ยวกับตัวแบบถดถอย (regression) อ่านเพิ่มเติมได้ที่ “regression tutorial


บทความต้นฉบับ : How High Should R-squared Be in Regression Analysis?

ต้นฉบับนำมาจาก Minitab blog, แปลและเรียบเรียงโดยสุวดี นำพาเจริญ

บริหารจัดการ SCM Blog โดยชลทิชา จำรัสพร บริษัท โซลูชั่น เซ็นเตอร์ จํากัด ตัวแทน Minitab ในประเทศไทย

Minitabbloglogo

เพิ่มเติมเกี่ยวกับบริษัท Minitab

Minitab ช่วยให้บริษัทและองค์กรต่างๆ สามารถมองเห็นแนวโน้มของข้อมูล, แก้ปัญหาและค้นพบประเด็นสำคัญจากข้อมูลเชิงลึก โดยนำเสนอชุดโซลูชั่นที่ครอบคลุมทุกด้านและดีที่สุดสำหรับซอฟต์แวร์ในระดับเดียวกัน ที่ใช้สำหรับการวิเคราะห์ข้อมูลและการปรับปรุงกระบวนการ 
ด้วยวิธีการที่เป็นเอกลักษณ์ และการนำเสนอซอฟต์แวร์และบริการแบบองค์รวม Minitab ช่วยให้องค์กรเข้าถึงกระบวนการตัดสินใจในส่วนที่ช่วยผลักดันให้เกิดความเป็นเลิศทางธุรกิจได้ดีขึ้น ความง่ายในการใช้งานที่โดดเด่นกว่าใครมีส่วนช่วยให้ Minitab สามารถทำให้การเข้าถึงข้อมูลเชิงลึกเป็นเรื่องที่ง่าย ทีมงานของ Minitab ซึ่งประกอบด้วยผู้เชี่ยวชาญทางด้านการวิเคราะห์ข้อมูลที่ได้ผ่านการอบรมมาเป็นอย่างเข้มงวด จะช่วยให้ผู้ใช้งานมั่นใจว่าจะได้รับประโยชน์สูงสุดจากการใช้งานวิเคราะห์ข้อมูลและพร้อมที่จะให้คำปรึกษาตลอดเวลาที่ใช้งานเพื่อนำไปสู่การตัดสินใจที่ดีขึ้น รวดเร็ว และแม่นยำ 
เป็นเวลากว่า 50 ปีที่ Minitab ได้ช่วยองค์การต่าง ๆ เพิ่มรายได้ ควบคุมและลดต้นทุน เพิ่มคุณภาพ เสริมสร้างความพึงพอใจของลูกค้า และเพิ่มประสิทธิภาพ ธุรกิจและองค์นับหมื่นทั่วโลกใช้ Minitab Statistical Software®, Companion by Minitab®, Minitab Workspace®, Salford Predictive Modeler® and Quality Trainer® เป็นเครื่องมือช่วยในการค้นพบและปรับปรุงความบกพร่องในกระบวนการ