สมมติฐานพื้นฐานทั่วไปของข้อมูล (ส่วนที่ 2: คุณสมบัติตัวแปรสุ่มแบบปกติและความเท่ากันของความแปรปรวน)

ในส่วนที่ 1 ของบทความชุดนี้ ได้พูดถึงสถิติอนุมาน (inferential statistic)ว่ามีการใช้ข้อมูลที่ได้จากสิ่งตัวอย่างเพื่อทำให้ได้ข้อสรุปเกี่ยวกับประชากรทั้งหมดอย่างไร ซึ่งเป็นเครื่องมือที่มีประโยชน์แต่จะต้องมีการทวนสอบสมมติฐานตอนใช้สถิติอนุมาน ถ้ามีสมมติฐานใดไม่ได้ตามที่กำหนด อาจทำให้ได้ผลลัพธ์บวกปลอม (false  positive) หรือ ผลลัพธ์ลบปลอม (false negative) ซึ่งให้ผลลัพธ์ที่ได้มาไม่สามารถใช้งานได้

สมมติฐานพื้นฐานทั่วไปของข้อมูล คือ ข้อมูลมีความสุ่ม ความเป็นอิสระ เป็นตัวแปรสุ่มแบบปกติ ความแปรปรวนเท่ากัน และ ระบบการวัดมีความถูกต้องและแม่นยำ

ในบทความที่แล้วพูดถึงเรื่องความสุ่มและความเป็นอิสระ ต่อไปจะพูดถึงเรื่องการเป็นตัวแปรสุ่มแบบปกติ และ ความเท่ากันของความแปรปรวน

สมมติฐานการเป็นตัวแปรสุ่มแบบปกติคืออะไร (What is the assumption of Normality)

ก่อนการทดสอบทางสถิติ คุณจะต้องหาว่าข้อมูลนั้นมีการแจกแจงอะไร ซึ่งถ้าคุณไม่ได้ทำการหาการแจกแจงของข้อมูลก่อนอาจทำให้คุณเลือกเครื่องมือในการทดสอบไม่เหมาะสม วิธีทางสถิติหลายๆอย่างจะมีข้อระบุสมมติฐานว่าข้อมูลจะต้องมีการแจกแจงแบบปกติ  ซึ่งได้แก่ การทดสอบ t ของแบบประชากรเดี่ยว และ ประชากรสองกลุ่ม ความสามารถของกระบวนการ (Process Capability)  I-MR และ ANOVA ถ้าข้อมูลที่ได้มาไม่เป็นไปตามการแจกแจงแบบปกติ คุณจะต้องไปใช้เครื่องมือทดสอบแบบไม่ใช้พารามิเตอร์แทน (non-parametric test) ซึ่งจะใช้ค่ามัธยฐานแทนการใช้ค่าเฉลี่ย หรือใช้วิธีแปลงข้อมูลของ Box-Cox หรือ Johnson (Box-Cox or Johnson Transformation) เพื่อทำให้ข้อมูลที่ไม่ได้มีการแจกแจงเป็นปกติมีการแจกแจงแบบปกติ

blog case 2 01

แต่ว่าเครื่องมือทางสถิติหลายๆตัวที่มีสมมติฐานว่าข้อมูลต้องมีการแจกแจงเป็นปกติ ไม่ได้ต้องการให้ข้อมูลมีการแจกแจงแบบปกติอย่างทีเดียวเมื่อมีข้อมูลอย่างน้อย 15-20 ข้อมูล แต่ถ้าจำนวนสิ่งตัวอย่างมีน้อยกว่า 15 ตัว และข้อมูลไม่เป็นไปตามการแจกแจงแบบปกติ ค่า p-value ที่แสดงอาจมีค่าไม่ถูกต้อง และการแปลความหมายควรใช้ความระมัดระวังมากขึ้น

ใน Minitab มีเครื่องมือที่ใช้การหาว่ามีการแจกแจงแบบปกติหรือไม่อยู่หลายตัว และในที่นี้จะยกมา 2 เครื่องมือ คือ การทดสอบความเป็นปกติ (the Normality test) และ การใช้กราฟ (Graphical Summary)

Normality Test ใน Minitab จะทำการสร้างกราฟความน่าจะเป็น (Probability Plot) และทำการทดสอบสมมติฐานเพื่อดูว่าประชากรที่สิ่งตัวอย่างสุ่มมานั้นมีการแจกแจงแบบปกติหรือไม่ โดยสมมติฐานหลัก คือ ประชากรมีความเป็นปกติ (การแจกแจงแบบปกติ) และ สมมติฐานทางเลือก คือ ประชากรมีความไม่เป็นปกติ (ไม่มีการแจกแจงแบบปกติ)

เลือก Stat > Basic Statistics > Normality Test

blog case 2 02

ในการประเมินว่าข้อมูลมีการแจกแจงที่เหมาะสมหรือไม่ในเครื่องมือทดสอบการแจกแจงแบบปกติ

  • ข้อมูลที่พล๊อตลงในกราฟจะแสดงเป็นลักษณะเส้นตรง อาจจะมีจุดที่ออกนอกเส้นตรงบ้างแต่ยังอยู่ในขอบเขตของช่วงความเชื่อมั่น
  • ข้อมูลที่พล๊อตลงในกราฟควรจะอยู่ใกล้เส้นการแจกแจงมากที่สุด และ ผ่านการทดสอบ “Fat Pencil”  ให้ จินตนาการว่ามี ดินสอด้ามหนาๆ (Fat Pencil) วางอยู่บนเส้นการแจกแจงที่กำหนดไว้ (Fitted line)  และข้อมูลทั้งหมดนั้นไม่อยู่นอกกรอบของดินสอนั้น และถ้าเป็นแบบนั้นอาจจะสรุปได้ว่าข้อมูลนั้นมีการแจกแจงแบบปกติ
  • ค่าสถิติ Anderson-darling มีค่าน้อย
  • ค่า P-Value ของการทดสอบมีค่ามากกว่าระดับนัยสำคัญ(α level) ที่กำหนดในการทดสอบ เช่น 0.05 หรือ 0.10

ค่าสถิติ Anderson-Darling คือ ค่าวัดของระยะห่างระหว่างจุดที่พล๊อตกับเส้นการแจกแจง (Fitted line) ในกราฟความน่าจะเป็น ค่าสถิติมาจากการคำนวณระยะห่างของจุดข้อมูลและเส้นแจกแจง แล้วทำการเปรียบเทียบค่าถ่วงน้ำหนักยกกำลังสอง (Weighted squared) ของชุดข้อมูลที่มีการแจกแจงที่เหมาะสม กรณีที่เป็นการแจกแจงแบบปกติควรมีค่าสถิติที่มีค่าน้อย

การใช้สถิติเชิงพรรณนา (Descriptive Statistic)ของ Minitab คือการใช้ผลสรุปของกราฟ ซึ่งนำมาใช้แสดงผลได้ดี อีกทั้งมีการคำนวณค่า Anderson-Darling และ ค่า P-value แสดงร่วมด้วย ผลสรุปของกราฟจะแสดงกราฟ 4 รูป คือ ฮีสโตแกรมที่มีเส้นโค้งปกติ กราฟสี่เหลี่ยม (Box-plot)  95% ช่วงความเชื่อมั่นสำหรับค่าเฉลี่ยและค่ามัธยฐาน

เลือก Stat > Basic Statistics > Graphical Summary

blog case 2 03

ในการแปลความหมายสำหรับการทดสอบการแจกแจงแบบปกติ

  • ข้อมูลแสดงในฮีสโตแกรมอย่างเหมาะสม ซึ่งจะไม่มีความเบ้ (Skewness) ของข้อมูลในกราฟ การกระจายตัว (spread) ของข้อมูลตลอดช่วงในกราฟ และดูว่ามีค่า outliers หรือไม่
  • ค่า Anderson – Darling ควรมีค่าน้อย
  • ค่า P-Value ของการทดสอบมีค่ามากกว่าระดับนัยสำคัญ(α level) ที่กำหนดในการทดสอบ เช่น 0.05 หรือ 0.10

สำหรับบางกระบวนการ เช่น ข้อมูลเวลาและรอบเวลา ข้อมูลอาจจะไม่มีการแจกแจงแบบปกติ ข้อมูลที่ไม่ได้มีการแจกแจงแบบปกติอาจจะใช้กับเครื่องมือบางตัวได้ดี ขอเพียงตรวจสอบให้มั่นใจว่าตรงตามความต้องการ (requirements) ในการวิเคราะห์นั้นหรือไม่

สมมติฐานความเท่ากันของความแปรปรวนคืออะไร (What is the Assumption of Equal Variance?)

ความแปรปรวนจะหมายถึงการกระจายตัวของข้อมูล (Spread or scatter) การทดสอบทางสถิติ เช่น การวิเคราะห์ความแปรปรวน (ANOVA) สมมติว่าข้อมูลที่แตกต่างกันซึ่งอาจจะมาจากประชากรที่มีค่าเฉลี่ยที่แตกต่างกัน แต่จะต้องมีความแปรปรวนที่เท่ากัน ความเท่ากันของความแปรปรวน (Equal Variances หรือ ความแปรปรวนคงที่ ทางสถิติเรียกว่า Homoscedasticity) ซึ่งจะแสดงค่าความแปรปรวนที่ใกล้เคียงกันตลอดในทุกกลุ่มสิ่งตัวอย่าง

ความแปรปรวนที่ไม่เท่ากัน Unequal Variances หรือ ความแปรปรวนไม่คงที่ ทางสถิติเรียกว่า Heteroscedasticity) จะส่งผลต่อ ค่าความคลาดเคลื่อน Type I และอาจทำให้เกิดผลลัพธ์บวกปลอม (False positive) ถ้าคุณทำการเปรียบเทียบค่าเฉลี่ยของสิ่งตัวอย่าง 2 กลุ่ม หรือ มากกว่า 2  เช่นการทดสอบ t ของประชากร 2 กลุ่ม และ ANOVA  ความแปรปรวนที่แตกต่างกันอย่างมีนัยสำคัญ อาจจะส่งผลกระทบถึงความแตกต่างของค่าเฉลี่ยและทำให้ผลสรุปที่ได้ไม่ถูกต้อง

Minitab มีเครื่องมือในการทดสอบความเท่ากันของความแปรปรวนอยู่หลายวิธี Minitab Help การเลือกใช้วิธีการใดขึ้นกับประเภทของข้อมูลที่มีอ คุณยังสามารถใช้คำสั่งใน Minitab คือคำสั่ง Assistant เพื่อตรวจสอบสมมติฐาน (เมื่อคุณเลือกใช้ Minitab Assistant ให้เลือก “More” เพื่อดูว่าข้อแนะนำในการเก็บข้อมูลและข้อมูลที่เกี่ยวกับการคำนวณที่ Minitab ใช้ในการวิเคราะห์ข้อมูล)

blog case 2 04

หลังจากการวิเคราะห์ Minitab จะทำการแสดง Diagnostic Report เพื่อแปลผลการทดสอบและใน Report Card เพื่อเตือนให้รู้ถึงข้อมูลที่ไม่ปกติ สมมติฐานใดที่ไม่ตรงตามที่กำหนด (ในการใช้การใช้เครื่องมือ 2-Sample t  และ ANOVA, ใน Assistant จะใช้แนวความคิดที่ให้ความระมัดระวังมากขึ้นไม่ได้ขึ้นกับว่าข้อมูลนั้นมีความแปรปรวนเท่าหรือไม่)

blog case 2 05

เหตุผลที่แท้จริงที่ต้องทำการตรวจสอบสมมติฐาน คือ

คุณได้ใช้เวลาและความพยายามในการเก็บและวิเคราะห์ข้อมูล และเมื่อทำงานเสร็จทั้งหมด คุณจะเริ่มการวิเคราะห์ ซึ่งคุณต้องการได้ผลสรุปที่มีความถูกต้อง และความมั่นใจว่าสิ่งที่เก็บข้อมูลมานั้นได้แสดงความแตกต่างที่เห็นว่าเป็นความแตกต่างที่มาจากความสุ่ม หรือ เป็นเพราะประชากรนั้นมีความแตกต่างเกิดขึ้นจริงๆ

การเก็บข้อมูลเพื่อการวิเคราะห์ไม่ใช่เรื่องยากอะไร แต่คงเป็นการดีกว่าถ้าเราจะใช้เวลาทำความเข้าใจว่าข้อมูลต้องเกิดขึ้นภายใต้สมมติฐานใดบ้างเพื่อจะนำไปใช้ในการทดสอบทางสถิติต่อไปได้ตามแผนที่วางไว้

ในบทความต่อไปจะทบทวนเกี่ยวกับ ความเสถียร (Stability) และระบบการวัด (Measurement system)


บทความต้นฉบับ : Common Assumptions about Data (Part 2: Normality and Equal Variance)

ต้นฉบับนำมาจาก Minitab blog, แปลและเรียบเรียงโดยสุวดี นำพาเจริญ,

บริหารจัดการ SCM Blog โดยชลทิชา จำรัสพร บริษัท โซลูชั่น เซ็นเตอร์ จํากัด ตัวแทน Minitab ในประเทศไทย

Minitabbloglogo

เพิ่มเติมเกี่ยวกับบริษัท Minitab

Minitab ช่วยให้บริษัทและองค์กรต่างๆ สามารถมองเห็นแนวโน้มของข้อมูล, แก้ปัญหาและค้นพบประเด็นสำคัญจากข้อมูลเชิงลึก โดยนำเสนอชุดโซลูชั่นที่ครอบคลุมทุกด้านและดีที่สุดสำหรับซอฟต์แวร์ในระดับเดียวกัน ที่ใช้สำหรับการวิเคราะห์ข้อมูลและการปรับปรุงกระบวนการ 
ด้วยวิธีการที่เป็นเอกลักษณ์ และการนำเสนอซอฟต์แวร์และบริการแบบองค์รวม Minitab ช่วยให้องค์กรเข้าถึงกระบวนการตัดสินใจในส่วนที่ช่วยผลักดันให้เกิดความเป็นเลิศทางธุรกิจได้ดีขึ้น ความง่ายในการใช้งานที่โดดเด่นกว่าใครมีส่วนช่วยให้ Minitab สามารถทำให้การเข้าถึงข้อมูลเชิงลึกเป็นเรื่องที่ง่าย ทีมงานของ Minitab ซึ่งประกอบด้วยผู้เชี่ยวชาญทางด้านการวิเคราะห์ข้อมูลที่ได้ผ่านการอบรมมาเป็นอย่างเข้มงวด จะช่วยให้ผู้ใช้งานมั่นใจว่าจะได้รับประโยชน์สูงสุดจากการใช้งานวิเคราะห์ข้อมูลและพร้อมที่จะให้คำปรึกษาตลอดเวลาที่ใช้งานเพื่อนำไปสู่การตัดสินใจที่ดีขึ้น รวดเร็ว และแม่นยำ 
เป็นเวลากว่า 50 ปีที่ Minitab ได้ช่วยองค์การต่าง ๆ เพิ่มรายได้ ควบคุมและลดต้นทุน เพิ่มคุณภาพ เสริมสร้างความพึงพอใจของลูกค้า และเพิ่มประสิทธิภาพ ธุรกิจและองค์นับหมื่นทั่วโลกใช้ Minitab Statistical Software®, Companion by Minitab®, Minitab Workspace®, Salford Predictive Modeler® and Quality Trainer® เป็นเครื่องมือช่วยในการค้นพบและปรับปรุงความบกพร่องในกระบวนการ