สมมติฐานพื้นฐานทั่วไปของข้อมูล (ส่วนที่ 1: ความสุ่มของข้อมูลและความเป็นอิสระของข้อมูลเชิงสถิติ)

สถิติเชิงอนุมาน (Statistical inference) จะใช้ข้อมูลจากสิ่งตัวอย่างเพื่อนำไปยังผลสรุปทั้งหมดของประชากร ซึ่งถือว่าเป็นเครื่องมือที่มีอำนาจการใช้งานอย่างมาก ซึ่งมีสำนวนที่พูดไว้ว่า “อำนาจที่ยิ่งใหญ่มาพร้อมกับความรับผิดชอบที่ใหญ่ยิ่ง”  ในขณะที่เรากำลังพยายามอนุมานข้อมูลจากสิ่งตัวอย่าง เราต้องทำการทวนสอบสมมติฐานของข้อมูล เพราะถ้ามีสมมติฐานข้อใดข้อหนึ่งของข้อมูลไม่เป็นไปตามที่กำหนดผลลัพธ์ที่ได้อาจจะได้เป็น ผลบวกปลอม (False positive) หรือ ผลลบปลอม (False negative) ซึ่งทำให้ผลลัพธ์นั้นใช้ไม่ได้ หรือ กล่าวอีกนัยหนึ่งว่าคุณมีความเสี่ยงที่จะได้ผลลัพธ์ที่ไม่ถูกต้องซึ่งเป็นผลสรุปที่ไม่ถูกต้อง และทำให้การนำวิธีการแก้ปัญหานั้นไปแก้ปัญหาไม่ได้ (ยกเว้นเสียแต่ว่าคุณจะโชคดี)

คุณเคยได้ยินเรื่องตลกเกี่ยวกับเวลาที่คุณทำการสมมติบางอย่างแล้วมีอะไรเกิดขึ้นจากสิ่งที่สมมตินั้น (what happens when you assume) สำหรับในบทความนี้ สมมติถามว่า “อะไรจะเกิดขึ้น ถ้าคุณไม่ได้ทำการตรวจสอบสมมติฐานที่ตั้งไว้” เพราะเราเป็นมนุษย์ และมนุษย์อย่างเรามักจะทำการสมมติอยู่ตลอดเวลา ตัวอย่างเช่น ถ้าผมต้องการจะมีประชุมทางโทรศัพท์กับคุณ และผมอยู่ในสหรัฐอเมริกาทางด้านตะวันออก ถ้าทุกคนที่ผมต้องการประชุมด้วยอยู่ทางตะวันออกเหมือนกันก็ไม่ใช่เรื่องยาก แต่ถ้าคุณอยู่ในแคลิฟอร์เนีย หรือ ออสเตรเลีย อะไรจะเกิดขึ้นถ้าผมบอกว่าจะเรียกประชุมตอนบ่ายสองโมง แต่ไม่ได้ระบุเขตเวลา (time zone) ถ้าคุณไม่ได้ทำการตรวจสอบ คุณอาจจะเข้าประชุมก่อน หรือ สายกว่ากำหนด หรือ ไม่สามารถเข้าร่วมประชุมได้เลย

ข่าวดีคือเมื่อคุณต้องการทำการวิเคราะห์สมมติฐานของข้อมูล Minitab มีเครื่องมือนี้สำหรับคุณ ใน Minitab  17 มีเครื่องมือที่ช่วยคุณทวนสอบและตรวจสอบความถูกต้องของสมมติฐานทางสถิติก่อนที่คุณจะทำการสรุปผลจากข้อมูลในขั้นสุดท้าย เมื่อคุณใช้ส่วน the Assistant in Minitab, โปรแกรมจะทำการบ่งชี้สมมติฐานที่เหมาะสมสำหรับคุณในการวิเคราะห์ โดยให้คำแนะนำที่ช่วยให้คุณนำไปพัฒนาแผนสำหรับการเก็บข้อมูลที่ถูกต้อง ตรวจสอบสมมติฐานข้อมูลก่อนการวิเคราะห์ และ แสดงผลลัพธ์ในรูปแบบที่เข้าใจง่ายในส่วน Report Card และ Diagnosis Report

สมมติฐานของข้อมูลพื้นฐานทั่วไป คือ ข้อมูลมีความสุ่ม (Random samples) ความเป็นอิสระ (Independence) ความเป็นปกติ (Normality) ความแปรปรวนเท่ากัน (Equal Variance) ความเสถียร (Stability) และระบบการวัดมีความถูกต้องและแม่นยำ  ในบทความนี้เราจะพูดถึงเรื่องความสุ่มของข้อมูล และ ความเป็นอิสระของข้อมูลในเชิงสถิติ

ความสุ่มของข้อมูลคืออะไร

สิ่งตัวอย่างมาจากการสุ่ม ข้อมูลแต่ละตัวจากประชากรจะมีโอกาสเท่าๆกันที่จะถูกนำมาเป็นสิ่งตัวอย่าง ดังนั้น การเลือกข้อมูลแต่ละตัวจึงขึ้นกับโอกาสในการเกิดข้อมูล ซึ่งจะลดโอกาสที่ข้อมูลมีความแตกต่างกันหรือความลำเอียง (bias) ที่มีอยู่ในข้อมูล สิ่งตัวอย่างสุ่มจะถือเป็นตัวแทนของประชากร ดังนั้นคุณจึงมั่นใจในผลลัพธ์ที่จะได้จากการทำงานของสถิติเชิงอนุมานที่กระทำกับสิ่งตัวอย่างสุ่มนี้

ไม่มีการทดสอบใดที่จะยืนยันได้ว่ามีการสุ่มตัวอย่างเกิดขึ้นแน่นอน แต่การทำตามเทคนิคการสุ่มตัวอย่างจะช่วยเพิ่มความมั่นใจว่าข้อมูลที่ได้จากสิ่งตัวอย่างนั้นอยู่ภายใต้ความสุ่ม ซึ่งแนวทางในการทำการสุ่มตัวอย่างมีดังนี้ ใช้ตารางตัวเลขสุ่ม หรือ เครื่องมือตัวเลขสุ่มใน Minitab (รูปที่ 1)

  • วิธีการเลือกอย่างมีระบบ (Systematic selection) ทุกๆ หน่วยที่ n หรือ ณ ช่วงเวลาที่กำหนดไว้ของแต่ละวัน
  • การเลือกอย่างมีลำดับ (ใช้ลำดับในการเกิด เช่น ในการทดสอบแบบทำลาย เป็นต้น)
  • หลีกเลี่ยงการใช้การตัดสินใจเลือกเอง หรือ ความสะดวกในการเลือกสิ่งตัวอย่างนั้นๆ
assumptions dialog box
รูปที่ 1 การใช้คำสั่ง Random Data Generator ใน Minitab

สิ่งตัวอย่างที่ไม่มีความสุ่ม อาจจะเกิดความลำเอียง (bias) และทำให้ผลลัพธ์ที่ได้แปลผลมาไม่ถูกต้อง

ความเป็นอิสระเชิงสถิติของข้อมูลคืออะไร

ความเป็นอิสระเชิงสถิติ (Statistical Independence) คือ สมมติฐานที่สำคัญของการทดสอบทางสถิติหลายๆอัน เช่น 2-sample t test และ ANOVA ความเป็นอิสระ หมายถึง ค่าของข้อมูลที่สังเกตได้ในหนึ่งตัวไม่ส่งผลใดใดกับข้อมูลตัวอื่นๆ ข้อมูลที่มีความเป็นอิสระจะไม่มีความเชื่อมต่อกันไม่ว่าทางใดใด (เว้นเสียแต่ว่าคุณตั้งใจนับรวมเพื่อสร้างเป็นตัวแบบ) ซึ่งจะรวมข้อมูลในทุกความสัมพันธ์ทั้งแบบ ระหว่าง (between) และ ภายใน (Within) กลุ่มของสิ่งตัวอย่าง ข้อมูลที่ไม่มีความเป็นอิสระจะมีความลำเอียง (bias) และทำให้เกิดผลลัพธ์แบบผลบวกปลอมเชิงสถิติ (False positive)

ในการดำเนินงานตามเทคนิคการสุ่มตัวอย่างที่ดี จะช่วยทำให้ข้อมูลที่เกิดมีความเป็นอิสระ ซึ่งสาเหตุที่ทำให้ข้อมูลไม่เป็นอิสระ คือ

  • ข้อมูลที่สังเกตมีความใกล้เคียงกันในแต่ละครั้ง
  • ข้อมูลที่สังเกตมีความใกล้เคียงกันในขอบเขต หรือ ลำดับที่เกิด
  • ข้อมูลที่สังเกตมีความสัมพันธ์กันบางประการ

Minitab สามารถทดสอบความเป็นอิสระของข้อมูลด้วยวิธี Chi-Square เพื่อดูความสัมพันธ์ของข้อมูล เพื่อชี้ว่าถ้าการแจกแจงของตัวแปรหนึ่งมีความคล้ายคลึงกันกับทุกหมู่ของอีกตัวแปรหนึ่งหรือไม่

เหตุผลที่แท้จริงที่ต้องทำการตรวจสอบสมมติฐาน

คุณได้ใช้เวลาและความพยายามในการเก็บและวิเคราะห์ข้อมูล และเมื่อทำงานเสร็จทั้งหมด คุณจะเริ่มการวิเคราะห์ ซึ่งคุณต้องการได้ผลสรุปที่มีความถูกต้อง และความมั่นใจว่าสิ่งที่เก็บข้อมูลมานั้นได้แสดงความแตกต่างที่เห็นว่าเป็นความแตกต่างที่มาจากความสุ่ม หรือ เป็นเพราะประชากรนั้นมีความแตกต่างเกิดขึ้นจริงๆ

การเก็บข้อมูลเพื่อการวิเคราะห์ไม่ใช่เรื่องยากอะไร แต่คงเป็นการดีกว่าถ้าเราจะใช้เวลาทำความเข้าใจว่าข้อมูลต้องเกิดขึ้นภายใต้สมมติฐานใดบ้างเพื่อจะนำไปใช้ในการทดสอบทางสถิติต่อไปได้ตามแผนที่วางไว้

ในบทความต่อไปจะทบทวนเกี่ยวกับ คุณสมบัติความเป็นปกติ (Normality) และ ความแปรปรวนที่เท่ากัน (Equal Variance) ซึ่งเป็นสมมติฐานของข้อมูลข้อต่อไป


บทความต้นฉบับ : Common Assumptions about Data (Part 1: Random Samples and Statistical Independence)

ต้นฉบับนำมาจาก Minitab blog, แปลและเรียบเรียงโดยสุวดี นำพาเจริญ,

บริหารจัดการ SCM Blog โดยชลทิชา จำรัสพร บริษัท โซลูชั่น เซ็นเตอร์ จํากัด ตัวแทน Minitab ในประเทศไทย

Minitabbloglogo

เพิ่มเติมเกี่ยวกับบริษัท Minitab

Minitab ช่วยให้บริษัทและองค์กรต่างๆ สามารถมองเห็นแนวโน้มของข้อมูล, แก้ปัญหาและค้นพบประเด็นสำคัญจากข้อมูลเชิงลึก โดยนำเสนอชุดโซลูชั่นที่ครอบคลุมทุกด้านและดีที่สุดสำหรับซอฟต์แวร์ในระดับเดียวกัน ที่ใช้สำหรับการวิเคราะห์ข้อมูลและการปรับปรุงกระบวนการ 
ด้วยวิธีการที่เป็นเอกลักษณ์ และการนำเสนอซอฟต์แวร์และบริการแบบองค์รวม Minitab ช่วยให้องค์กรเข้าถึงกระบวนการตัดสินใจในส่วนที่ช่วยผลักดันให้เกิดความเป็นเลิศทางธุรกิจได้ดีขึ้น ความง่ายในการใช้งานที่โดดเด่นกว่าใครมีส่วนช่วยให้ Minitab สามารถทำให้การเข้าถึงข้อมูลเชิงลึกเป็นเรื่องที่ง่าย ทีมงานของ Minitab ซึ่งประกอบด้วยผู้เชี่ยวชาญทางด้านการวิเคราะห์ข้อมูลที่ได้ผ่านการอบรมมาเป็นอย่างเข้มงวด จะช่วยให้ผู้ใช้งานมั่นใจว่าจะได้รับประโยชน์สูงสุดจากการใช้งานวิเคราะห์ข้อมูลและพร้อมที่จะให้คำปรึกษาตลอดเวลาที่ใช้งานเพื่อนำไปสู่การตัดสินใจที่ดีขึ้น รวดเร็ว และแม่นยำ 
เป็นเวลากว่า 50 ปีที่ Minitab ได้ช่วยองค์การต่าง ๆ เพิ่มรายได้ ควบคุมและลดต้นทุน เพิ่มคุณภาพ เสริมสร้างความพึงพอใจของลูกค้า และเพิ่มประสิทธิภาพ ธุรกิจและองค์นับหมื่นทั่วโลกใช้ Minitab Statistical Software®, Companion by Minitab®, Minitab Workspace®, Salford Predictive Modeler® and Quality Trainer® เป็นเครื่องมือช่วยในการค้นพบและปรับปรุงความบกพร่องในกระบวนการ