นักวิเคราะห์ข้อมูลไม่นับแกะในเวลากลางคืน เพราะว่าพวกเรากำลังมองหาเส้นโค้งที่สวยงามและมีลักษณะเป็นรูประฆังคว่ำ ซึ่งแกะเหล่านั้นกำลังกระโดดข้ามรั้วอยู่ (ตามภาพด้านล่าง) นั่นคือ การแจกแจงปกติ (Normal Distribution) และนี่เป็นจุดเริ่มต้นในการทำความเข้าใจแนวคิดที่สำคัญที่สุดอย่างหนึ่งในการวิเคราะห์ทางสถิติ นั่นคือ ทฤษฎีแนวโน้มเข้าสู่ศูนย์กลาง (Central Limit Theorem)
ข้อมูลมาจากการแจกแจงปกติหรือไม่? พิจารณาจากรูปแบบของการแจกแจงของข้อมูล
ข้อมูลที่มาจากการแจกแจงปกติจะมีรูปร่างสมมาตรและมีลักษณะโค้งระฆังคว่ำ ข้อมูลส่วนใหญ่มีค่าใกล้เคียงกับค่าเฉลี่ย และมีข้อมูลที่ห่างออกไปจากค่าเฉลี่ยและห่างออกไปอีก มันแสดงให้เห็นว่ามีวิธีการบางอย่างที่ทำให้เกิดการกระจายตัวของข้อมูล
หากคุณชอบแนวคิดเรื่องของแกะกระโดด ศิลปินผู้สร้างสรรค์วีดีโอ ชื่อว่า Shuyi Chiou ได้รวบรวมตัวอย่างที่สร้างสรรค์เกี่ยวกับกระต่ายและปีกของมังกร วีดีโอดังกล่าวเป็นแหล่งความรู้ที่ยอดเยี่ยมสำหรับแนวคิดต่าง ๆ ไม่ว่าจะเป็น จำนวนตัวอย่าง (Sample Size) การแจกแจงของข้อมูล (Distribution) และทฤษฎีแนวโน้มเข้าสู่ศูนย์กลาง (Central Limit Theorem)
จากตัวอย่างขนาดของกระต่ายไปจนถึงตัวอย่างการทอยลูกเต๋า ข้อมูลจากหลายสถานการณ์จะเป็นไปตามรูปแบบการแจกแจงปกติ ถึงแม้ว่าหลายสิ่งที่เราต้องการวัดไม่ได้เป็นไปตามรูปแบบนี้ หรือที่เรียกกันว่า ข้อมูลไม่ได้มาจากการแจกแจงปกติ
แต่อย่างไรก็ตาม สำหรับทั้งข้อมูลที่มาจากการแจกแจงปกติและไม่ได้มาจากการแจกแจงปกติ หากเราสุ่มตัวอย่างที่มีจำนวน n ตัว จากประชากรซ้ำไปซ้ำมา แล้วเมื่อ n (จำนวนของตัวอย่าง) มีจำนวนมาก จะทำให้การแจกแจงของค่าเฉลี่ยตัวอย่าง (sample means) เข้าใกล้การแจกแจงปกติ
จำนวนตัวอย่างที่มีจำนวนมากนั้นเพียงพอหรือไม่?
เพียงพอแน่นอน แต่มันขึ้นอยู่กับสิ่งเหล่านี้ ยิ่งประชากรมีการแจกแจงใกล้เคียงกับการแจกแจงปรกติมากเท่าไหร่ คุณก็ยิ่งต้องใช้จำนวนตัวอย่างที่น้อยลงในการพิสูจน์ทฤษฎีบท โดยทั่วไปแล้วจำนวนตัวอย่างที่เพียงพอต่อทฤษฎีแนวโน้มเข้าสู่ศูนย์กลาง (Central Limit Theorem) จะต้องมีจำนวนตัวอย่างมากกว่าหรือเท่ากับ 30 แต่อย่างไรก็ตาม ประชากรที่มีการแจกแจงเบ้มากๆหรือมีหลายโด่ง อาจต้องใช้จำนวนตัวอย่างที่มากกว่านั้น
บทความที่เกี่ยวข้อง: จริงๆแล้วจำนวนข้อมูลเท่าไหร่ที่คุณต้องการ?
ตัวอย่างที่ 1 : การทอยลูกเต๋าเพื่อแสดงการแจกแจงแบบปกติ
สมมติว่า คุณมีลูกเต๋า 6 หน้า ความน่าจะเป็นที่จะทอยลูกเต๋าแล้วจะออกหมายเลขใด ๆ เท่ากับ 1/6 หรืออีกนัยหนึ่ง คือ คุณมีความเป็นไปได้ที่ทอยลูกเต๋าแล้วขึ้นหมายเลขใดหมายเลขหนึ่งพอ ๆ กับอีก 5 หมายเลข
ในโปรแกรมสำเร็จรูปทางสถิติ Minitab คุณสามารถใช้ประโยชน์จากการสุ่มข้อมูล (random data) เพื่อจำลองผลลัพธ์จำนวน 500 ผลลัพธ์ที่แตกต่างกันของการทอยลูกเต๋า 1 ครั้ง โดยคลิกเมนู Calc > Random Data > Integer… และจะได้ผลลัพธ์จำนวน 500 ผลลัพธ์ โดยที่ค่าต่ำสุดคือ 1 และค่าสูงสุดคือ 6
คุณสามารถใช้กราฟ Histogram เพื่อให้เห็นรูปร่างข้อมูลของการทอยลูกเต๋า 1 ครั้ง ทั้ง 500 รอบ ในสถานการณ์นี้ จำนวนของตัวอย่างเท่ากับ 1 และเนื่องจากอัตราการเกิดเหตุการณ์ของการทอยลูกเต๋านั้นเท่ากัน ส่งผลให้การแจกแจงของข้อมูลมีลักษณะคงที่ และเมื่อสังเกตแท่งสีน้ำเงิน (ในกราฟด้านล่าง) เทียบกับเส้นโค้งสีแดงที่แสดงถึงฟังก์ชันของการแจกแจงปกติ พบว่า มันไม่ได้มาจากการแจกแจงปกติ
ตอนนี้ มาดูตัวอย่างเพิ่มเติมและดูว่าเกิดอะไรขึ้นกับกราฟ Histogram ของค่าเฉลี่ยของข้อมูลตัวอย่างเหล่านั้น คราวนี้เราจะจำลองการทอยลูกเต๋าจำนวน 2 ครั้ง และทำซ้ำเป็นจำนวน 500 รอบ และตอนนี้ จำนวนของตัวอย่างเท่ากับ 2 ซึ่งเราใช้เมนู Calc> Row Statistics… เพื่อคำนวณค่าเฉลี่ยของการทอยลูกเต๋าในแต่ละรอบ ดูผลลัพธ์ด้านล่าง
แต่ละแถวแสดงข้อมูลตัวอย่างที่จำลองทั้ง 2 ค่าและค่าเฉลี่ยของมัน เมื่อจำนวนของตัวอย่างมีจำนวนมากเพียงพอ สิ่งนี้จะเป็นไปตามการแจกแจงปกติ คราวนี้มาสร้างกราฟ Histogram ของค่าเฉลี่ยข้อมูลตัวอย่าง เพื่อให้ได้ไอเดียกัน
มันเริ่มเข้าใกล้การแจกแจงปกติมากขึ้น
ทีนี้ มาจำลองการทอยลูกเต๋า 5 ครั้ง 10 ครั้ง 20 ครั้ง และ 30 ครั้ง
กราฟ Histogram สำหรับค่าเฉลี่ยของแต่ละชุด แสดงให้เห็นว่า เมื่อจำนวนของกลุ่มตัวอย่างเพิ่มขึ้น จะทำให้การแจกแจงของค่าเฉลี่ยตัวอย่างจะเข้าใกล้การแจกแจงปกติมากขึ้นไปด้วย
บทความที่เกี่ยวข้อง : การระบุประเภทการแจกแจงข้อมูลของคุณ
ตัวอย่างที่ 2 : การแจกแจงเอกซ์โพเนนเชียล (Exponential Distribution)
เวลาระหว่างการเกิดเหตุการณ์นั้นมีการแจกแจงเอกซ์โพเนนเชียล ซึ่งเป็นโมเดลที่ดีสำหรับระยะเวลาของผลิตภัณฑ์หรืออายุการใช้งาน เมื่อมันมีแนวโน้มที่จะหมดอายุการใช้งานได้ตลอดเวลา ไม่ว่าจะเป็นผลิตภัณฑ์ใหม่ หรือผลิตภัณฑ์ปีที่แล้วหรือหลายปีก็ตาม (หรืออีกนัยหนึ่ง คือ ระยะก่อนที่มันเริ่มมีอายุมากขึ้นและเสื่อมสภาพในระหว่างการใช้งานตามที่คาดไว้)
บทความที่เกี่ยวข้อง : หน่วยความจำที่ไม่ดี(Poor Memory)ช่วยในการสร้างโมเดลการพัง(Failure)ได้อย่างไร
นี่คือ ตัวอย่างของเส้นโค้งความหนาแน่นความน่าจะเป็นสำหรับเวลาโดยประมาณที่ทรานซิสเตอร์จะพัง
เห็นได้ชัดว่า ข้อมูลนี้ไม่ใช่การแจกแจงปกติ แต่จะเกิดอะไรขึ้นเมื่อคุณจำลองข้อมูลที่มีการแจกแจงเอกซ์โพเนนเชียล โดยใช้จำนวนตัวอย่างเท่ากับ 5 แล้วคำนวณค่าเฉลี่ย และสร้างกราฟ Histogram ของค่าเฉลี่ย รวมถึงเมื่อจำนวนตัวอย่างเท่ากับ 10, 20 และ 30 จะเป็นอย่างไรบ้าง?
เช่นเดียวกับการทอยลูกเต๋า การแจกแจงของค่าเฉลี่ยนั้นใกล้เคียงกับการแจกแจงปกติมากขึ้น เมื่อจำนวนของตัวอย่างเพิ่มขึ้น
สรุปผล
แม้ว่าจะไม่ได้พูดถึงกันบ่อยนักโดยเฉพาะพวกที่ไม่ได้อยู่ในแวดวงสถิติ แต่ ทฤษฎีแนวโน้มเข้าสู่ศูนย์กลาง (Central Limit Theorem) เป็นแนวคิดที่สำคัญ ด้วยการพิสูจน์ผ่านตัวอย่างลูกเต๋า และตัวอย่างมังกร (ในวีดีโอด้านบน) ไปจนถึงตัวอย่างอัตราการพังของผลิตภัณฑ์ คุณสามารถสรุปได้ว่า เมื่อจำนวนตัวอย่างเพิ่มขึ้นจะทำให้เส้นโค้งของการแจกแจงนั้นเข้าใกล้การแจกแจงปกติมากขึ้นด้วย
บทความต้นฉบับ : Dice, Dragons and Getting Closer to Normal Distribution: The Central Limit Theorem
ต้นฉบับนำมาจาก Minitab blog , แปลและเรียบเรียงโดยรัฐพงษ์ ยอดสีมา
บริหารจัดการ SCM Blog โดยชลทิชา จำรัสพร, บริษัท โซลูชั่น เซ็นเตอร์ จํากัด ตัวแทน Minitab ในประเทศไทย
เพิ่มเติมเกี่ยวกับบริษัท Minitab
Minitab ช่วยให้บริษัทและองค์กรต่างๆ สามารถมองเห็นแนวโน้มของข้อมูล, แก้ปัญหาและค้นพบประเด็นสำคัญจากข้อมูลเชิงลึก โดยนำเสนอชุดโซลูชั่นที่ครอบคลุมทุกด้านและดีที่สุดสำหรับซอฟต์แวร์ในระดับเดียวกัน ที่ใช้สำหรับการวิเคราะห์ข้อมูลและการปรับปรุงกระบวนการ
ด้วยวิธีการที่เป็นเอกลักษณ์ และการนำเสนอซอฟต์แวร์และบริการแบบองค์รวม Minitab ช่วยให้องค์กรเข้าถึงกระบวนการตัดสินใจในส่วนที่ช่วยผลักดันให้เกิดความเป็นเลิศทางธุรกิจได้ดีขึ้น ความง่ายในการใช้งานที่โดดเด่นกว่าใครมีส่วนช่วยให้ Minitab สามารถทำให้การเข้าถึงข้อมูลเชิงลึกเป็นเรื่องที่ง่าย ทีมงานของ Minitab ซึ่งประกอบด้วยผู้เชี่ยวชาญทางด้านการวิเคราะห์ข้อมูลที่ได้ผ่านการอบรมมาเป็นอย่างเข้มงวด จะช่วยให้ผู้ใช้งานมั่นใจว่าจะได้รับประโยชน์สูงสุดจากการใช้งานวิเคราะห์ข้อมูลและพร้อมที่จะให้คำปรึกษาตลอดเวลาที่ใช้งานเพื่อนำไปสู่การตัดสินใจที่ดีขึ้น รวดเร็ว และแม่นยำ
เป็นเวลากว่า 50 ปีที่ Minitab ได้ช่วยองค์การต่าง ๆ เพิ่มรายได้ ควบคุมและลดต้นทุน เพิ่มคุณภาพ เสริมสร้างความพึงพอใจของลูกค้า และเพิ่มประสิทธิภาพ ธุรกิจและองค์นับหมื่นทั่วโลกใช้ Minitab Statistical Software®, Companion by Minitab®, Minitab Workspace®, Salford Predictive Modeler® and Quality Trainer® เป็นเครื่องมือช่วยในการค้นพบและปรับปรุงความบกพร่องในกระบวนการ