ฉันรักทั้งหมดเป็นที่ข้อมูล ไม่ว่ามันจะเป็นการแจกแจงแบบปกติหรือมีลักษณะที่แปลกหูแปลกตา แต่อย่างไรก็ตาม คนส่วนใหญ่รู้สึกสบายใจอย่างมากกับข้อมูลที่มีลักษณะเป็นเส้นโค้งระฆังคว่ำแบบสมมาตรของการแจกแจงแบบปกติ ซึ่งมันไม่ใช่เรื่องง่ายที่จะทำความเข้าใจเกี่ยวกับการแจกแจงแบบแกมมาที่มีค่า shape parameters และ scale parameters เนื่องจากเราจะคุ้นเคยกับการทำความเข้าใจเกี่ยวกับการแจกแจงแบบปกติที่มีค่าเฉลี่ยและค่าส่วนเบี่ยงเบนมาตรฐาน
แต่ถึงอย่างนั้น ในความเป็นจริงข้อมูลทั้งหมดไม่ได้เป็นไปตามการแจกแจงแบบปกติ เห้ย มีหลายสิ่งที่ผิดปกติ…เอ่อ…ไม่ได้มีการแจกแจงแบบปกติ ซึ่งการทำความเข้าใจและการนำเสนอในทางปฏิบัติของข้อมูลที่ไม่ได้มีการแจกแจงแบบปกติ นั้นเป็นความท้าทายสำหรับนักวิเคราะห์มาโดยตลอดที่จะทำให้มันง่ายต่อการเข้าใจ
นี่เป็นเรื่องจริงและโดยเฉพาะอย่างยิ่งผู้วิเคราะห์เกี่ยวกับการปรับปรุงคุณภาพกระบวนการ เนื่องจากข้อมูลจำนวนมากมีลักษณะแบบเบ้ (ไม่สมมาตร) ซึ่งด้านใดด้านหนึ่งของการแจกแจงในหลาย ๆ กระบวนการ มักมีข้อจำกัดตามธรรมชาติ เช่น ความบริสุทธิ์ที่ต้องไม่เกิน 100% หรือขนาดของรูเจาะที่ไม่สามารถมีขนาดเล็กกว่าดอกสว่านได้ โดยขีดจำกัดตามธรรมชาติเหล่านี้สร้างการแจกแจงที่มีลักษณะแบบเบ้ที่ถูกขยายออกไปจากขีดจำกัดตามธรรมชาติ ดังนั้น ข้อมูลที่ไม่ได้มีการแจกแจงแบบปกติจึงเป็นเรื่องที่ปกติในบางกระบวนการ
ไม่ต้องกังวล ถ้าคุณสามารถส่องไฟบนบางสิ่งบางอย่างและสามารถระบุสิ่งนั้นได้ มันจะทำให้สิ่งนั้นน่ากลัวน้อยลง ซึ่งฉันจะแสดงวิธีการดังนี้:
- ใช้โปรแกรมสำเร็จรูปทางสถิติ Minitab Statistical Software เพื่อระบุการแจกแจงข้อมูลของคุณ (บทความนี้)
- ใช้ประโยชน์จากการระบุการแจกแจงข้อมูล (บทความต่อไป)
เพื่อแสดงให้เห็นภาพถึงสิ่งนี้ ฉันจะศึกษาข้อมูลเปอร์เซ็นต์ไขมันในร่างกายจากบทความก่อนหน้านี้ของฉันเกี่ยวกับการใช้การวิเคราะห์การถดถอยเพื่อทำการคาดการณ์ (regression analysis for prediction) โดยคุณสามารถดาวน์โหลดข้อมูลนี้ได้ที่นี่ หากคุณต้องการทำตาม
เริ่มต้นด้วยข้อมูลตัวอย่าง
เราสามารถนำข้อมูลตัวอย่างมาสร้างเป็นกราฟ histogram ได้ดังนี้:
กราฟ histogram นี้แสดงให้เราเห็นถึงรูปร่างของข้อมูลตัวอย่าง และมันก็เป็นจุดเริ่มต้นที่ดี เราจะเห็นว่า การแจกแจงของข้อมูลนี้มีลักษณะเบ้ไปทางขวาและอาจไม่ได้มีการแจกแจงแบบปกติ ถึงอย่างนั้น กราฟนี้บอกเราเกี่ยวกับข้อมูลที่ได้จากกลุ่มตัวอย่างเฉพาะกลุ่มนี้ คุณไม่สามารถอนุมานเกี่ยวกับประชากรที่มีขนาดใหญ่ได้
แล้วจะทำอะไรได้บ้างเพื่อใช้ประโยชน์จากข้อมูลเหล่านี้ให้มากยิ่งขึ้น? เริ่มต้น คือ ระบุการแจกแจงข้อมูลของคุณ ซึ่งเมื่อคุณทำเช่นนั้น คุณก็สามารถเรียนรู้สิ่งต่าง ๆ เกี่ยวกับประชากร และสามารถสร้างกราฟที่ดูเจ๋งได้!
วิธีการระบุการแจกแจงข้อมูลของคุณ
เพื่อระบุการแจกแจงของข้อมูล เราจะไปที่เมนู Stat > Quality Tools > Individual Distribution Identification ในโปรแกรม Minitab ซึ่งเครื่องมือที่มีประโยชน์นี้ ช่วยให้คุณเปรียบเทียบได้อย่างง่ายดายว่า ข้อมูลของคุณเหมาะสมกับการแจกแจงแบบต่าง ๆ ทั้ง 16 การแจกแจงได้มากน้อยเพียงใด โดยมันได้สร้างผลลัพธ์เป็นจำนวนมาก ทั้งในหน้าต่าง session และกราฟต่าง ๆ แต่ก็อย่าพึ่งตกอกตกใจกลัวไป มี 3 สิ่งที่คุณต้องรู้ก่อนที่เราจะแปลผลลัพธ์
ค่าสถิติทดสอบ Anderson-Darling (AD): ค่า AD ที่ต่ำกว่าบ่งชี้ว่า มีความเหมาะสมกว่า แต่อย่างไรก็ตาม เพื่อเปรียบเทียบว่า การแจกแจงแบบต่าง ๆ เหมาะสมกับข้อมูลมากน้อยเพียงใด คุณควรประเมินค่า p-value ตามที่อธิบายไว้ด้านล่าง
ค่า P-value: คุณต้องการค่า p-value ที่มีค่าสูง ๆ โดยทั่วไปแล้วค่า p-value ใช้ในการเปรียบเทียบระหว่างการแจกแจงต่าง ๆ และหาค่าที่สูงที่สุด ส่วนค่า p-value ที่มีค่าน้อย (เช่น <0.05) แสดงว่า ข้อมูลไม่เป็นไปตามการแจกแจงนั้น ๆ ส่วนในบางการแจกแจงที่มี 3 พารามิเตอร์ ค่า p-value จะไม่สามารถคำนวณได้และแสดงผลลัพธ์ด้วยเครื่องหมายดอกจัน
LRT P: สำหรับการแจกแจงที่มี 3 พารามิเตอร์เท่านั้น ถ้าค่าน้อย แสดงว่า การเพิ่มพารามิเตอร์ที่ 3 นั้นดีกว่า 2 พารามิเตอร์อย่างมีนัยสำคัญ แต่ถ้าค่านี้สูงกว่า แสดงว่า คุณอาจต้องพิจารณาเพียงแค่ 2 พารามิเตอร์
ดังนั้น สำหรับข้อมูลของฉัน ฉันจะกรอกตาม dialog ดังนี้:
มาเจาะลึกถึงผลลัพธ์กัน เราจะเริ่มต้นด้วยตาราง Goodness of Fit Test ที่อยู่ด้านล่าง
บรรทัดบนสุดแสดงว่า ข้อมูลของเราไม่เหมาะสมกับการแจกแจงแบบปกติแน่นอน เพราะค่า p-value สำหรับ Normal น้อยกว่า 0.005!
ราจะข้ามการแปลงข้อมูลทั้งสองรูปแบบ (Box-Cox และ Johnson) เนื่องจากเราต้องการระบุพื้นเพของการแจกแจงของข้อมูลแทนที่จะแปลงข้อมูล
จุดเริ่มต้นที่ดี คือ การดูค่า p-value และมองหาค่าที่สูงที่สุด โดยค่า p-value ที่สูงที่สุด คือ การแจกแจงแบบไวบูลที่มี 3 พารามิเตอร์ (3-Parameter Weibull) ซึ่งการแจกแจงแบบไวบูลที่มี 3 พารามิเตอร์มีค่า LRT P อย่างมีนัยสำคัญ (0.000) หมายความว่า การเพิ่มพารามิเตอร์ที่ 3 นั้นมีความเหมาะสมอย่างมีนัยสำคัญ
ด้วยค่า p-value ที่มีค่าสูงและค่า LRT P ที่มีนัยสำคัญ เราจึงเลือกการแจกแจงแบบไวบูลที่มี 3 พารามิเตอร์เป็นการแจกแจงที่เหมาะสมที่สุดสำหรับข้อมูลของเรา ซึ่งเราระบุการแจกแจงนี้ได้ด้วยการดูหน้าต่าง session แต่โปรแกรม Minitab ยังสร้างชุดของกราฟที่ให้ผลลัพธ์ส่วนใหญ่ที่เหมือนกัน รวมทั้งกราฟ probability plots
Probability plots เป็นวิธีที่ยอดเยี่ยมในการระบุการแจกแจงข้อมูลของคุณด้วยสายตา ซึ่งถ้าจุดของข้อมูลอยู่ในระนาบเดียวกันกับเส้นตรง หมายถึง มีความเหมาะสมกับการแจกแจง โดยคุณสามารถดูกราฟด้านล่างสำหรับการแจกแจงแบบไวบูลที่มี 3 พารามิเตอร์ รวมถึงการแจกแจงแบบอื่น ๆ อีก 3 การแจกแจงที่ไม่เหมาะสมกับข้อมูล
ตอนนี้เรารู้แล้วว่า ข้อมูลเหมาะสมกับการแจกแจกอะไร — แต่ค่าพารามิเตอร์ของการแจกแจงคืออะไร? ให้ดูที่ตารางถัดไปในผลลัพธ์ของหน้าต่าง session บนโปรแกรม Minitab :
การระบุการแจกแจงของข้อมูลช่วยวิเคราะห์ได้อย่างไร?
เอาล่ะ ตอนนี้เราทราบแล้วว่า ข้อมูลเปอร์เซ็นต์ไขมันในร่างกายมีการแจกแจงแบบไวบูลที่มี 3 พารามิเตอร์ โดยมีค่า shape parameter เท่ากับ 1.85718 และค่า scale parameter เท่ากับ 14.07043 และค่า threshold parameter เท่ากับ 16.06038
ณ จุดนี้ คุณอาจสงสัยว่า “มันช่วยเราได้อย่างไร?” คำตอบ: ด้วยข้อมูลนี้เกี่ยวกับการแจกแจง เราสามารถไปได้ไกลกว่าข้อมูลตัวอย่าง และทำการอนุมานทางสถิติเกี่ยวกับประชากรที่มีขนาดใหญ่ได้
ในบทความต่อไป ฉันจะแสดงให้คุณเห็นถึงวิธีการใช้เครื่องมือที่มีประสิทธิภาพในโปรแกรม Minitab เพื่อให้ได้ข้อมูลเชิงลึกยิ่งขึ้น ในด้านการวิจัยและการนำเสนอผลลัพธ์ของคุณได้อย่างมีประสิทธิภาพมากขึ้น
บทความที่เกี่ยวข้อง
- Understanding and Using Discrete Distributions (การทำความเข้าใจและการใช้การแจกแจงของข้อมูลไม่ต่อเนื่อง)
- How to Test Your Discrete Distribution (วิธีทดสอบการแจกแจงของข้อมูลไม่ต่อเนื่องของคุณ)
บทความต้นฉบับ : How to Identify the Distribution of Your Data using Minitab
ต้นฉบับนำมาจาก Minitab blog, แปลและเรียบเรียงโดยรัฐพงษ์ ยอดสีมา
บริหารจัดการ SCM Blog โดยชลทิชา จำรัสพร, บริษัท โซลูชั่น เซ็นเตอร์ จํากัด ตัวแทน Minitab ในประเทศไทย
เพิ่มเติมเกี่ยวกับบริษัท Minitab
Minitab ช่วยให้บริษัทและองค์กรต่างๆ สามารถมองเห็นแนวโน้มของข้อมูล, แก้ปัญหาและค้นพบประเด็นสำคัญจากข้อมูลเชิงลึก โดยนำเสนอชุดโซลูชั่นที่ครอบคลุมทุกด้านและดีที่สุดสำหรับซอฟต์แวร์ในระดับเดียวกัน ที่ใช้สำหรับการวิเคราะห์ข้อมูลและการปรับปรุงกระบวนการ
ด้วยวิธีการที่เป็นเอกลักษณ์ และการนำเสนอซอฟต์แวร์และบริการแบบองค์รวม Minitab ช่วยให้องค์กรเข้าถึงกระบวนการตัดสินใจในส่วนที่ช่วยผลักดันให้เกิดความเป็นเลิศทางธุรกิจได้ดีขึ้น ความง่ายในการใช้งานที่โดดเด่นกว่าใครมีส่วนช่วยให้ Minitab สามารถทำให้การเข้าถึงข้อมูลเชิงลึกเป็นเรื่องที่ง่าย ทีมงานของ Minitab ซึ่งประกอบด้วยผู้เชี่ยวชาญทางด้านการวิเคราะห์ข้อมูลที่ได้ผ่านการอบรมมาเป็นอย่างเข้มงวด จะช่วยให้ผู้ใช้งานมั่นใจว่าจะได้รับประโยชน์สูงสุดจากการใช้งานวิเคราะห์ข้อมูลและพร้อมที่จะให้คำปรึกษาตลอดเวลาที่ใช้งานเพื่อนำไปสู่การตัดสินใจที่ดีขึ้น รวดเร็ว และแม่นยำ
เป็นเวลากว่า 50 ปีที่ Minitab ได้ช่วยองค์การต่าง ๆ เพิ่มรายได้ ควบคุมและลดต้นทุน เพิ่มคุณภาพ เสริมสร้างความพึงพอใจของลูกค้า และเพิ่มประสิทธิภาพ ธุรกิจและองค์นับหมื่นทั่วโลกใช้ Minitab Statistical Software®, Companion by Minitab®, Minitab Workspace®, Salford Predictive Modeler® and Quality Trainer® เป็นเครื่องมือช่วยในการค้นพบและปรับปรุงความบกพร่องในกระบวนการ