รูปร่างของข้อมูลของคุณบ่งบอกถึงอะไร?

เมื่อพูดถึงข้อมูลสิ่งสําคัญที่สุดอย่างหนึ่งที่ต้องเข้าใจ คือ ค่าใดเป็นค่าที่พบได้บ่อยและค่าใดเป็นค่าที่พบได้น้อย หนึ่งในสรุปข้อมูลที่เกี่ยวกับค่าที่พบได้บ่อย ซึ่งมักเป็นค่าที่พูดถึงบ่อยที่สุด คือ ค่าเฉลี่ยเลขคณิต (arithmetic mean) ซึ่งเรามักเรียกสั้นๆว่า ค่าเฉลี่ย คุณอาจได้ยินและคุ้นเคยกับค่าปริมาณน้ำฝนเฉลี่ย เวลาจัดส่งเฉลี่ย หรือ ราคาน้ำมันเฉลี่ย อย่างไรก็ตามมีบางครั้งที่ค่าเฉลี่ยไม่สามารถแสดงออกถึงสิ่งที่พบได้บ่อยได้ดีนัก และตอนนี้เองที่เป็นช่วงเวลาที่เหมาะสมที่ต้องทำการสร้างข้อมูลในฮิสโตแกรม(histogram)


racingcar

ลองพิจารณาเวลารอบของนักขับหมายเลข 44 ที่ ในการแข่งขัน Grand Prix ที่ประเทศฝรั่งเศสในปี 2021 ซึ่งได้จัดเรียงลําดับจากรอบที่เร็วที่สุดจนถึงรอบที่ช้าที่สุด (จากไลบราลี่ python FastF1)

laprank

เราจะเห็นได้ว่ารอบเวลาส่วนใหญ่มีค่าอยู่ระหว่าง 90 ถึง 92 วินาที นั่นคือค่าที่พบได้บ่อยที่สุด แต่ค่าเฉลี่ยของชุดข้อมูลนี้อยู่ที่ประมาณ 109 วินาที ซึ่งไม่ใกล้กับค่าใดๆ ที่อยู่ในชุดข้อมูลเลยไม่ว่าจะค่าเร็วหรือค่าช้า สําหรับข้อมูลเช่นนี้ค่าเฉลี่ยเป็นวิธีที่แย่มากในการหาว่าค่าใดเป็นค่าที่พบได้บ่อยในข้อมูล การรู้ว่าค่าเฉลี่ยเป็นค่าตัวแทนของค่าที่พบได้บ่อยในข้อมูลนั้นเป็นสิ่งดี และ การรู้จักเครื่องมือที่ช่วยคุณระบุได้อย่างรวดเร็วว่าค่าเฉลี่ยที่ได้เป็นตัวแทนของค่าที่พบได้บ่อยหรือไม่จึงเป็นสิ่งที่จำเป็น


ดูชุดเครื่องมือที่มีประสิทธิภาพของ Minitab ที่จะช่วยคุณประเมินคุณภาพของกระบวนการของคุณได้อย่างไร:

watchwebinar

ค่าที่พบได้บ่อย

วิธีการง่ายๆในการดูว่าค่าที่ไดพบบ่อยคือค่าอะไร คือ การพล็อตข้อมูลด้วยฮิสโตแกรม(plot the data with a histogram) ฮิสโตแกรม คือ แบ่งค่าตัวอย่างออกเป็นหลายช่วงๆ และแสดงความถี่ของค่าข้อมูลในแต่ละช่วงด้วยแท่งกราฟ ตัวอย่างที่เห็นคือ ฮิสโตแกรมของรอบเวลา (lap times)

histogram

เมื่อฮิสโตแกรมมีช่องว่างระหว่างแท่งที่สูงที่สุดที่แสดงถึงค่าที่พบได้บ่อย และข้อมูลที่มีความสุดโต่ง ค่าเฉลี่ยจึงมักจะไม่ใช่ตัวแทนที่ดีของค่าที่พบได้บ่อย

ข้อมูลที่มีรูปร่างระฆัง (BELL-SHAPED DATA)

เมื่อข้อมูลส่วนใหญ่มีค่าใกล้เคียงกับค่าเฉลี่ย และ ค่าที่อยู่ห่างจากค่าเฉลี่ยในทั้งสองทิศทางมีแนวโน้มที่จะพบได้ยากขึ้นเรื่อยๆ ฮิสโตแกรมจะมีรูปร่างคล้างระฆัง ค่าเฉลี่ยจะเป็นตัวแทนที่ดีที่ใช้อธิบายเกี่ยวกับค่าที่พบได้บ่อยของชุดข้อมูลเมื่อฮิสโตแกรมแสดงรูปคล้ายระฆัง

baby

ฮิสโตแกรมต่อไปนี้แสดงตัวอย่างน้ำหนักแรกเกิดของทารกที่มีสุขภาพดีในสหรัฐอเมริกาตั้งแต่ช่วงแรกของปี 2022 (จากสํานักงานวิจัยเศรษฐกิจแห่งชาติ(National Bureau of Economic Research)) ทารกส่วนใหญ่มีค่าน้ำหนักใกล้เคียงกับค่าที่ได้พบบ่อย นั่นคือ 3,300 กรัม น้ำหนักที่ห่างจากค่าเฉลี่ยไปในทั้งสองทิศทางมีแนวโน้มจะพบได้น้อยลง


normal

ข้อมูลที่มีรูปร่างเบ้ขวา (RIGHT-SKEWED DATA)

เป็นรูปร่างที่พบได้บ่อยอีกอันหนึ่ง จะเกิดเมื่อข้อมูลส่วนใหญ่มีค่าปกติแต่ข้อมูลบางส่วนมีค่าสูงกว่ามาก เราจะเรียกรูปร่างแบบนี้ว่า “เบ้ขวา” ตัวแปรที่มีขอบเขตด้านล่างแต่ไม่มีขอบเขตด้านบน เช่น รายได้และความแข็งแรง มักจะมีการกระจายที่เป็นไปตามการแจกแจงแบบเบ้ขวา สําหรับข้อมูลที่มีรูปร่างเบ้ขวาจะมีค่าเฉลี่ยห่างจากแท่งที่สูงที่สุดของฮิสโตแกรมทําให้ค่าเฉลี่ยเป็นตัวบ่งชี้ที่ไม่ดีของค่าข้อมูลทั่วไป โดยปกติเราจะใช้ตัวสถิติค่าอื่น เช่น ค่ามัธยฐานเพื่อเป็นตัวแทนค่าที่พบได้บ่อยในข้อมูลที่มีรูปร่างเบ้ขวา

ฮิสโตแกรมต่อไปนี้แสดงตัวอย่างรายได้ของผู้ถือกรรมสิทธิ์สินเชื่อที่อยู่อาศัยรายใหม่ในสหรัฐอเมริกา (จาก FHFA.gov) ในที่นี้ค่ามัธยฐานจะเป็นตัวแทนของค่าที่พบได้บ่อยในชุดข้อมูล ซึ่งถือว่าเป็นค่าที่ดีกว่าค่าเฉลี่ย

skewed

ค่าที่ไม่ได้พบบ่อย (WHAT’S RARE)

เมื่อเราคิดถึงข้อมูลทั่วไปเราจะนึกถึงข้อมูลที่เป็นแท่งสูงๆในฮิสโตแกรม ความต้องการที่พบได้บ่อยในทางปฏิบัติ คือ การประมาณจํานวนผลิตภัณฑ์ที่จะอยู่ภายในข้อกําหนดเฉพาะของลูกค้า ผลิตภัณฑ์ที่อยู่นอกข้อกําหนดเฉพาะควรเป็นสิ่งที่พบได้ไม่บ่อย และเราต้องการที่จะเข้าใจค่าเหล่านี้ด้วย  

รูปร่างของข้อมูลมีความสําคัญ เมื่อเราต้องการใช้ตัวอย่างข้อมูลขนาดเล็กเพื่ออธิบายสิ่งที่พบได้ไม่บ่อย หากเราต้องเก็บข้อมูลด้วยการวัดเพียงไม่กี่สิบครั้งเท่านั้น เราอาจไม่ได้เห็นข้อมูลที่เกิดขึ้นน้อยกว่า 1% จากในตัวอย่าง แต่ลูกค้าที่ซื้อผลิตภัณฑ์หลายพันชิ้นจากเรานั้นอาจจะพบเจอข้อมูลที่พบได้ยากเหล่านี้  เพื่อให้เข้าใจในกรณีดังกล่าวเราจะใช้รูปร่างของข้อมูลเป็นแบบจําลองเพื่อให้เราสามารถอนุมานได้ว่าข้อมูลที่พบได้ยากนี้เป็นอย่างไร

valve

สมมติว่าเราต้องวัดความยาวของวาล์วขนาดเล็กก่อนที่เราจะกำหนดว่าแบทช์นั้นพร้อมที่จะจัดส่งหรือไม่ เพื่อให้ได้ตามความคลาดเคลื่อนที่เราเผื่อไว้ เราจึงทำการผลิตวาล์วให้มีขนาดใหญ่กว่าเล็กน้อย จากนั้นจึงทำการตบแต่งให้ได้ขนาดที่เที่ยงตรงที่สุด วาล์วที่สั้นเกินไปจะถูกคัดทิ้งก่อนการตัดแต่ง ดังนั้นเมื่อตรวจสอบแบทช์สําหรับการจัดส่งเราจึงไม่มีวาล์วที่มีขนาดสั้นกว่าให้วัด กระบวนการนี้จะทำให้ได้ข้อมูลที่มีรูปร่างเบ้ขวา


หากเราใช้รูปทรงระฆังเพื่อสร้างแบบจําลองของข้อมูล เราจะประมาณค่าจำนวนวาล์วที่มีความยาวสั้นเกินไปเกินกว่าจำนวนที่จะพบได้ในชีวิตจริง หากเราซ้อนทับเส้นโค้งที่แสดงรูปร่างระฆังบนฮิสโตแกรมของข้อมูลที่เบ้ขวา คุณจะเห็นพื้นที่ว่างทางด้านซ้ายซึ่งแสดงว่าเส้นโค้งไม่พอดีกับข้อมูล

shape1

หากเราใช้เส้นโค้งที่เบ้ไปทางขวาแทนเส้นโค้งนั้น จะทำให้เราสามารถทำความเข้าใจเกี่ยวกับข้อมูลที่พบได้ยากได้ดีขึ้นแม้ว่าเราจะใช้จำนวนสิ่งตัวอย่างไม่มาก

shape2

การใช้ประโยชน์จากรูปร่างข้อมูลของคุณ (USE THE SHAPE OF YOUR DATA)

การใช้สิ่งตัวอย่างขนาดเล็ก (จำนวนน้อย) เพื่อประเมินสิ่งที่จะเกิดขึ้นในประชากรจํานวนมาก เป็นการประยุกต์ใช้สถิติเชิงคุณภาพที่พบได้ทั่วไป การใช้ฮิสโตแกรมเพื่อทําความเข้าใจรูปร่างข้อมูลของคุณจะสามารถตัดสินใจได้อย่างรวดเร็วว่าค่าเฉลี่ยเป็นค่าตัวแทนที่ดีของสิ่งที่พบได้ทั่วไปในข้อมูลหรือไม่


สำรวจรูปร่างของข้อมูลของคุณเอง – ทดลองใช้ Minitab Statistical Software ฟรี

getfreetrial

*รูปภาพของรถ Formula 1 มาจาก Wikimedia Commons และได้รับอนุญาตภายใต้ใบอนุญาตครีเอทีฟคอมมอนส์(creative commons license)นี้

*ภาพของหัวฉีดน้ำมันเชื้อเพลิงมาจาก flickr และได้รับอนุญาตภายใต้ใบอนุญาตครีเอทีฟคอมมอนส์(creative commons license)นี้


บทความต้นฉบับ : What Does the Shape of Your Data Indicate?

ต้นฉบับนำมาจาก Minitab blog , แปลและเรียบเรียงโดยสุวดี นำพาเจริญ

บริหารจัดการ SCM Blog โดยชลทิชา จำรัสพร, บริษัท โซลูชั่น เซ็นเตอร์ จํากัด ตัวแทน Minitab ในประเทศไทย

Minitabbloglogo

เพิ่มเติมเกี่ยวกับบริษัท Minitab

Minitab ช่วยให้บริษัทและองค์กรต่างๆ สามารถมองเห็นแนวโน้มของข้อมูล, แก้ปัญหาและค้นพบประเด็นสำคัญจากข้อมูลเชิงลึก โดยนำเสนอชุดโซลูชั่นที่ครอบคลุมทุกด้านและดีที่สุดสำหรับซอฟต์แวร์ในระดับเดียวกัน ที่ใช้สำหรับการวิเคราะห์ข้อมูลและการปรับปรุงกระบวนการ 
ด้วยวิธีการที่เป็นเอกลักษณ์ และการนำเสนอซอฟต์แวร์และบริการแบบองค์รวม Minitab ช่วยให้องค์กรเข้าถึงกระบวนการตัดสินใจในส่วนที่ช่วยผลักดันให้เกิดความเป็นเลิศทางธุรกิจได้ดีขึ้น ความง่ายในการใช้งานที่โดดเด่นกว่าใครมีส่วนช่วยให้ Minitab สามารถทำให้การเข้าถึงข้อมูลเชิงลึกเป็นเรื่องที่ง่าย ทีมงานของ Minitab ซึ่งประกอบด้วยผู้เชี่ยวชาญทางด้านการวิเคราะห์ข้อมูลที่ได้ผ่านการอบรมมาเป็นอย่างเข้มงวด จะช่วยให้ผู้ใช้งานมั่นใจว่าจะได้รับประโยชน์สูงสุดจากการใช้งานวิเคราะห์ข้อมูลและพร้อมที่จะให้คำปรึกษาตลอดเวลาที่ใช้งานเพื่อนำไปสู่การตัดสินใจที่ดีขึ้น รวดเร็ว และแม่นยำ 
เป็นเวลากว่า 50 ปีที่ Minitab ได้ช่วยองค์การต่าง ๆ เพิ่มรายได้ ควบคุมและลดต้นทุน เพิ่มคุณภาพ เสริมสร้างความพึงพอใจของลูกค้า และเพิ่มประสิทธิภาพ ธุรกิจและองค์นับหมื่นทั่วโลกใช้ Minitab Statistical Software®, Companion by Minitab®, Minitab Workspace®, Salford Predictive Modeler® and Quality Trainer® เป็นเครื่องมือช่วยในการค้นพบและปรับปรุงความบกพร่องในกระบวนการ