เคล็ดลับสำหรับการแบ่งกลุ่ม

การแบ่งกลุ่ม (Cluster Analysis) มีจุดมุ่งหมายเพื่อทำการจัดกลุ่มโดยนำสมาชิกที่มีความคล้ายคลึงกันมาอยู่รวมเป็นกลุ่มเดียวกัน

หรือการจัดเรียงข้อมูลให้มารวมเป็นกลุ่ม และถือเป็นทักษะพื้นฐานทั่วไปที่เราควรมีและได้ใช้กันเป็นประจำ

ในชีวิตจริงเรามักจะใช้คุณลักษณะสมบัติของสิ่งที่ต้องการจัดกลุ่มมาเป็นตัวคัดเลือกว่าจะให้สิ่งนั้นอยู่ในกลุ่มใด ในการจัดแบ่งกลุ่มจึงใช้ความคล้าย (similarity) หรือ ระยะห่าง (distance) ในการจัดเรียงสิ่งต่างๆ ลงในกลุ่ม

ส่วน Minitab จะใช้วิธีการแบ่งลำดับขั้นในการจัดกลุ่ม (hierarchical clustering method) โดยเริ่มจากมี 1สมาชิกในกลุ่ม จากนั้นจึงค่อยๆ เพิ่มจำนวนสมาชิกลงในกลุ่ม เรียกว่า การรวมตัวกัน (agglomerative method)

เคล็ดลับและข้อเท็จจริงในการจัดกลุ่มตามลำดับ

  • เหมาะกับกรณีที่มีสมาชิกจำนวนไม่มาก เช่น น้อยกว่า 250
  • ถ้าสัมประสิทธิ์ระยะห่าง (the distance coefficient) มีขนาดใหญ่ ยิ่งทำให้การจัดกลุ่มนั้นเป็นไปได้ยากเพราะสมาชิกมีความแตกต่างกันและยากที่จะมารวมกันเป็นกลุ่ม ซึ่งอาจทำให้ผลลัพธ์สุดท้ายที่ได้ไม่ดีนัก
  • ผู้ทำการจัดกลุ่มต้องระบุค่าระยะความเหมือนกัน วิธีการจัดกลุ่ม และจำนวนกลุ่มที่ต้องการจะจัด
  • กลุ่มจะมีความซ้อนทับกัน (nested) มากกว่าจะแยกกันโดยสมบูรณ์ (mutually exclusive)

ขั้นตอนแรกของการคำนวณในการจัดกลุ่ม คือ การสร้างเมตริกซ์ของระยะห่าง (distance) ระหว่างสมาชิกทั้งหมดที่ต้องการนำมาจัดกลุ่ม เมตริกซ์ระยะห่าง หรือ ค่าระยะห่างในเมตริกซ์จะมาจากการคำนวณระยะห่างระหว่างกลุ่มเพื่อช่วยในการหากลุ่มที่เหมาะสมให้กับสมาชิก วิธีการหาระยะห่างระหว่าง 2 กลุ่ม

มีอยู่หลากหลายวิธีหนึ่งในนั้น คือ วิธีการเชื่อมต่อ (linkage method) ซึ่งมีความคล้ายคลึงกับรูปภาพที่เราแสดงให้ดูเบื้องต้น แต่จริงๆมีความต่างกันอยู่ ในที่นี้การวัดระยะห่างจะมุ่งเน้นไปที่การคำนวณระยะห่างระหว่างกลุ่มโดยทำการสร้างจุดเริ่มต้นและจุดสิ้นสุดที่แน่นอนของแต่ละกลุ่มโดยมีการเชื่อมต่อของจุดทั้งสองที่ว่ามา วิธี linkage อาจแบ่งเป็น single linkage (a), complete linkage (b), และ average linkage(c):

1

จาก Minitab ในส่วนของคำสั่งการจัดกลุ่มด้วยวิธี  Cluster Observations  จะมีหน้าต่างคำสั่งที่คุณต้องใส่จำนวนกลุ่มที่คุณต้องการ ( a final number of clusters) หรือ ระดับความคล้ายที่คุณต้องการ  (a level of similarity) ซึ่งอาจมีความสับสนระหว่างสองค่านี้เพราะสุดท้ายแล้วสิ่งที่ต้องการคือให้ Minitab จัดกลุ่มให้กับข้อมูลให้ได้

จากที่กล่าวไว้ข้างต้นเทคนิคของการจัดกลุ่ม คือ การดูการเชื่อมต่อและระยะห่างเพื่อดูว่าข้อมูลควรจัดไว้กลุ่มใด ตามแนวทางของวิธีการแบ่งลำดับขั้นในการจัดกลุ่ม อย่างไรก็ตามผู้ใช้งานยังคงต้องเป็นผู้เลือกเองว่าการจัดลำดับขั้นอย่างไรจึงจะเหมาะสม ดังนั้นเพื่อช่วยให้ผู้ใช้งานมีทางเลือกที่ดีขึ้นจึงมีอีกหนึ่งวิธีการมาให้เลือกใช้ คือ แผนภาพเดนโดแกนม (dendrogram) Dendrogram คือแผนภาพต้นไม้ที่แสดงลำดับขั้นของการจัดกลุ่ม บางครั้งการดูผลที่ได้จากแผนภาพ dendrogram อาจจะมีประโยชน์กว่าการไประบุจำนวนผลลัพธ์สุดท้ายที่ต้องการ และนี่เป็นตัวอย่างที่ Minitab ทำการจัดกลุ่มโดยมีผลลัพธ์ของการจัดกลุ่มสุดท้ายที่ต้องการให้เป็น คือ 4 กลุ่ม

2

วิธีนี้มีวิธีคล้ายกับการทำงานของวิธีในการค้นหาระดับความคล้าย ถ้าคุณกำหนดระดับความคล้ายไว้ที่ 50 ดังนั้นจะทำการตั้งต้นที่เส้นทางที่เร็วที่สุดที่จุดเริ่มต้นที่มีระดับความคล้าย 100% ถ้าเส้นตรงแนวตั้งเส้นหนึ่งที่ลากไปถึงระดับ 100% จะถือเป็นกลุ่มเดียวกัน และถ้ามีเส้นอื่นลากตรงไปยังกลุ่มของข้อมูลอื่นจะถือว่าทุกข้อมูลในนั้นเป็นกลุ่มเดียวกัน

การจัดกลุ่มมีการนำไปใช้งานในหลายประเภทอาทิเช่น

  • ชีววิทยา: การศึกษาการแสดงออกของยีนส์ (transcriptomics), การวิเคราะห์หาลำดับ (sequence analysis)
  • การวิจัยทางการตลาด นำมาใช้กับข้อมูลที่ได้ทำการสำรวจมา ทำการแบ่งกลุ่มประชากรให้เป็นส่วนต่างๆ เพื่อทำความเข้าใจความสัมพันธ์ที่แตกต่างกันและนำไปสู่การหากลุ่มลูกค้าที่ตรงตามเป้าหมายมากที่สุด
  • การวิเคราะห์เครือข่ายทางสังคม เพื่อทำให้เกิดเป็นชุมชน
  • การวิเคราะห์ภาพด้วยการแบ่งส่วนภาพเพื่อทำให้เกิดการจดจำภาพวัตถุ
  • การวิเคราะห์ข้อมูลเบื้องต้นในการแยกกลุ่มข้อมูล

หวังว่าบทความนี้จะช่วยเพิ่มเคล็ดลับในการใช้งาน Minitab แก่คุณในการเปิดใช้โปรแกรมครั้งต่อๆไป


บทความต้นฉบับ : Cluster Analysis Tips

ต้นฉบับนำมาจาก Minitab blog, แปลและเรียบเรียงโดยสุวดี นำพาเจริญ,

บริหารจัดการ SCM Blog โดยชลทิชา จำรัสพร บริษัท โซลูชั่น เซ็นเตอร์ จํากัด ตัวแทน Minitab ในประเทศไทย

Minitabbloglogo

เพิ่มเติมเกี่ยวกับบริษัท Minitab

Minitab ช่วยให้บริษัทและองค์กรต่างๆ สามารถมองเห็นแนวโน้มของข้อมูล, แก้ปัญหาและค้นพบประเด็นสำคัญจากข้อมูลเชิงลึก โดยนำเสนอชุดโซลูชั่นที่ครอบคลุมทุกด้านและดีที่สุดสำหรับซอฟต์แวร์ในระดับเดียวกัน ที่ใช้สำหรับการวิเคราะห์ข้อมูลและการปรับปรุงกระบวนการ 
ด้วยวิธีการที่เป็นเอกลักษณ์ และการนำเสนอซอฟต์แวร์และบริการแบบองค์รวม Minitab ช่วยให้องค์กรเข้าถึงกระบวนการตัดสินใจในส่วนที่ช่วยผลักดันให้เกิดความเป็นเลิศทางธุรกิจได้ดีขึ้น ความง่ายในการใช้งานที่โดดเด่นกว่าใครมีส่วนช่วยให้ Minitab สามารถทำให้การเข้าถึงข้อมูลเชิงลึกเป็นเรื่องที่ง่าย ทีมงานของ Minitab ซึ่งประกอบด้วยผู้เชี่ยวชาญทางด้านการวิเคราะห์ข้อมูลที่ได้ผ่านการอบรมมาเป็นอย่างเข้มงวด จะช่วยให้ผู้ใช้งานมั่นใจว่าจะได้รับประโยชน์สูงสุดจากการใช้งานวิเคราะห์ข้อมูลและพร้อมที่จะให้คำปรึกษาตลอดเวลาที่ใช้งานเพื่อนำไปสู่การตัดสินใจที่ดีขึ้น รวดเร็ว และแม่นยำ 
เป็นเวลากว่า 50 ปีที่ Minitab ได้ช่วยองค์การต่าง ๆ เพิ่มรายได้ ควบคุมและลดต้นทุน เพิ่มคุณภาพ เสริมสร้างความพึงพอใจของลูกค้า และเพิ่มประสิทธิภาพ ธุรกิจและองค์นับหมื่นทั่วโลกใช้ Minitab Statistical Software®, Companion by Minitab®, Minitab Workspace®, Salford Predictive Modeler® and Quality Trainer® เป็นเครื่องมือช่วยในการค้นพบและปรับปรุงความบกพร่องในกระบวนการ