เคล็ดลับเพิ่มเติมสำหรับการจัดกลุ่ม

ในบทความนี้จะทำการอธิบายบางส่วนเพิ่มเติมจากบทความก่อนหน้านี้เกี่ยวกับการจัดกลุ่ม (Cluster Analysis)

คำอธิบายในส่วนของแผนภาพ dendrogram ที่อธิบายไว้ในบทความนั้นอาจจะสร้างความสับสนให้กับหลายๆคน โดยเฉพาะเกี่ยวกับแผนภาพ dendrogram (อ้างจากรูป 4 แผนภาพ dendrogram ในบทความนั้น) เป็นการแสดงให้เห็นว่าถ้าผู้วิเคราะห์ต้องการให้มีกลุ่มเดียว (อยู่ในแผนภาพแรกจากรูปภาพนั้น) แต่ถ้าผู้วิเคราะห์ต้องการให้มี 4 กลุ่ม ผลลัพธ์ที่ได้จะเป็นไปตามแผนภาพที่ 4 จากรูปนั้น แผนภาพทั้ง 4 นั้นเป็นการแสดงให้เห็นว่ากลุ่ม (ที่แสดงด้วยสีที่ต่างกัน) ที่ Minitab ทำการเลือกตามลำดับเมื่อทำการเพิ่มจำนวนกลุ่มที่ต้องการจาก 1 ไปถึง 4

ในการเลือกจำนวนกลุ่มให้กับข้อมูลที่ต้องการจะจัดโดยให้เลือกจัดตามระดับความคล้าย (similarity level) โดยให้เส้นตามแนวนอนเป็นระดับความคล้าย กำหนดให้เป็น ‘X’ ที่อยู่ในแผนภาพ dendrogram และ เส้นตรงตามแนวตั้งที่มีการตัดกันกับเส้นของค่า X ที่กำหนดไว้  เริ่มต้นจากเส้นตรงแนวตั้งหนึ่งใต้เส้น X ที่กำหนดไว้ลากไปจนถึงระดับ 100% เส้นตรงที่อยู่ใต้เส้น X นี้ทั้งหมดจะถือเป็นกลุ่มเดียวกัน กรณีถ้ามีเส้นตรงแนวตั้งลากผ่านสมาชิกข้อมูลตัวอื่นๆ  (โดยเส้นตรงแนวตั้งนั้นจะสั้นกว่า) จะทำให้ทั้งหมดกลายเป็นสมาชิกในกลุ่มเดียวกัน ให้ดูตัวอย่างจากภาพด้านล่างนี้โดยลองเปลี่ยนค่า X เป็นค่าต่างๆได้เพื่อทำให้เข้าใจการจัดกลุ่มได้มากขึ้น

เมื่อให้  X= 50 ผลที่ได้สุดท้ายคือ 2 กลุ่ม ที่แสดงด้วยสีแดงและสีเขียว

50

 เมื่อให้  X = 60 ผลที่ได้สุดท้ายคือ 3 กลุ่ม ที่แสดงด้วย สีแดง สีฟ้า และสีเขียว

60

เมื่อให้  X=80 ผลที่ได้สุดท้ายคือ 3 กลุ่ม ที่แสดงด้วย สีแดง สีเขียว สีเหลือง และ สีฟ้า

80

ตอนเลือกใช้ Multivariateใน Minitab คุณจะเห็นคำสั่งในการจัดกลุ่มอยู่ 3 แบบ

•    Cluster Observations
•    Cluster Variables
•    Cluster K-Means

ในส่วน Cluster Observations และ Cluster Variables จะเป็นการจัดกลุ่มแบบตามลำดับขั้นที่แสดงไว้ในบทความก่อนหน้านี้ ที่เริ่มจากการให้ข้อมูลมีกลุ่มของตนเองและค่อยรวมตัวกันเป็นกลุ่มจนได้กลุ่มที่ใหญ่ขึ้น โดยการจะเลือกใช้คำสั่งใดขึ้นกับว่าข้อมูลที่มีเป็นแบบใด ถ้าคุณต้องการให้จัดกลุ่มข้อมูลที่อยู่ในแถวเดียวกันเลือกใช้ Cluster Observations แต่ถ้าคุณต้องการจัดกลุ่มข้อมูลที่เรียงในคอลัมน์เดียวกันให้เลือก Cluster Variables

ส่วน Cluster K-Means จะมีความคล้ายคลึงกับ Cluster Observations ที่สมมติให้แต่ละแถวเป็นข้อมูลที่ต้องการจะนำมาแบ่งกลุ่ม เช่นในแผ่นงานข้อมูลมีทั้งหมด 143 แถว เท่ากับมีข้อมูล 143 สิ่งที่ต้องการจัดเรียง แต่อาจจะมีข้อแตกต่างจากการจัดกลุ่มตามลำดับขั้น คืออาจจะมี 2 กลุ่มที่ถูกแบ่งออกจากกันหลังจากที่นำมารวมกัน

วิธีการแบบ K-Means ให้ผลลัพธ์ได้ดีที่สุด  เมื่อคุณให้มีจุดเริ่มตั้งต้นที่ดีในการจับกลุ่ม โดยจุดตั้งต้น (“starting point”) คือในแต่ละแถวข้อมูลของแผ่นงานที่เลือกมาเป็นตัวแทนกลุ่มที่จะสร้าง เช่นตัวอย่างที่ Minitab Help ให้ไว้ในหัวข้อ Cluster K-Means เป็นข้อมูลเกี่ยวกับหมีจำนวน 143 ตัว ที่ต้องการจัดแบ่งกลุ่มโดยมีข้อมูลเกี่ยวกับความสูง น้ำหนัก และความยาวเส้นรอบวงคอ  โดยผู้วิเคราะห์ต้องการจัดแบ่งกลุ่มหมีเหล่านี้ตามขนาด ให้ออกเป็น 3 กลุ่ม คือ เล็ก กลาง ใหญ่ ดังนั้น จึงเริ่มต้นจากการหาจุดตั้งต้นของกลุ่มของหมีทั้ง 3 ขนาด โดยทำการสร้างคอลัมน์ตัวบ่งชี้ในแผ่นงาน และให้แถวเป็นคุณสมบัติของหมีขนาดเล็กที่ตั้งค่าไว้เท่ากับ 1 ส่วนหมีขนาดกลางและใหญ่ตั้งค่าไว้เท่ากับ 2 และ 3 ตามลำดับ สำหรับแถวอื่นๆที่ยังไม่ได้ใช้ตอนนี้ให้ตั้งค่าไว้เท่ากับ 0

เมื่อหน้าต่างคำสั่งของ Cluster K-Means ปรากฎขึ้นมาให้คุณการใส่ค่าจำนวนกลุ่ม (number of clusters) หรือ ใส่ค่าในส่วนจำนวนคอลัมน์ (initial partition column) ตั้งต้นที่ใส่ตัวเลขรหัสแทนกลุ่ม จากตัวอย่างข้างต้นที่กล่าวมาเราจะเลือกใช้คำสั่ง initial partition column

หวังว่าในบทความนี้จะช่วยทำให้คุณเข้าใจมากขึ้นในส่วนการจัดกลุ่ม (Cluster Analysis) ที่กล้าวไว้ในบทความก่อนหน้านี้


บทความต้นฉบับ : More Cluster Analysis Tips

ต้นฉบับนำมาจาก Minitab blog, แปลและเรียบเรียงโดยสุวดี นำพาเจริญ

บริหารจัดการ SCM Blog โดยชลทิชา จำรัสพร บริษัท โซลูชั่น เซ็นเตอร์ จํากัด ตัวแทน Minitab ในประเทศไทย

Minitabbloglogo

เพิ่มเติมเกี่ยวกับบริษัท Minitab

Minitab ช่วยให้บริษัทและองค์กรต่างๆ สามารถมองเห็นแนวโน้มของข้อมูล, แก้ปัญหาและค้นพบประเด็นสำคัญจากข้อมูลเชิงลึก โดยนำเสนอชุดโซลูชั่นที่ครอบคลุมทุกด้านและดีที่สุดสำหรับซอฟต์แวร์ในระดับเดียวกัน ที่ใช้สำหรับการวิเคราะห์ข้อมูลและการปรับปรุงกระบวนการ 
ด้วยวิธีการที่เป็นเอกลักษณ์ และการนำเสนอซอฟต์แวร์และบริการแบบองค์รวม Minitab ช่วยให้องค์กรเข้าถึงกระบวนการตัดสินใจในส่วนที่ช่วยผลักดันให้เกิดความเป็นเลิศทางธุรกิจได้ดีขึ้น ความง่ายในการใช้งานที่โดดเด่นกว่าใครมีส่วนช่วยให้ Minitab สามารถทำให้การเข้าถึงข้อมูลเชิงลึกเป็นเรื่องที่ง่าย ทีมงานของ Minitab ซึ่งประกอบด้วยผู้เชี่ยวชาญทางด้านการวิเคราะห์ข้อมูลที่ได้ผ่านการอบรมมาเป็นอย่างเข้มงวด จะช่วยให้ผู้ใช้งานมั่นใจว่าจะได้รับประโยชน์สูงสุดจากการใช้งานวิเคราะห์ข้อมูลและพร้อมที่จะให้คำปรึกษาตลอดเวลาที่ใช้งานเพื่อนำไปสู่การตัดสินใจที่ดีขึ้น รวดเร็ว และแม่นยำ 
เป็นเวลากว่า 50 ปีที่ Minitab ได้ช่วยองค์การต่าง ๆ เพิ่มรายได้ ควบคุมและลดต้นทุน เพิ่มคุณภาพ เสริมสร้างความพึงพอใจของลูกค้า และเพิ่มประสิทธิภาพ ธุรกิจและองค์นับหมื่นทั่วโลกใช้ Minitab Statistical Software®, Companion by Minitab®, Minitab Workspace®, Salford Predictive Modeler® and Quality Trainer® เป็นเครื่องมือช่วยในการค้นพบและปรับปรุงความบกพร่องในกระบวนการ