สนใจในการทำเหมืองข้อความหรือไม่? เริ่มต้นการใช้งานร่วมกันระหว่าง Python และ Minitab

คอนเทนต์สามารถเข้าถึงได้ทุกที่ในทุกวันนี้! การศึกษาจาก Nielsen พบว่า ผู้ใหญ่ชาวอเมริกันใช้เวลามากกว่า 11 ชั่วโมงต่อวันในการอ่าน ฟัง ดู และโต้ตอบกับสื่อ ซึ่งอาจเท่าเดิมหรือสูงขึ้น ในขณะเดียวกันผู้คนต้องเว้นระยะห่าง อยู่คนเดียวที่บ้าน และด้วยการไหลเข้าของคอนเทนต์ที่มีอยู่ อาจทำให้คุณเกิดคำถามว่า: มีการวิเคราะห์เพื่อพิจารณาข้อความที่มีให้ลึกยิ่งขึ้นหรือไม่ ?

mss data mining blog v4

การทำเหมืองข้อความหรือที่เรียกว่าการทำเหมืองข้อมูลข้อความเป็นกระบวนการในการแสดงผลคุณภาพสูงจากข้อความ จุดประสงค์สูงสุด คือ การแยกวัดค่าตัวเลขจากตัวแปรข้อความที่สามารถนำมาสร้างแบบจำลองเชิงปริมาณได้

เหตุใดการทำเหมืองข้อความจึงมีความสำคัญ

การทำเหมืองข้อความสามารถใช้เพื่อหารูปแบบที่เรียบง่ายหรือการวิเคราะห์ความรู้สึก (sentiment analysis) ที่ซับซ้อนมาก สถิติพื้นฐานสามารถใช้สำหรับการวิเคราะห์ง่ายๆ เช่น การนับจำนวนครั้งที่มีการกล่าวถึงคำเดิมซ้ำๆ หรือการจับจำนวนคำด้วยตัวพิมพ์ใหญ่ทั้งหมด

เมื่อคุณได้ตารางแสดงค่าสถิติแล้ว คุณสามารถใช้การแสดงภาพ(visualization) เช่น แผนภูมิแท่ง เพื่อแสดงคำที่เกิดขึ้นบ่อยที่สุดในรูปแบบกราฟิก หรือ word clouds เพื่อแสดงภาพที่ทรงพลังของคำเหล่านั้น สิ่งนี้มีประโยชน์อย่างยิ่งหากคุณต้องการทราบความรู้สึกและทัศนคติเกี่ยวกับผลิตภัณฑ์หรือกระบวนการ


ข่าวดี! คุณสามารถใช้ประโยชน์จากการทำเหมืองข้อความได้ เนื่องจากขณะนี้ Minitab Statistical Software เวอร์ชั่นล่าสุด พร้อมใช้งานร่วมกับ Python แล้ว

try

นำข้อความมาสู่ชีวิต: เจาะเข้าไปในเอกสารรีวิวไวน์และการผกผันในความถี่ของเอกสาร (IDF)

จุดประสงค์ในการยกตัวอย่างเพื่อ ลองใช้ตัวอย่างง่ายๆ ของการวิเคราะห์เอกสาร 5 เอกสารที่แตกต่างกันเกี่ยวกับประเภทของไวน์ โดยการเรียกใช้การวิเคราะห์ผ่าน Minitab และรัน Python คุณจะได้ตารางแสดงค่าสถิติ (summary statistics) ที่อ่านง่ายมาก ซึ่งมีลักษณะดังนี้

mss data mining text count image

อย่างที่คุณเห็น จากเอกสาร 5 เอกสารที่แตกต่างกัน คำว่า “Wine” ปรากฏสามครั้งในขณะที่คำว่า “Love” ปรากฏสองครั้ง โดยคำอื่น ๆ ทั้งหมดปรากฏเพียงครั้งเดียว ซึ่ง Minitab ยังแสดงการผกผันในความถึ่ของเอกสาร(IDF) สำหรับแต่ละคำซึ่งคำนวณได้ดังนี้:

IDF = ln (N/DF)

โดย N = จำนวนค่าสังเกต (ในกรณีนี้คือ 5 สำหรับบทวิจารณ์ 5 รายการที่แตกต่างกัน) และ DF = จำนวนเอกสารที่มีคำที่กำหนดเกิดขึ้น

ในทางคณิตศาสตร์ เมื่อมีคำในค่าสังเกตทั้งหมด จะมี IDF = 0 ดังนั้น คำที่มี IDF ต่ำที่สุดจึงเป็นคำที่มีอยู่มากที่สุด ในขณะที่คำที่มีอยู่ในค่าสังเกตเพียงครั้งเดียวจะมี IDF มากที่สุด

ในกรณีนี้ เป็นที่ชัดเจนว่า Wine มี IDF ต่ำที่สุดเพราะมี Wine มากที่สุด จากตารางแสดงค่าสถิติเหล่านี้ เราสามารถสรุปได้ว่าผู้คนชื่นชอบไวน์มากกว่าไม่ชอบ และโดยทั่วไปแล้ว บทวิจารณ์ก็เป็นไปในทางบวก

สำหรับพวกเราที่มีการมองเห็นมากกว่า นอกจากนี้เราสามารถดูตัวอย่างการวิเคราะห์ใน word cloud

mss data mining word map image 1

อย่างที่คุณเห็น Wine เป็นคำที่ใช้กันทั่วไปมากที่สุดและใหญ่ที่สุด แต่การดู word cloud จะทำให้คุณรู้สึกดีจากบทวิจารณ์โดยรวม

watchnow

ลองด้วยตัวคุณเอง

การทำเหมืองข้อความดำเนินการโดยใช้การเชื่อมต่อ Python ที่มีอยู่ใน Minitab ไม่ต้องกังวลหากคุณไม่เคยใช้ Python มาก่อน — เรามีคำแนะนำในการติดตั้งและการใช้งาน Python ( ค้นหาทุกสิ่งที่คุณจำเป็นต้องรู้เกี่ยวกับการใช้งานร่วมกันกับ Python ที่นี่ ) เมื่อติดตั้งส่วนขยายการทำงานสำเร็จแล้ว ก็ง่ายต่อการดำเนินการทำเหมืองข้อความแบบรวดเร็วใน Minitab ต่อไป

ต้องการเรียนรู้เพิ่มเติมเกี่ยวกับ Python ใน Minitab หรือไม่? ดูตัวอย่างความช่วยเหลือของเราหรือพูดคุยกับ Minitab สำหรับงานขั้นสูง เช่น การวิเคราะห์ความเชื่อมั่น กลุ่มรวมของคำและการวิเคราะห์ความหมายแฝง!


ดูการทำงานของ Minitab/Python Integration ใหม่ๆ

webinar

อ้างอิง : https://www.nielsen.com/us/en/insights/article/2018/time-flies-us-adults-now-spend-nearly-half-a-day-interacting-with-media/


บทความต้นฉบับ : Interested in Text Mining? Get Started in Minitab with New Python Integration!

ต้นฉบับนำมาจาก Minitab blog, แปลและเรียบเรียงโดยอธิวัฒน์ บุติมาลย์,

บริหารจัดการ SCM Blog โดยชลทิชา จำรัสพร บริษัท โซลูชั่น เซ็นเตอร์ จํากัด ตัวแทน Minitab ในประเทศไทย

Minitabbloglogo

เพิ่มเติมเกี่ยวกับบริษัท Minitab

Minitab ช่วยให้บริษัทและองค์กรต่างๆ สามารถมองเห็นแนวโน้มของข้อมูล, แก้ปัญหาและค้นพบประเด็นสำคัญจากข้อมูลเชิงลึก โดยนำเสนอชุดโซลูชั่นที่ครอบคลุมทุกด้านและดีที่สุดสำหรับซอฟต์แวร์ในระดับเดียวกัน ที่ใช้สำหรับการวิเคราะห์ข้อมูลและการปรับปรุงกระบวนการ 
ด้วยวิธีการที่เป็นเอกลักษณ์ และการนำเสนอซอฟต์แวร์และบริการแบบองค์รวม Minitab ช่วยให้องค์กรเข้าถึงกระบวนการตัดสินใจในส่วนที่ช่วยผลักดันให้เกิดความเป็นเลิศทางธุรกิจได้ดีขึ้น ความง่ายในการใช้งานที่โดดเด่นกว่าใครมีส่วนช่วยให้ Minitab สามารถทำให้การเข้าถึงข้อมูลเชิงลึกเป็นเรื่องที่ง่าย ทีมงานของ Minitab ซึ่งประกอบด้วยผู้เชี่ยวชาญทางด้านการวิเคราะห์ข้อมูลที่ได้ผ่านการอบรมมาเป็นอย่างเข้มงวด จะช่วยให้ผู้ใช้งานมั่นใจว่าจะได้รับประโยชน์สูงสุดจากการใช้งานวิเคราะห์ข้อมูลและพร้อมที่จะให้คำปรึกษาตลอดเวลาที่ใช้งานเพื่อนำไปสู่การตัดสินใจที่ดีขึ้น รวดเร็ว และแม่นยำ 
เป็นเวลากว่า 50 ปีที่ Minitab ได้ช่วยองค์การต่าง ๆ เพิ่มรายได้ ควบคุมและลดต้นทุน เพิ่มคุณภาพ เสริมสร้างความพึงพอใจของลูกค้า และเพิ่มประสิทธิภาพ ธุรกิจและองค์นับหมื่นทั่วโลกใช้ Minitab Statistical Software®, Companion by Minitab®, Minitab Workspace®, Salford Predictive Modeler® and Quality Trainer® เป็นเครื่องมือช่วยในการค้นพบและปรับปรุงความบกพร่องในกระบวนการ