บทความจากลูกค้า: 3 ยุคสมัยของตัวแบบจาก Machine Learning – โฟกัสใหม่บนมูลค่าทางธุรกิจ

เมื่อวิทยาการข้อมูล (data science) ได้รับความนิยมขึ้นเมื่อราว ๆ หนึ่งทศวรรษที่ผ่านมา การสร้างตัวแบบการคาดการณ์เป็นงานที่ซับซ้อนซึ่งมีเพียงโปรแกรมเมอร์ที่มีทักษะเท่านั้นที่สามารถทำได้ แต่ทุกวันนี้ เครื่องมือและเทคนิคใหม่ ๆ กำลังเปลี่ยนโฟกัสจากรายละเอียดการเขียนโปรแกรม ไปเป็นการสร้างตัวแบบที่แข็งแกร่ง และสามารถปรับใช้ได้ทุกสถานการณ์ อีกทั้งยังมุ่งเน้นที่การสร้างมูลค่าทางธุรกิจอีกด้วย

ในบทความนี้ พวกเราจะให้เค้าโครงสำหรับการทำงานของ machine learning และแสดงให้เห็นว่า ขณะนี้เรากำลังเข้าสู่ยุคสมัยที่ 3 ของความสามารถของ machine learning ที่คุณสามารถใช้งานได้

MACHINE LEARNING ศาสตร์และศิลป์แห่งการคาดการณ์

Machine learning คืออะไร? แก่นแท้ของ machine learning เป็นเพียงชุดของอัลกอริธึมที่ช่วยให้คุณคาดการณ์เกี่ยวกับสิ่งที่ไม่รู้จักโดยอาศัยข้อมูลที่มีอยู่ ในหนังสือ Prediction Machines โดยเหล่านักเศรษฐศาสตร์ที่ชื่อว่า Ajay Agrawal, Joshua Gans และ Avi Goldfarb ได้ชี้ให้เห็นว่า ปัญญาประดิษฐ์ (artificial intelligence) ไม่ได้เกี่ยวกับการสร้างปัญญา แต่เกี่ยวกับความสามารถของชุดของอัลกอริธึมในการคาดการณ์ ซึ่งเป็นปัจจัยหลักสำหรับการตัดสินใจ

ตามที่ผู้เขียนได้ตั้งข้อสังเกต เครื่องจักรและมนุษย์มีจุดแข็งและจุดอ่อนที่แตกต่างกันเมื่อต้องทำการคาดการณ์ เครื่องจักรสามารถรับมือกับการโต้ตอบที่ซับซ้อนได้ดีกว่า โดยเฉพาะอย่างยิ่งในสถานการณ์ที่มีข้อมูลจำนวนมาก ในขณะที่มนุษย์ทำงานได้ดีกว่า เมื่อความสำคัญของมัน คือ ต้องเข้าใจกระบวนการที่นำไปสู่ข้อมูล

ฉันมีความเชื่ออย่างแรงกล้าเช่นเดียวกับอีกหลาย ๆ คนว่า ผลลัพธ์ที่ดีที่สุดจะเกิดขึ้น เมื่อรวมจุดแข็งของเครื่องจักรและมนุษย์เข้าด้วยกัน และนี่ก็เป็นแนวทางที่ฉันและเพื่อนร่วมงานใช้ใน หลักสูตร Masters in Data Science ของ Elmhurst College ซึ่งฉันเป็นผู้ก่อตั้ง

แนวทางของ machine learning ในปัจจุบันมีรากฐานมาจากสถิติ การวิเคราะห์การถดถอยเชิงเส้น (Linear regression) ซึ่งมีมานานกว่าศตวรรษ ยังคงเป็นรูปแบบที่สำคัญของ machine learning และในช่วง 2-3 ทศวรรษที่ผ่านมา รูปแบบใหม่ของ machine learning ได้กลายเป็นจริงแล้ว ซึ่งฉันจำแนกประเภทของวิธีการของ machine learning สมัยใหม่ออกเป็น 3 ยุคสมัย

ยุคสมัยที่ 1 : จาก การวิเคราะห์การถดถอยแบบโลจิสติกส์ (LOGISTIC REGRESSION) ไปจนถึง ต้นไม้ตัดสินใจ (DECISION TREES) และ MINITAB CART

ยุคสมัยที่ 1 ประกอบด้วย ชุดเทคนิคการสร้างตัวแบบพื้นฐานที่มักจะเพียงพอต่อการคาดการณ์ที่มีประโยชน์ ซึ่งมีไม่กี่เทคนิค โดยเริ่มต้นด้วยต้นไม้ตัดสินใจ (decision trees)

สมมติว่า คุณกำลังพยายามคาดการณ์ว่า ลูกค้าจะทำการซื้อหรือไม่ โดยอ้างอิงจากประวัติการซื้อที่ผ่านมา ซึ่งมีหลายปัจจัยที่เกี่ยวข้องกันจำนวนมากที่ต้องมาทำการวิเคราะห์ และด้วยการวิเคราะห์แบบ BI (Business Intelligence) ทั่ว ๆ ไปนั้น ไม่สามารถมองเห็นถึงความซับซ้อนได้ ต้นไม้ตัดสินใจจะกำหนดอย่างเป็นระบบในแต่ละขั้นตอนว่า ตัวแปรที่เป็นไปได้ตัวแปรใดที่จะสามารถแยกลูกค้าที่ตัดสินใจจะซื้อ ออกจากผู้ที่ไม่ต้องการซื้อได้อย่างรวดเร็วที่สุด

ผลลัพธ์ที่ได้ คือ โรดแมปที่คุณสามารถนำไปปฏิบัติตาม เพื่อเป็นแนวทางในการตัดสินใจ ในตัวอย่างจากธนาคารที่แสดงด้านล่าง ซึ่งสร้างขึ้นโดยใช้ความสามารถของ CART ในโปรแกรม Minitab โดยตัวแปรที่สำคัญที่สุด คือ ระยะเวลาการติดต่อครั้งล่าสุดของลูกค้า หากใช้เวลาครั้งล่าสุดน้อยกว่า 249 วินาที จะมีโอกาสน้อยในการซื้อ และโอกาสซื้อจะเพิ่มขึ้น เมื่อใช้เวลาติดต่อนานขึ้น จากนั้นก็พิจารณาตามต้นไม้ตัดสินใจ

minitab cart tree 3 generations machine learning

ตัวแบบ machine learning ในยุคสมัยที่ 1 ที่สำคัญอีกตัวแบบหนึ่ง คือ การวิเคราะห์การถดถอยแบบโลจิสติกส์ (Logistic Regression) ที่พัฒนาสูตรการคำนวณให้กับค่าทำนายที่ถ่วงน้ำหนักจากตัวแปรต้น ซึ่งแนวทางนี้ง่ายต่อการดำเนินการระบบไอที และง่ายต่อการทำความเข้าใจ

ตัวแบบในยุคสมัยที่ 1 นั้นเป็นสิ่งที่คุณมักจะต้องการ แต่ก็มีข้อจำกัดอยู่ บางครั้งพวกเขาอาจพลาดความแตกต่างที่สำคัญในข้อมูล ซึ่งอาจส่งผลให้ตัวแบบมีความไวไม่เพียงพอ หรือตัวแบบนั้นมีความไวที่มากเกินไป ทำให้เข้าใจผิดได้ว่า รูปแบบปกติของข้อมูลเป็นไปอย่างสุ่ม ในขณะที่ตัวแบบในยุคสมัยที่ 2 แก้ไขปัญหาเหล่านี้ได้บางส่วน และบางครั้งก็ให้สารสนเทศที่เป็นประโยชน์เพิ่มเติม


try 2

ยุคสมัยที่ 2 ประกอบด้วย อัลกอริทึมที่เรียกว่า RANDOM FOREST ก้าวต่อไปโดยการสร้างต้นไม้ตัดสินใจจำนวนมาก

อัลกอริธึม Random forest เป็นตัวอย่างที่ดีของตัวแบบในยุคสมัยที่ 2 แทนที่จะทำงานเหมือนกับต้นไม้ตัดสินใจง่าย ๆ แต่ Random forest ได้สร้างต้นไม้ตัดสินใจจำนวนมาก โดยใช้ข้อมูลเพียงบางส่วนในแต่ละรอบ พวกเขาได้คำตอบสุดท้ายโดยการหาค่าเฉลี่ยของผลลัพธ์ ซึ่งกระบวนการนี้สิ้นสุด เมื่อกำจัดปัจจัยรบกวนบางอย่างในระบบ และมีประสิทธิภาพมากกว่าต้นไม้ตัดสินใจต้นเดียว

Random forests นั้นอิสระ และยังประมาณค่าของตัวแปรที่มีความสำคัญได้ดีอีกด้วย ซึ่งอัลกอริธึม Random forests สามารถสร้างตัวแบบได้ในซอฟต์แวร์ เช่นเดียวกับ machine learning และเครื่องมือการวิเคราะห์เชิงคาดการณ์ที่ซับซ้อนอื่น ๆ เช่น Salford Predictive Modeler (SPM) ของ Minitab โดยในตัวอย่างจากธนาคารของเรา พบว่า ระยะเวลาการติดต่อครั้งล่าสุด สถานะการจ้างงาน และรายได้ต่อเดือน ซึ่งเป็นตัวแปรอยู่ในอันดับต้น ๆ ดังที่แสดงด้านล่าง โปรดทราบว่า ผลลัพธ์นี้สอดคล้องกับต้นไม้ตัดสินใจ CART ของเรา และก้าวไปอีกขั้น ดังที่เห็นในภาพหน้าจอนี้จาก SPM Random Forests®:

spm random forests 3 generations machine learning crop

ตัวแบบอื่น ๆ ในยุคสมัยที่ 2 ประกอบด้วย multivariate adaptive regression splines และตัวแบบ regularized regression ซึ่งมีจุดมุ่งหมาย เพื่อให้ยังได้ตัวแบบที่ซับซ้อนภายใต้การควบคุม

ยุคสมัยที่ 3 ของ machine learning และการสร้างคำแนะนำทางธุรกิจที่เป็นประโยชน์

เป้าหมายหลักของการทำ machine learning ใด ๆ คือ การสร้างคำแนะนำทางธุรกิจที่เป็นประโยชน์ ซึ่งตัวแบบ machine learning ในยุคสมัยที่ 3 ได้ขยายขอบเขตการเข้าถึงตัวแบบของยุคสมัยก่อนหน้าและให้คำแนะนำในระดับใหม่

มาดูตัวอย่างล่าสุดจากธนาคารของเรากัน

  • ตัวแบบ random forest ของเราบอกว่า ระยะเวลาในการติดต่อลูกค้านั้นมีความสำคัญ
  • ต้นไม้ตันสินใจ CART ของเราบอกว่า โอกาสในการซื้อนั้นมีน้อย หากใช้ระยะเวลาติดต่อครั้งล่าสุดน้อยกว่า 249 วินาที

คงจะน่าสนใจไม่น้อย ที่จะรู้ว่าระยะเวลาการติดต่อเท่าใดเหมาะสมที่สุด? อัลกอริธึมในยุคสมัยที่ 3 เช่น SPM TreeNet® Gradient Boosting สามารถช่วยได้

กราฟที่แสดงด้านล่างเรียกว่า one-variable partial dependence plot มันแสดงให้เห็นว่า ผลกระทบของระยะเวลาการติดต่อที่มีผลต่อความเป็นไปได้ ซึ่งทำให้โอกาสในการซื้อเกิดการเปลี่ยนแปลงตามระยะเวลาของการติดต่อในแต่ละช่วงเวลาได้อย่างไร ฟังดูเหมือนเป็นแนวคิดง่าย ๆ แต่จริง ๆ แล้วทำได้ยากมาก เนื่องจากผลกระทบของตัวแปร เช่น ระยะเวลา มีความเกี่ยวข้องอย่างมากกับผลกระทบของตัวแปรอื่น ๆ

spm treenet 3 generations machine learning

กราฟ partial dependence plot ของเรายังบอกอีกว่า โอกาสในการปิดดีลยังคงเพิ่มขึ้นสำหรับผู้ที่ติดต่อ โดยใช้เวลานานถึง 1,000 วินาที และหลังจากนั้นจะคงที่ นี่คือคำแนะนำเฉพาะ ซึ่งคุณสามารถมอบให้กับพนักงานหน้าเคาท์เตอร์ โดยนอกเหนือไปจากตัวแบบยุคสมัยก่อนหน้านี้ที่มีให้

จุดสนใจอีกอย่างหนึ่งสำหรับตัวแบบในยุคสมัยที่ 3 คือ ความสามารถในการจัดการข้อมูลที่เป็นข้อความและรูปภาพ โดยข้อมูลประเภทนี้มักจะมีจำนวนคอลัมน์มากกว่าแถว และมักมีการแปลงเป็นตัวเลข ซึ่งเป็นฝันร้ายสำหรับเทคนิคการสร้างตัวแบบก่อนหน้านี้ สำหรับตัวแบบในยุคสมัยที่ 3 เช่น GPS และ MARS® มีความสามารถเฉพาะตัว และเป็นที่รู้กันว่า ข้อมูลที่ไม่มีโครงสร้าง เช่น ข้อความและรูปภาพ กำลังมีความสำคัญมากขึ้นเรื่อย ๆ ซึ่งในบางครั้งอาจมีความสามารถในการทำนายของตัวแบบจำนวนมาก และด้วยเหตุนี้ มันจึงสามารถสร้างมูลค่าทางธุรกิจได้

บทสรุป: ยังมีเรื่องราวมากกว่านี้!

ตัวแบบต้องมีความเสถียร และตัวแบบจะต้องสามารถปรับใช้ได้ ซึ่งเครื่องมือ machine learning ในปัจจุบัน ทำให้เป้าหมายที่จำเป็นทั้งสองนี้เป็นไปได้อย่างรวดเร็ว ความท้าทายจากมุมมองทางธุรกิจกลายเป็นการตระหนักถึงอะไรบ้างที่จะโอกาสที่เป็นไปได้ในปัจจุบัน และสร้างความสามารถในการใช้ผลลัพธ์ของตัวแบบ machine learning ในยุคสมัยที่หนึ่ง ที่สอง และที่สาม ที่ทรงพลังได้อย่างชาญฉลาด


face

บทความต้นฉบับ : Guest Post: 3 Generations of Machine Learning Models – A New Focus on Business Value

ต้นฉบับนำมาจาก Minitab blog, แปลและเรียบเรียงโดยรัฐพงษ์ ยอดสีมา

บริหารจัดการ SCM Blog โดยชลทิชา จำรัสพร, บริษัท โซลูชั่น เซ็นเตอร์ จํากัด ตัวแทน Minitab ในประเทศไทย

Minitabbloglogo

เพิ่มเติมเกี่ยวกับบริษัท Minitab

Minitab ช่วยให้บริษัทและองค์กรต่างๆ สามารถมองเห็นแนวโน้มของข้อมูล, แก้ปัญหาและค้นพบประเด็นสำคัญจากข้อมูลเชิงลึก โดยนำเสนอชุดโซลูชั่นที่ครอบคลุมทุกด้านและดีที่สุดสำหรับซอฟต์แวร์ในระดับเดียวกัน ที่ใช้สำหรับการวิเคราะห์ข้อมูลและการปรับปรุงกระบวนการ 
ด้วยวิธีการที่เป็นเอกลักษณ์ และการนำเสนอซอฟต์แวร์และบริการแบบองค์รวม Minitab ช่วยให้องค์กรเข้าถึงกระบวนการตัดสินใจในส่วนที่ช่วยผลักดันให้เกิดความเป็นเลิศทางธุรกิจได้ดีขึ้น ความง่ายในการใช้งานที่โดดเด่นกว่าใครมีส่วนช่วยให้ Minitab สามารถทำให้การเข้าถึงข้อมูลเชิงลึกเป็นเรื่องที่ง่าย ทีมงานของ Minitab ซึ่งประกอบด้วยผู้เชี่ยวชาญทางด้านการวิเคราะห์ข้อมูลที่ได้ผ่านการอบรมมาเป็นอย่างเข้มงวด จะช่วยให้ผู้ใช้งานมั่นใจว่าจะได้รับประโยชน์สูงสุดจากการใช้งานวิเคราะห์ข้อมูลและพร้อมที่จะให้คำปรึกษาตลอดเวลาที่ใช้งานเพื่อนำไปสู่การตัดสินใจที่ดีขึ้น รวดเร็ว และแม่นยำ 
เป็นเวลากว่า 50 ปีที่ Minitab ได้ช่วยองค์การต่าง ๆ เพิ่มรายได้ ควบคุมและลดต้นทุน เพิ่มคุณภาพ เสริมสร้างความพึงพอใจของลูกค้า และเพิ่มประสิทธิภาพ ธุรกิจและองค์นับหมื่นทั่วโลกใช้ Minitab Statistical Software®, Companion by Minitab®, Minitab Workspace®, Salford Predictive Modeler® and Quality Trainer® เป็นเครื่องมือช่วยในการค้นพบและปรับปรุงความบกพร่องในกระบวนการ