ลองนึกภาพดูว่า คุณกำลังสั่งซื้อสินค้าออนไลน์ และได้เห็นผลิตภัณฑ์แนะนำที่ตรงกับสินค้าที่คุณกำลังจะซื้อได้อย่างสมบูรณ์แบบ คุณเลือกสินค้านั้นลงในรถเข็นของคุณ ทำให้คุณรู้สึกพึงพอใจกับประสบการณ์การสั่งซื้อสินค้าออนไลน์ รวมถึงวิธีการที่แบรนด์สามารถคาดการณ์สินค้าที่เกี่ยวข้อง ซึ่งเป็น “สิ่งที่คุณต้องการ” ตามพฤติกรรมการเข้าเว็บของคุณ หรือเคยเกิดความรู้สึกปวดใจหรือไม่? เมื่อต้องรีบดูซีรีส์เรื่องโปรดบน Netflix ให้จบ เพียงแค่จะดูซีรีส์แนะนำใหม่ ๆ ที่คุณอาจจะชอบในตอนต่อไปในทันที โดยอ้างอิงจากซีรีส์ที่คุณเพิ่งดูจบ รวมทั้งประเภทของซีรีส์ที่ดูก่อนหน้านี้บนแพลตฟอร์ม โดยทั้งสองตัวอย่าง แสดงให้เห็นถึงพลังของการวิเคราะห์เชิงคาดการณ์ (predictive analytics) ซึ่งธุรกิจต่าง ๆ สามารถวิเคราะห์ข้อมูลลูกค้าในปัจจุบันและในอดีต เพื่อคาดการณ์เกี่ยวกับผลลัพธ์ในอนาคต สิ่งที่อาจไม่ชัดเจนนักในตัวอย่างเหล่านี้ ก็คือ พลังของการทำความสะอาดข้อมูล (clean data) และการเลือกข้อมูลมาอย่างระมัดระวังภายใต้การวิเคราะห์ของคุณ มีวิธีที่ทำให้โมเดลการคาดการณ์ (predictive model) นั้นมีประสิทธิภาพมากขึ้นหรือไม่? แน่นอน – สามารถทำได้ด้วย feature engineering
จริง ๆ แล้ว feature engineering ไม่ใช่แนวคิดใหม่ ถึงแม้ว่าเพิ่งจะเป็น “สิ่งที่ถูกพูดถึง” ในโลกของการวิเคราะห์ข้อมูลเมื่อเร็วๆ นี้ เนื่องจากเป็นกระบวนการที่สำคัญที่สนับสนุนเรื่อง machine learning และการวิเคราะห์เชิงคาดการณ์ (predictive analytics) ให้ประสบความสำเร็จ อย่างไรก็ตาม หากคุณอ่านข้อมูลเพิ่มเติมเกี่ยวกับ feature engineering คุณอาจจะรับรู้ได้ว่ามันเป็นกระบวนการจัดการข้อมูลพื้นฐานที่เรียกว่า data manipulation หรือ pre-processing หรือ normalization.
ในบทความนี้ เราจะเจาะลึกถึงพื้นฐานและความสำคัญของ feature engineering และจะเน้นให้เห็นว่า คุณสามารถใช้เทคนิค feature engineering ต่าง ๆ สำหรับองค์กรของคุณด้วยโปรแกรมสำเร็จรูปทางสถิติ Minitab ให้ประสบความสำเร็จได้อย่างไร
FEATURE ENGINEERING คืออะไร?
เพื่อให้ได้ประโยชน์สูงสุดจากข้อมูลของคุณ และระบุโมเดลการคาดการณ์ที่เหมาะสมที่สุด การทำ feature engineering จึงเป็นขั้นตอนแรกที่สำคัญมาก โดย feature engineering คือ งานที่ต้องใช้ความรู้เกี่ยวกับกระบวนการ และผลลัพธ์ของมันในการแยกคุณสมบัติ (properties) หรือคุณลักษณะ (features) ต่าง ๆ ที่ทำให้โมเดลการคาดการณ์ทำงานได้ดีขึ้น โดยทั่วไปแล้ว คุณลักษณะ (feature) จะอยู่ในรูปแบบของโครงสร้างของคอลัมน์ หรือแอตทริบิวต์ (attributes) ซึ่งสามารถออกแบบได้โดย การแยกคุณลักษณะ (splitting features), การรวมคุณลักษณะ (combining features) หรือการสร้างคุณลักษณะขึ้นมาใหม่ (creating new features) เพื่อให้ได้ผลลัพธ์ที่ดีที่สุดจากโมเดลการคาดการณ์ของคุณ, การทำความสะอาด, คุณภาพของข้อมูล เป็นกุญแจสำคัญสู่กระบวนการ feature engineering ที่เหมาะสมและประสิทธิภาพของโมเดลที่มีความแม่นยำ
ทำไม FEATURE ENGINEERING ถึงมีความสำคัญ?
Feature engineering เป็นขั้นตอนสำคัญในการสำรวจและจัดเตรียมข้อมูล
ประโยชน์ของ feature engineering มีดังนี้
1. ช่วยจัดโครงสร้างข้อมูลได้อย่างถูกต้อง และทำให้แน่ใจว่าชุดข้อมูลสามารถเข้ากันได้กับอัลกอริธึม machine learning
2. ปรับปรุงประสิทธิภาพและความแม่นยำของโมเดล machine learning
3. ให้เกิดความเข้าใจข้อมูลของคุณอย่างลึกซึ้งยิ่งขึ้น อีกทั้งยังส่งผลให้ได้รับข้อมูลเชิงลึกเพิ่มเติม
ตัวอย่างการนำ Feature Engineering ไปใช้กับข้อมูลแบบจัดกลุ่ม (Categorical Data) ในโปรแกรมสำเร็จรูปทางสถิติ Minitab
อะไรคือเทคนิคที่ดีที่สุด เพื่อนำไปใช้สำหรับ FEATURE ENGINEERING?
ใช้เทคนิคต่าง ๆ ที่เหมาะสมกับความต้องการทางธุรกิจของคุณมากที่สุด และให้ได้ประโยชน์สูงสุดจากข้อมูลของคุณ ซึ่งคุณ Marilyn Wheatley (Minitab Solutions Architect) ของเราได้แสดง 7 เทคนิคของ feature engineering ที่คุณสามารถเริ่มใช้งานได้แล้ววันนี้ในโปรแกรมสำเร็จรูปทางสถิติ Minitab โดยในเอกสาร (whitepaper) คุณ Marilyn จะแนะนำเราตลอดกระบวนการในการใช้แต่ละเทคนิค และอธิบายวิธีการนำไปใช้ให้ประสบความสำเร็จได้ ในโปรแกรมสำเร็จรูปทางสถิติ Minitab
และที่ Minitab พวกเราพร้อมช่วยเหลือเหล่าผู้ประกอบการ เช่น ผู้เชี่ยวชาญด้านกระบวนการ นักวิทยาศาสตร์ข้อมูล และนักวิเคราะห์ธุรกิจ ให้ใช้ประโยชน์จากความรู้ในกระบวนการ เพื่อค้นหาโซลูชันที่ขับเคลื่อนด้วยข้อมูลในการแก้ปัญหาความท้าทายทางธุรกิจที่ยากที่สุดของพวกเขา
พร้อมที่จะเป็นผู้เชี่ยวชาญเกี่ยวกับ 7 เทคนิคสำหรับ Feature Engineering หรือยัง?
บทความต้นฉบับ : Demystifying Feature Engineering for Machine Learning
ต้นฉบับนำมาจาก Minitab blog, แปลและเรียบเรียงโดยรัฐพงษ์ ยอดสีมา,
บริหารจัดการ SCM Blog โดยชลทิชา จำรัสพร บริษัท โซลูชั่น เซ็นเตอร์ จํากัด ตัวแทน Minitab ในประเทศไทย
เพิ่มเติมเกี่ยวกับบริษัท Minitab
Minitab ช่วยให้บริษัทและองค์กรต่างๆ สามารถมองเห็นแนวโน้มของข้อมูล, แก้ปัญหาและค้นพบประเด็นสำคัญจากข้อมูลเชิงลึก โดยนำเสนอชุดโซลูชั่นที่ครอบคลุมทุกด้านและดีที่สุดสำหรับซอฟต์แวร์ในระดับเดียวกัน ที่ใช้สำหรับการวิเคราะห์ข้อมูลและการปรับปรุงกระบวนการ
ด้วยวิธีการที่เป็นเอกลักษณ์ และการนำเสนอซอฟต์แวร์และบริการแบบองค์รวม Minitab ช่วยให้องค์กรเข้าถึงกระบวนการตัดสินใจในส่วนที่ช่วยผลักดันให้เกิดความเป็นเลิศทางธุรกิจได้ดีขึ้น ความง่ายในการใช้งานที่โดดเด่นกว่าใครมีส่วนช่วยให้ Minitab สามารถทำให้การเข้าถึงข้อมูลเชิงลึกเป็นเรื่องที่ง่าย ทีมงานของ Minitab ซึ่งประกอบด้วยผู้เชี่ยวชาญทางด้านการวิเคราะห์ข้อมูลที่ได้ผ่านการอบรมมาเป็นอย่างเข้มงวด จะช่วยให้ผู้ใช้งานมั่นใจว่าจะได้รับประโยชน์สูงสุดจากการใช้งานวิเคราะห์ข้อมูลและพร้อมที่จะให้คำปรึกษาตลอดเวลาที่ใช้งานเพื่อนำไปสู่การตัดสินใจที่ดีขึ้น รวดเร็ว และแม่นยำ
เป็นเวลากว่า 50 ปีที่ Minitab ได้ช่วยองค์การต่าง ๆ เพิ่มรายได้ ควบคุมและลดต้นทุน เพิ่มคุณภาพ เสริมสร้างความพึงพอใจของลูกค้า และเพิ่มประสิทธิภาพ ธุรกิจและองค์นับหมื่นทั่วโลกใช้ Minitab Statistical Software®, Companion by Minitab®, Minitab Workspace®, Salford Predictive Modeler® and Quality Trainer® เป็นเครื่องมือช่วยในการค้นพบและปรับปรุงความบกพร่องในกระบวนการ