ทำความเข้าใจเกี่ยวกับ Feature Engineering สำหรับ Machine Learning

ลองนึกภาพดูว่า คุณกำลังสั่งซื้อสินค้าออนไลน์ และได้เห็นผลิตภัณฑ์แนะนำที่ตรงกับสินค้าที่คุณกำลังจะซื้อได้อย่างสมบูรณ์แบบ คุณเลือกสินค้านั้นลงในรถเข็นของคุณ ทำให้คุณรู้สึกพึงพอใจกับประสบการณ์การสั่งซื้อสินค้าออนไลน์ รวมถึงวิธีการที่แบรนด์สามารถคาดการณ์สินค้าที่เกี่ยวข้อง ซึ่งเป็น “สิ่งที่คุณต้องการ” ตามพฤติกรรมการเข้าเว็บของคุณ หรือเคยเกิดความรู้สึกปวดใจหรือไม่? เมื่อต้องรีบดูซีรีส์เรื่องโปรดบน Netflix ให้จบ เพียงแค่จะดูซีรีส์แนะนำใหม่ ๆ ที่คุณอาจจะชอบในตอนต่อไปในทันที โดยอ้างอิงจากซีรีส์ที่คุณเพิ่งดูจบ รวมทั้งประเภทของซีรีส์ที่ดูก่อนหน้านี้บนแพลตฟอร์ม โดยทั้งสองตัวอย่าง แสดงให้เห็นถึงพลังของการวิเคราะห์เชิงคาดการณ์ (predictive analytics) ซึ่งธุรกิจต่าง ๆ สามารถวิเคราะห์ข้อมูลลูกค้าในปัจจุบันและในอดีต เพื่อคาดการณ์เกี่ยวกับผลลัพธ์ในอนาคต สิ่งที่อาจไม่ชัดเจนนักในตัวอย่างเหล่านี้ ก็คือ พลังของการทำความสะอาดข้อมูล (clean data) และการเลือกข้อมูลมาอย่างระมัดระวังภายใต้การวิเคราะห์ของคุณ มีวิธีที่ทำให้โมเดลการคาดการณ์ (predictive model) นั้นมีประสิทธิภาพมากขึ้นหรือไม่? แน่นอน – สามารถทำได้ด้วย feature engineering

จริง ๆ แล้ว feature engineering ไม่ใช่แนวคิดใหม่ ถึงแม้ว่าเพิ่งจะเป็น “สิ่งที่ถูกพูดถึง” ในโลกของการวิเคราะห์ข้อมูลเมื่อเร็วๆ นี้ เนื่องจากเป็นกระบวนการที่สำคัญที่สนับสนุนเรื่อง machine learning และการวิเคราะห์เชิงคาดการณ์ (predictive analytics) ให้ประสบความสำเร็จ อย่างไรก็ตาม หากคุณอ่านข้อมูลเพิ่มเติมเกี่ยวกับ feature engineering คุณอาจจะรับรู้ได้ว่ามันเป็นกระบวนการจัดการข้อมูลพื้นฐานที่เรียกว่า data manipulation หรือ pre-processing หรือ normalization.

ในบทความนี้ เราจะเจาะลึกถึงพื้นฐานและความสำคัญของ feature engineering และจะเน้นให้เห็นว่า คุณสามารถใช้เทคนิค feature engineering ต่าง ๆ สำหรับองค์กรของคุณด้วยโปรแกรมสำเร็จรูปทางสถิติ Minitab ให้ประสบความสำเร็จได้อย่างไร 

FEATURE ENGINEERING คืออะไร?

เพื่อให้ได้ประโยชน์สูงสุดจากข้อมูลของคุณ และระบุโมเดลการคาดการณ์ที่เหมาะสมที่สุด การทำ feature engineering จึงเป็นขั้นตอนแรกที่สำคัญมาก โดย feature engineering คือ งานที่ต้องใช้ความรู้เกี่ยวกับกระบวนการ และผลลัพธ์ของมันในการแยกคุณสมบัติ (properties) หรือคุณลักษณะ (features) ต่าง ๆ ที่ทำให้โมเดลการคาดการณ์ทำงานได้ดีขึ้น โดยทั่วไปแล้ว คุณลักษณะ (feature) จะอยู่ในรูปแบบของโครงสร้างของคอลัมน์ หรือแอตทริบิวต์ (attributes) ซึ่งสามารถออกแบบได้โดย การแยกคุณลักษณะ (splitting features), การรวมคุณลักษณะ (combining features) หรือการสร้างคุณลักษณะขึ้นมาใหม่ (creating new features) เพื่อให้ได้ผลลัพธ์ที่ดีที่สุดจากโมเดลการคาดการณ์ของคุณ, การทำความสะอาด, คุณภาพของข้อมูล เป็นกุญแจสำคัญสู่กระบวนการ feature engineering ที่เหมาะสมและประสิทธิภาพของโมเดลที่มีความแม่นยำ

featureengineering blog img2 v3

ทำไม FEATURE ENGINEERING ถึงมีความสำคัญ?

Feature engineering เป็นขั้นตอนสำคัญในการสำรวจและจัดเตรียมข้อมูล

ประโยชน์ของ feature engineering มีดังนี้

         1. ช่วยจัดโครงสร้างข้อมูลได้อย่างถูกต้อง และทำให้แน่ใจว่าชุดข้อมูลสามารถเข้ากันได้กับอัลกอริธึม machine learning

         2. ปรับปรุงประสิทธิภาพและความแม่นยำของโมเดล machine learning

         3. ให้เกิดความเข้าใจข้อมูลของคุณอย่างลึกซึ้งยิ่งขึ้น อีกทั้งยังส่งผลให้ได้รับข้อมูลเชิงลึกเพิ่มเติม

ตัวอย่างการนำ Feature Engineering ไปใช้กับข้อมูลแบบจัดกลุ่ม (Categorical Data) ในโปรแกรมสำเร็จรูปทางสถิติ Minitab

encoding example feature engineering blog

อะไรคือเทคนิคที่ดีที่สุด เพื่อนำไปใช้สำหรับ FEATURE ENGINEERING?

ใช้เทคนิคต่าง ๆ ที่เหมาะสมกับความต้องการทางธุรกิจของคุณมากที่สุด และให้ได้ประโยชน์สูงสุดจากข้อมูลของคุณ ซึ่งคุณ Marilyn Wheatley (Minitab Solutions Architect) ของเราได้แสดง 7 เทคนิคของ feature engineering ที่คุณสามารถเริ่มใช้งานได้แล้ววันนี้ในโปรแกรมสำเร็จรูปทางสถิติ Minitab โดยในเอกสาร (whitepaper) คุณ Marilyn จะแนะนำเราตลอดกระบวนการในการใช้แต่ละเทคนิค และอธิบายวิธีการนำไปใช้ให้ประสบความสำเร็จได้ ในโปรแกรมสำเร็จรูปทางสถิติ Minitab

และที่ Minitab พวกเราพร้อมช่วยเหลือเหล่าผู้ประกอบการ เช่น ผู้เชี่ยวชาญด้านกระบวนการ นักวิทยาศาสตร์ข้อมูล และนักวิเคราะห์ธุรกิจ ให้ใช้ประโยชน์จากความรู้ในกระบวนการ เพื่อค้นหาโซลูชันที่ขับเคลื่อนด้วยข้อมูลในการแก้ปัญหาความท้าทายทางธุรกิจที่ยากที่สุดของพวกเขา


พร้อมที่จะเป็นผู้เชี่ยวชาญเกี่ยวกับ 7 เทคนิคสำหรับ Feature Engineering หรือยัง?

download

บทความต้นฉบับ : Demystifying Feature Engineering for Machine Learning

ต้นฉบับนำมาจาก Minitab blog, แปลและเรียบเรียงโดยรัฐพงษ์ ยอดสีมา,

บริหารจัดการ SCM Blog โดยชลทิชา จำรัสพร บริษัท โซลูชั่น เซ็นเตอร์ จํากัด ตัวแทน Minitab ในประเทศไทย

Minitabbloglogo

เพิ่มเติมเกี่ยวกับบริษัท Minitab

Minitab ช่วยให้บริษัทและองค์กรต่างๆ สามารถมองเห็นแนวโน้มของข้อมูล, แก้ปัญหาและค้นพบประเด็นสำคัญจากข้อมูลเชิงลึก โดยนำเสนอชุดโซลูชั่นที่ครอบคลุมทุกด้านและดีที่สุดสำหรับซอฟต์แวร์ในระดับเดียวกัน ที่ใช้สำหรับการวิเคราะห์ข้อมูลและการปรับปรุงกระบวนการ 
ด้วยวิธีการที่เป็นเอกลักษณ์ และการนำเสนอซอฟต์แวร์และบริการแบบองค์รวม Minitab ช่วยให้องค์กรเข้าถึงกระบวนการตัดสินใจในส่วนที่ช่วยผลักดันให้เกิดความเป็นเลิศทางธุรกิจได้ดีขึ้น ความง่ายในการใช้งานที่โดดเด่นกว่าใครมีส่วนช่วยให้ Minitab สามารถทำให้การเข้าถึงข้อมูลเชิงลึกเป็นเรื่องที่ง่าย ทีมงานของ Minitab ซึ่งประกอบด้วยผู้เชี่ยวชาญทางด้านการวิเคราะห์ข้อมูลที่ได้ผ่านการอบรมมาเป็นอย่างเข้มงวด จะช่วยให้ผู้ใช้งานมั่นใจว่าจะได้รับประโยชน์สูงสุดจากการใช้งานวิเคราะห์ข้อมูลและพร้อมที่จะให้คำปรึกษาตลอดเวลาที่ใช้งานเพื่อนำไปสู่การตัดสินใจที่ดีขึ้น รวดเร็ว และแม่นยำ 
เป็นเวลากว่า 50 ปีที่ Minitab ได้ช่วยองค์การต่าง ๆ เพิ่มรายได้ ควบคุมและลดต้นทุน เพิ่มคุณภาพ เสริมสร้างความพึงพอใจของลูกค้า และเพิ่มประสิทธิภาพ ธุรกิจและองค์นับหมื่นทั่วโลกใช้ Minitab Statistical Software®, Companion by Minitab®, Minitab Workspace®, Salford Predictive Modeler® and Quality Trainer® เป็นเครื่องมือช่วยในการค้นพบและปรับปรุงความบกพร่องในกระบวนการ