โปรเจกต์ Six Sigma ในโรงพยาบาล ตอนที่ 3: การสร้างโมเดล Binary Logistic Regression สำหรับการเข้าร่วมโครงการฟื้นฟูสมรรถภาพหัวใจของผู้ป่วย

ในตอนที่ 2 ของบทความชุดนี้ เราได้ใช้กราฟและตาราง เพื่อดูว่า ปัจจัยแต่ละปัจจัยส่งผลต่ออัตราการเข้าร่วมโครงการฟื้นฟูสมรรถภาพหัวใจของผู้ป่วยอย่างไร(how individual factors affected rates of patient participation) จากการสำรวจข้อมูลเบื้องต้นพบว่า ความสะดวกในการดินทางไปยังโรงพยาบาล เป็นปัจจัยที่สำคัญมากต่อการเข้าร่วมโครงการของผู้ป่วย จากผลลัพธ์ที่ได้นี้ การให้บริการรถโดยสาารหรือรถรับส่งสำหรับผู้ที่ไม่มีรถยนต์ส่วนตัว อาจเป็นวิธีการที่ดีในการเพิ่มจำนวนผู้เข้าร่วมโครงการ แต่จะต้องมั่นใจว่า การให้บริการนี้จะไม่มีค่าใช้จ่ายที่เกินกว่ารายได้ที่ได้จากการเข้าร่วมโครงการด้วย

การประมาณค่าความน่าจะเป็นที่แม่นยำ จะช่วยให้เราสามารถคำนวณจุดคุ้มทุนสำหรับบริการดังกล่าวได้ เราสามารถใช้การวิเคราะห์การถดถอย เพื่อพัฒนาโมเดลทางสถิติที่ช่วยให้เราทำแบบนั้นได้

เรามีตัวแปรตอบสนองแบบไบนารี (Binary Response) เนื่องจากมีผลลัพธ์เพียง 2 กลุ่มเท่านั้น คือ ผู้ป่วยที่เข้าร่วมโครงการฟื้นฟูสมรรถภาพหรือไม่เข้าร่วม และเพื่อสร้างโมเดลของตัวแปรตอบสนองประเภทนี้ เราจำเป็นต้องใช้วิธีการทางสถิติที่เรียกว่า “Binary Logistic Regression” อ่านจากชื่ออาจจะดูยาก แต่จริง ๆ มันไม่ได้ยากอย่างที่คิด โดยเฉพาะอย่างยิ่ง เมื่อใช้งานผ่านโปรแกรมสำเร็จรูปทางสถิติ Minitab

สามารถดาวน์โหลดชุดข้อมูลนี้(data set) เพื่อติดตามและลองวิเคราะห์ด้วยตนเอง หากคุณยังไม่มีโปรแกรม Minitab คุณสามารถดาวน์โหลดและใช้โปรแกรมสำเร็จรูปทางสถิติของเราได้ฟรีเป็นเวลา 14 days

การใช้ STEPWISE BINARY LOGISTIC REGRESSION เพื่อสร้างโมเดลเบื้องต้น

เริ่มต้น เรามาตรวจสอบชุดข้อมูลของเรากันก่อน เราทราบเพศ อายุ และระยะห่างจากบ้านกับโรงพยาบาลของผู้ป่วยโรคหัวใจ 500 ราย และเรายังทราบด้วยว่า พวกเขามีรถยนต์ส่วนตัวหรือไม่ (คอลัมน์ Mobility) นอกจากนี้ ยังทราบว่า พวกเขาเข้าร่วมโครงการฟื้นฟูสมรรถภาพหรือไม่ (ตั้งรหัสให้ 0 = ไม่เข้าร่วม และ 1 = เข้าร่วม)

table1

กระบวนการสร้างสมการการถดถอยที่สามารถคาดการณ์ตัวแปรตอบสนอง โดยอาศัยข้อมูลของคุณ เรียกกระบวนการนี้ว่า “Fitting a model” เราจะทำสิ่งนี้ในโปรแกรม Minitab โดยเลือกไปที่เมนู Stat > Regression > Binary Logistic Regression > Fit Binary Logistic Model…

binarylogistic

ใน dialog box เราจำเป็นต้องเลือกคอลัมน์ข้อมูลที่เหมาะสมสำหรับตัวแปรตอบสนองที่เราต้องการคาดการณ์ และปัจจัยที่เราต้องการใช้เป็นตัวแปรต้นในการคาดการณ์ ซึ่งในตัวอย่างนี้ ตัวแปรตอบสนองของเราคือ คอลัมน์ “Participation” (การเข้าร่วมโครงการ) และเรากำลังคาดการณ์สิ่งนี้ด้วยตัวแปรทำนายที่เป็นตัวแปรเชิงปริมาณ นั่นคือ คอลัมน์ “Age” (อายุ) และ “Distance” (ระยะห่างจากบ้านกับโรงพยาบาล) พร้อมด้วยตัวแปรทำนายที่เป็นตัวแปรแบ่งกลุ่มคือ คอลัมน์ “Mobility” (ผู้ป่วยมีรถยนต์ส่วนตัวหรือไม่)

binarylogisticdialog

หลังจากเลือกปัจจัยต่าง ๆ แล้ว ให้คลิกที่ปุ่ม “Model” ซึ่งช่วยให้เราบอกโปรแกรม Minitab ว่าเราต้องการพิจารณาเทอม Interaction และเทอมแบบกำลังสอง เพื่อวิเคราะห์นอกเหนือจาก main effect ของแต่ละปัจจัยหรือไม่ โดยเลือกคอลัมน์ตามโมเดลที่แสดงด้านล่าง หากต้องการ 2-Way Interaction ไว้ในโมเดล ให้ไฮไลท์รายการทั้งหมดในช่อง Predictors (ด้านซ้ายบน) และตรวจสอบให้แน่ใจว่า ตรงช่อง “Interactions through order:” มีค่าเป็น “2” แล้วกดปุ่ม Add ที่อยู่ข้างๆ:

binarylogisticdialog2

คลิก OK เพื่อกลับไปยัง dialog box หลัก จากนั้นคลิกปุ่ม “Coding” ซึ่งใน dialog box นี้ เราสามารถให้โปรแกรม Minitab ทำการ standardize ตัวแปรเชิงปริมาณอย่างอัตโนมัติ อย่าง “Age” (อายุ) และ “Distance” (ระยะห่างจากบ้านกับโรงพยาบาล) ซึ่งมีหลายสาเหตุด้วยกันที่คุณอาจต้องทำการ standardize ให้กับตัวแปรเชิงปริมาณ และวิธีการอื่นๆ ที่แตกต่างจากนี้ในการทำ standardize ซึ่งขึ้นอยู่กับความตั้งใจของคุณ

ในตัวอย่างนี้ เราจะทำ standardize โดยการนำข้อมูลแต่ละตัวลบกับค่าเฉลี่ย แล้วหารด้วยค่าส่วนเบี่ยงเบนมาตรฐานของตัวแปรนั้น ๆ การทำเช่นนี้จะทำให้ค่าเฉลี่ยของตัวแปรทำนายมีค่าเป็น 0 และอยู่ในมาตราส่วนเดียวกัน ซึ่งมีประโยชน์ในกรณีที่โมเดลมีตัวแปรทำนายและเทอม interaction ที่มีความสัมพันธ์กันเองอย่างมาก เนื่องจากการทำ standardize จะช่วยลดปัญหา multicollinearity และทำให้การประมาณค่าสัมประสิทธิ์ของโมเดลนั้นแม่นยำมากขึ้น เพื่อให้บรรลุสิ่งนี้ จึงเลือกตัวเลือกจาก drop-down ที่แสดงด้านล่างนี้:

binarylogisticdialog3

หลังจากที่คุณคลิก OK เพื่อกลับไปยัง dialog box หลัก ต่อมาให้คลิกที่ปุ่ม “Stepwise” เราใช้ dialog box นี้ โดยเลือกวิธีการ Stepwise ซึ่งเป็นเทคนิคที่จะเลือกโมเดลที่ดีที่สุดสำหรับข้อมูลของคุณโดยอัตโนมัติ ซึ่งโปรแกรม Minitab จะประเมินโมเดลที่แตกต่างกันหลายโมเดล โดยการนำเข้าหรือเอาปัจจัยต่าง ๆ ออก และเลือกโมเดลที่เหมาะสมที่สุดสำหรับชุดข้อมูล คุณสามารถให้โปรแกรม Minitab ให้รายละเอียดเกี่ยวกับการนำเข้าหรือหรือเอาปัจจัยต่าง ๆ ออกในแต่ละขั้นตอน หรือให้แสดงเฉพาะโมเดลที่แนะนำ

binarylogisticdialog4

ตอนนี้คลิก OK เพื่อปิด dialog box ของ Stepwise และคลิก OK อีกครั้งเพื่อดำเนินการวิเคราะห์ ผลลัพธ์ใน Output Pane ของโปรแกรม Minitab จะมีรายละเอียดเกี่ยวกับโมเดลที่เป็นไปได้ ตามด้วยตารางสรุปหรือตาราง “deviance” สำหรับโมเดลที่แนะนำ

การประเมินและปรับปรุงโมเดลการวิเคราะห์การถดถอย

การใช้งานโปรแกรม เพื่อดำเนินการวิเคราะห์ Stepwise Regression มีประโยชน์อย่างยิ่ง แต่สิ่งสำคัญ คือ ต้องตรจสอบโมเดลที่แนะนำ เพื่อดูว่าต้องทำการปรับปรุงเพิ่มเติมหรือไม่ ในตัวอย่างนี้ ทุกเทอมในโมเดลส่งผลต่อตัวแปรตอบสนองอย่างมีนัยสำคัญ และค่า adjusted R2 ของตาราง deviance บอกว่า โมเดลนี้สามารถอธิบายความผันแปรที่สังเกตได้ในตัวแปรตอบสนองประมาณ 40%

result

เรายังต้องดูตารางค่า Coded Coefficients ตามที่สรุปด้านล่างนี้ ซึ่งคอลัมน์สุดท้ายของตารางแสดงค่า VIF (หรือค่า Variance Inflation Factors) สำหรับแต่ละเทอมในโมเดล สิ่งนี้สำคัญเพราะค่า VIF ที่มีค่ามากกว่า 5-10 อาจบ่งชี้ถึง การประมาณค่าสัมประสิทธิ์นั้นไม่เสถียรและยากต่อการตีความ

โดยในแต่ละเทอม มีค่า VIF น้อยกว่า 10

result2

โปรแกรม Minitab ยังทำการทดสอบ Goodness-of-Fit เพื่อประเมินว่า โมเดลที่ใช้คาดการณ์ข้อมูลนั้นแม่นยำเพียงใด ซึ่งการทดสอบวิธีที่ 1 คือ การทดสอบความเบี่ยงเบน (deviance) และวิธีที่ 2 คือ การทดสอบ Pearson Chi-Square มีค่า p-value สูง ซึ่งบ่งชี้ว่า การทดสอบเหล่านี้ไม่สนับสนุนข้อสรุปที่ว่า โมเดลนี้ไม่เหมาะกับข้อมูล แต่อย่างไรก็ตาม ค่า p-value ของการทดสอบ Hosmer-Lemeshow มีค่าต่ำ บ่งชี้ว่า โมเดลอาจมีการปรับปรุง

result3

อาจเป็นไปได้ว่า โมเดลของเราไม่ได้คำนึงถึงความโค้งที่มีอยู่ในข้อมูล เราสามารถใช้โปรแกรม Minitab เพื่อเพิ่มเทอมกำลังสอง ซึ่งเป็นโมเดลที่มีความโค้งระหว่างตัวแปรตอบสนองและตัวแปรทำนายแต่ละตัวแปร เพื่อดูว่า จะช่วยปรับปรุงโมเดลให้ดีขึ้นหรือไม่ กด CTRL-E เพื่อเรียก dialog box ล่าสุดที่วิเคราะห์  binary logistic regression จากนั้นให้คลิกปุ่ม “Model” เพื่อเพิ่มเทอมกำลังสอง และทำการเลือกคอลัมน์ Age และ Distance จากในช่อง Predictors (ด้านซ้ายบน) ตรวจสอบให้แน่ใจว่า มีเลข “2” ในช่อง “Terms through order:” แล้วคลิกปุ่ม “Add” เพื่อเพิ่มเทอมกำลังสองเหล่านั้นเข้าไปในโมเดล ซึ่งเทอมกำลังสอง คือ นำตัวแปรทำนายมายกกำลังสอง

model

คุณอาจสังเกตเห็นว่า เราไม่ได้เลือกคอลัมน์ “Mobility” (ผู้ป่วยมีรถยนต์ส่วนตัวหรือไม่) ในขั้นตอนด้านบน ทำไมอ่ะหรอ? ก็เพราะว่า ตัวแปรแบ่งกลุ่มนั้นถูกเข้ารหัสด้วย 1 และ 0 ดังนั้นเทอมกำลังสองจึงจะเหมือนกับเทอมที่มีอยู่ในโมเดลอยู่แล้ว

ตอนนี้ ให้คลิก OK ไปจนจบ เพื่อให้โปรแกรม Minitab สร้างโมเดลที่มีเทอมกำลังสอง ซึ่งโปรแกรม Minitab สร้างผลลัพธ์ดังต่อไปนี้::

model2

อย่างไรก็ตาม ในเทอมของ Mobility และเทอม interaction ของ Distance*Mobility มีค่า VIF สูงกว่าที่ต้องการ:

model3

จนถึงตอนนี้ ทุกอย่างเป็นไปด้วยดี – เทอมทั้งหมดของโมเดลส่งผลต่อตัวแปรตอบสนองอย่างมีนัยสำคัญ และค่า adjusted R2  บ่งชี้ว่าโมเดลใหม่สามารถอธิบายความผันแปรที่สังเกตได้ในตัวแปรตอบสนองได้ 51% เมื่อเทียบกับโมเดลตอนแรกเพียงแค่ 40% ส่วนค่าสัมประสิทธิ์ต่างๆ ยังอยู่ในเกณฑ์ที่ยอมรับได้ โดยไม่มีค่า VIF ที่มากกว่า 10 ซึ่งเทอมเหล่านี้มีความสัมพันธ์กันในระดับปานกลาง แต่คงไม่มากพอที่จะทำให้ผลลัพธ์การถดถอยไม่น่าเชื่อถือ

model4

การทดสอบ Goodness-of-Fit  สำหรับโมเดลนี้ก็ดูดีเช่นกัน – ทั้ง 3 วิธีการ ไม่มีค่า p-value ที่น้อยกว่า 0.05 บ่งชี้ว่า การทดสอบเหล่านี้ไม่ได้แนะนำว่า โมเดลไม่เหมาะสมสำหรับข้อมูลที่สังเกตได้

model5

สมการที่ได้จากการวิเคราะห์ Binary Logistic Regression

โมเดลนี้ดูเหมือนเป็นตัวเลือกที่ดีที่สุดในการคาดการณ์ค่าความน่าจะเป็นที่ผู้ป่วยจะเข้าร่วมโครงการฟื้นฟูสมรรถภาพหัวใจ จากข้อมูลนี้ โปรแกรม Minitab ได้สร้างโมเดลจากการวิเคราะห์การถดถอยต่อไปนี้ โมเดลที่หนึ่ง ใช้ในการคาดการณ์ค่าความน่าจะเป็นของผู้ป่วยที่มีรถยนต์ส่วนตัว และอีกโมเดลสำหรับผู้ป่วยที่ไม่มีรถยนต์ส่วนตัว:

model6

ในบทความถัดไป เราจะดำเนินการตามขั้นตอนนี้ให้เสร็จ โดยใช้โมเดลนี้ เพื่อคาดการณ์ค่าความน่าจะเป็นที่ผู้ป่วยจะเข้าร่วมโครงการฟื้นฟูสมรรถภาพหัวใจ และจำนวนเงินที่เราจะลงทุนในการบริการเกี่ยวกับการเดินทาง เพื่อช่วยเหลือผู้ป่วยโรคหัวใจให้เข้าถึงได้มากยิ่งขึ้น


บทความต้นฉบับ : A Six Sigma Healthcare Project, part 3: Creating a Binary Logistic Regression Model for Patient Participation

ต้นฉบับนำมาจาก Minitab blog , แปลและเรียบเรียงโดยรัฐพงษ์ ยอดสีมา

บริหารจัดการ SCM Blog โดยชลทิชา จำรัสพร, บริษัท โซลูชั่น เซ็นเตอร์ จํากัด ตัวแทน Minitab ในประเทศไทย

Minitabbloglogo

เพิ่มเติมเกี่ยวกับบริษัท Minitab

Minitab ช่วยให้บริษัทและองค์กรต่างๆ สามารถมองเห็นแนวโน้มของข้อมูล, แก้ปัญหาและค้นพบประเด็นสำคัญจากข้อมูลเชิงลึก โดยนำเสนอชุดโซลูชั่นที่ครอบคลุมทุกด้านและดีที่สุดสำหรับซอฟต์แวร์ในระดับเดียวกัน ที่ใช้สำหรับการวิเคราะห์ข้อมูลและการปรับปรุงกระบวนการ 
ด้วยวิธีการที่เป็นเอกลักษณ์ และการนำเสนอซอฟต์แวร์และบริการแบบองค์รวม Minitab ช่วยให้องค์กรเข้าถึงกระบวนการตัดสินใจในส่วนที่ช่วยผลักดันให้เกิดความเป็นเลิศทางธุรกิจได้ดีขึ้น ความง่ายในการใช้งานที่โดดเด่นกว่าใครมีส่วนช่วยให้ Minitab สามารถทำให้การเข้าถึงข้อมูลเชิงลึกเป็นเรื่องที่ง่าย ทีมงานของ Minitab ซึ่งประกอบด้วยผู้เชี่ยวชาญทางด้านการวิเคราะห์ข้อมูลที่ได้ผ่านการอบรมมาเป็นอย่างเข้มงวด จะช่วยให้ผู้ใช้งานมั่นใจว่าจะได้รับประโยชน์สูงสุดจากการใช้งานวิเคราะห์ข้อมูลและพร้อมที่จะให้คำปรึกษาตลอดเวลาที่ใช้งานเพื่อนำไปสู่การตัดสินใจที่ดีขึ้น รวดเร็ว และแม่นยำ 
เป็นเวลากว่า 50 ปีที่ Minitab ได้ช่วยองค์การต่าง ๆ เพิ่มรายได้ ควบคุมและลดต้นทุน เพิ่มคุณภาพ เสริมสร้างความพึงพอใจของลูกค้า และเพิ่มประสิทธิภาพ ธุรกิจและองค์นับหมื่นทั่วโลกใช้ Minitab Statistical Software®, Companion by Minitab®, Minitab Workspace®, Salford Predictive Modeler® and Quality Trainer® เป็นเครื่องมือช่วยในการค้นพบและปรับปรุงความบกพร่องในกระบวนการ