5 ข้อที่ต้องตรวจสอบก่อนวิเคราะห์ Regression มีอะไรบ้าง เชิญติดตาม
เชื่อว่าหลายท่านคงรู้จัก Regression กันอยู่แล้ว ทวนกันคร่าวๆ คือ Regression คือการวิเคราะห์หาปัจจัย หาอิทธิพลที่ส่งผล หรือการทำการพยากรณ์ โดยมีการระบุตัวแปรต้น (อิสระ) และตัวแปรตาม หรือเรียกกันเป็นแบบไทยๆ ว่า "การวิเคราะห์ถดถอย" นอกจากนี่้ กลุ่มการวิเคราะห์ที่เป็นการพยากรณ์ทั้งหลายก็ใช้หลักการของ regression ทั้งนั้น
ตัว regression เองก็มีหลายแบบ หลายประเภท แต่ที่เป็นที่รู้จัก แพร่หลาย และนิยมมาใช้วิเคราะห์กันจะมีอยู่ 2 ตัว คือ Linear Regression กับ Logistic Regression
Linear Regression อธิายกันคร่าวๆ ง่ายๆ ก็คือ การพยากรณ์ที่ตัวแปรต้นและตัวแปรตามมีลักษณะเชิงเส้น ซึ่งก็คือตัวแปรตามจะเป็นข้อมูลเชิงปริมาณ (Interval, Ratio) เช่น ค่าเฉลี่ย
ส่วน Logistic Regression ก็เปลี่ยนตัวแปรตามจากข้อมูลเชิงปริมาณเป็นข้อมูลเชิงคุณภาพ (Nominal, Ordinal) แต่มีข้อแม้ว่าตัวแปรตามนี้จะต้องมี 2 ช้อยเท่านั้น ถ้าหากมี 3 ช้อยขึ้นจะเรียกใช้ Multinomial แทน
ทีนี้ เจ้าต้ว Linear Regression เนี่ย จะถูกพูดถึง ถูกสอน และถูกใช้กันจำนวนมาก เลยอยากมาทบทวนข้อตกลงเบื้องต้นกันสักหน่อยว่ามีอะไรบ้าง
ข้อที่ 1 : ค่าเฉลี่ยของความคลาดเคลื่อน = 0
>สำหรับข้อนี้วิธีการที่ง่ายที่สุดในการตรวจสอบคือดำเนินการวิเคราะห์ Regression ปกติ แล้วรอดูผลจาก output ในหัวข้อ Residual Statistic ตรงหัวข้อ Residual จะเห็นว่าค่า Mean = 0
ข้อที่ 2 : ค่าความคลาดเคลื่อนต้องมีการแจกแจงแบบปกติ
>>ข้อนี้ พิเศษขึ้นมาสักหน่อย เนื่องจากต้อง save ค่า unstandardized แล้วไปทดสอบด้วย Explore (Normality test) อีกที วิธีการ save ค่า ก็ไม่ยาก เข้าไปวิเคราะห์ regression ปกติ แล้วเลือก option save จากนั้นเลือก unstandardized แล้วจึงนำค่าที่ได้ไปทดสอบต่อไป จากนั้นก็พิจารณาผลจาก normality test อีกที
ข้อที่ 3 : ความคลาดเคลื่อนเป็นอิสระจากกัน (Durbin Watson)
>>>ข้อนี้ ทดสอบจากสถิติย่อย Durbin-Watson ซึ่งอยู่ในขั้นตอนการวิเคราะห์ปกติของ regression โดยไปเลือกเพิ่มเติมใน option Statistic - หัวข้อย่อย Residual ก็จะเจอให้ติ๊กเลือก Durbin-Watson การตัดสินใจของ Durbin-Watson คือ ควรมีค่าอยู่ระหว่าง 1.5-2.5 จะถือความคลาดเคลื่อนเป็นอิสระจากกัน
ข้อที่ 4 : ค่าความแปรปรวนของความคลาดเคลื่อนต้องคงที่
>>>>ข้อนี้เช่นเดียวกันจะอยู่ในขั้นตอนการวิเคราะห์ปกติของ regression ใน option Plot แล้วทำการเลือก ZResidual กับ ZPredict เข้าไปในแกน X Y เพื่อทำการ plot scatter graph แล้วตรวจสอบการกระจายของข้อมูล
ซึ่งผลจากตรงนี้ จะได้ scatter plot graph แล้วดูการกระจายว่ามีรูปแบบหรือไม่ ซึ่งจากภาพจะเห็นว่า ไม่มีรูปแบบใดๆ ไม่สามารถลากเส้นในลักษณะใดๆ เพื่อให้ fit กับข้อมูลได้ จึงเรียกว่าความแปรปรวนคงที่
ข้อที่ 5 : Multicollinearity หรือ การตรวจสอบความสัมพันธ์กันเองภายในตัวแปรต้น (อิสระ)
>>>>>สำหรับข้อนี้ ต้องอธิบายเพิ่มเติมว่า จะเกิดขึ้นก็ต่อเมื่อมีตัวแปรต้น (อิสระ) มากกว่า 1 ขึ้นไป เนื่องจาก เมื่อมีตัวแปรอิสระหลายตัว ต้องทำการตรวจสอบว่า ตัวแปรอิสระเหล่านี้มีความสัมพันธ์กันเองภายในหรือไม่ เพราะถ้ามีผลของ regression จะไม่น่าเชื่อถือ แต่ถ้าไม่มีจะแสดงว่าการเกิดขี้นของตัวแปรตามนั้น เกิดขึ้นจากตัวแปรอิสระตัวนั้นจริงๆ
การวิเคราะห์ก็อยู่ในขั้นตอนของ regression ปกติเช่นกัน เพียงแต่เลือก option Statistic แล้วเลือก Collinearity diagnostic เพิ่ม สำหรับผลการพิจารณานั้นก็ให้ดูว่าค่า VIF ควรน้อยกว่า 10 และค่า Torelance น้อยมากกว่า 0 (VIF < 10, Torelance > 0)
เป็นอย่างไรบ้างครับ กับ "5 ข้อที่ต้องตรวจสอบก่อนวิเคราะห์ Regression" อาจจะดูยากสำหรับผู้ที่ไม่คุันเคยนะครับ แต่ถ้าได้ลองฝึก ลองทำบ่อยๆ รับรองว่าไม่ยากเลย
นอกจากนี้ ในตัวการวิเคราะห์ regression ยังมี option เกี่ยวกับ outlier ให้เลือกตรวจสอบกันได้ด้วย เช่น Mahalanobis, Cook's distance, DFbeta, DFfit เป็นต้น
มาพูดคุยกันได้ตลอดนะครับในทุกช่องทาง ทั้ง Facebook, Line, และ Youtube channel ที่กำลังจะมีเนื้อหาเพิ่มเติมในอนาคต
💝ร่วมติดตามได้ทุกช่องทาง
💝follow or subscribe in any channel
.
📳tel.086-555-5949
🆔️line: @SmartResearchThai
💌email: contact@SmartResearchThai.com
Blockdit: SmartResearchThai
Youtube: SmartResearchThai
Facebook: SmartResearchThai
Comments