"outlier คืออีกเรื่องที่น่าปวดหัวก่อนจะวิเคราะห์สถิติ แล้วมีแนวทางอะไรบ้างนะ ที่พอจะช่วยจัดการได้ มาดูกัน"
พยายามศึกษาเกี่ยวกับ outlier (ค่าสุดโต่ง หรือ ค่าผิดปกติ) มาตลอด จนคิดว่าถึงเวลาล่ะที่ต้องเอามาเขียนเล่าสู่กันฟังซะหน่อย แต่สำหรับในบทความนี้ จะขอเขียนถึงการทดสอบ outlier จำนวน 4 ตัวที่เป็นที่นิยมกันครับ 4 ตัวที่ว่านี้ประกอบด้วย 1) Leverage 2) Cook's distance 3) Mahalanobis และ 4) DFFits ในบทความนี้จะนำเสนอแบบที่เข้าใจง่ายที่สุด โดยไม่นำเสนอสูตรการคำนวณ แต่จะมีการนำเสนอสูตรในการพิจารณาเกณฑ์ตัดสินว่าข้อมูลใดเป็น outlier หรือไม่ เนื่องจากรายละเอียดของสูตรสามารถค้นหาเพิ่มเติมในบทความวิชาการต่างๆ ได้เลย
1) Leverage (h)
เป็นสถิติวัด outlier ในกลุ่ม distance คือดูเรื่องระยะห่างของข้อมูล
โดยที่ตัว leverage นี้ พิจารณาจากเกณฑ์
h > 2(k+1)/n
โดยที่ k คือจำนวนตัวแปรพยากรณ์ (predictor) และ n คือจำนวนเคส
การพิจารณาคือถ้าค่า leverage (h) นี้ มีค่ามากกว่าที่คำนวณจากสูตรการพิจารณาก็จะนับว่าเคสนั้นเป็นเคสที่เป็น outlier
ref: Rousseeuw and Leroy. 2003, p220 อ้างถึงใน [1]
2) Cook's distance (D)
เป็นสถิติวัด outlier ในกลุ่ม distance คือดูเรื่องระยะห่างของข้อมูล
โดยที่ตัว Cook's นี้ พิจารณาจากเกณฑ์
D > 4/n
โดยที่ n คือจำนวนเคส
การพิจารณาคือถ้าค่า Cook's (D) นี้ มีค่ามากกว่าที่คำนวณจากสูตรการพิจารณาก็จะนับว่าเคสนั้นเป็นเคสที่เป็น outlier
ref: Rousseeuw and Leroy. 2003, p220 อ้างถึงใน [1]
3) Mahalanobis (MD)
เป็นสถิติวัด outlier ในกลุ่ม distance คือดูเรื่องระยะห่างของข้อมูล
แต่ที่พิเศษกว่าตัวอื่นคือ ตัว mahalanobis นี้ มีหลายแนวทางในการพิจารณา เช่น นำตัวแปร ID ใส่ในช่อง dependent แล้วนำทุกตัวแปรที่สนใจ ใส่ใน independent
แต่สำหรับแนวทางที่จะนำเสนอในบทความนี้ คือ นำค่า MD ไปยกกำลังสอง เขียนเป็น D2(square)(D กำลังสอง) แล้วเทียบเคียงกับค่า Chi-square แล้วจากนั้นทำการ plot graph หรือพิจารณาเทียบเป็นค่า p-value
โดยที่ตัว Mahalanobis นี้ พิจารณาจากเกณฑ์
p < 0.001
โดยที่ หลังจากออกค่า Mahalanobis แล้ว นำค่าที่ได้ไปคำนวณค่า p-value จากตาราง chi-square distrubiton แล้วเทียบค่า p-value
โดยพิจารณาว่า ถ้ามีค่า p น้อยกว่า 0.001 ก็จะนับว่าเคสนั้นเป็น outlier
ref: [2] [3]
แนะนำลิงก์อ้างอิงเพิ่มเติม https://en.wikipedia.org/wiki/Prasanta_Chandra_Mahalanobis
4) DFFits
เป็นสถิติวัด outlier ในกลุ่ม influence คือดูตามผลของการพยากรณ์ ว่า หากผลการพยากรณ์เป็นเช่นนี้ แล้วมีเคสใดที่สร้างผลค่าผิดปกติบ้าง
โดยที่ตัว DFFits นี้ พิจารณาจากเกณฑ์
DFFits > (square root (k+1)/n)
ต้องขอเขียนเป็นข้อความ square root นะครับ เนื่องจากใน web editor นี้ไม่มีการแทรกสมการ
โดยที่ k คือจำนวนตัวแปรพยากรณ์ (predictor) และ n คือจำนวนเคส
การพิจารณาคือถ้าค่า DFFits นี้ มีค่ามากกว่าที่คำนวณจากสูตรการพิจารณาก็จะนับว่าเคสนั้นเป็นเคสที่เป็น outlier
ref: Rousseeuw and Leroy. 2003, p220 อ้างถึงใน [1]
ต่อไปจะแนะนำคำสั่งใน spss แบบรวดเร็วให้นะครับ
ขั้นที่ 1 รันคำสั่ง regression ใน spss ปกติ
ขั้นที่ 2 ใน option เลือก save แล้วเลือกออกค่า Mahalanobis, Cook's, Leverage, DfFits
ขั้นที่ 3 สำหรับตัวเลือก Cook's, Leverage, DfFits สามารถพิจารณาตามเกณฑ์ได้เลย ส่วนค่า Mahalanobis ให้ทำการ compute สร้างตัวแปรใหม่ อาจจะตั้งชื่อว่า "p" แล้วในช่อง Expression ให้ใส่สูตร 1-CDF.CHISQ(Mah_1,2) โดยที่ mah_1 คือชื่อตัวแปร mahalanobis ที่ได้จากการออกค่าในคำสั่งย่อย save แล้วเลข 2 มาจากจำนวนตัวแปรพยากรณ์ ซึ่งจากในตัวอย่างที่แนะนำนี้คือมีตัวแปรพยากรณ์ (อิสระ) 2 ตัว
ขั้นที่ 4 เมื่อได้ค่า p ที่ได้จากการคำนวณ mah แล้ว ให้เลือกแสดงทศนิยม 3-4 จุด แล้วเลือกจากน้อยไปมาก เมื่อดูว่าเคสไหนที่มีค่า p น้อยกว่า 0.001 หรือไม่ ถ้ามีก็พิจารณาได้ว่าเคสนั้นเป็น outlier
จากรูปนำเสนอตัวอย่างผลของ Mahalanobis ซึ่งพบว่า ค่า p ที่น้อยกว่า 0.001 ไม่มี แสดงว่าข้อมูลชุดนี้ไม่มีค่า outlier สามารถทำการวิเคราะห์ต่อได้
ref:
[1] วนิดา พงษ์ศักดิ์และแพรวนภา เหมือนสมัย. 2017. ประสิทธิภาพของตัวสถิติที่ใช้ในการตรวจสอบค่าผิดปกติในการถดถอยเส้นพหุคูณ. วารสารวิทยาศาสตร์บูรพา ปีที่ 22 การประชุมวิชาการระดับชาติ "วิทยาศาสตร์วิจัย ครั้งที่ 9"
[2] Hamid Ghorbani. 2019. Mahalanobis Distance and Its Application for Detecting Multivariate Outliers. Ser. Math. Inform. Vol.34 No.3 p.583-595.
[3] Identifying Multivariate Outliers in SPSS. Retrieved from https://www.statisticssolutions.com/identifying-multivariate-outliers-in-spss/
มาพูดคุยกันได้ตลอดนะครับในทุกช่องทาง ทั้ง Facebook, Line, และ Youtube channel ที่กำลังจะมีเนื้อหาเพิ่มเติมในอนาคต
💝ร่วมติดตามได้ทุกช่องทาง
💝follow or subscribe in any channel
.
📳tel.086-555-5949
🆔️line: @SmartResearchThai
💌email: contact@SmartResearchThai.com
Blockdit: SmartResearchThai
Youtube: SmartResearchThai
Facebook: SmartResearchThai
#Regression #Linear #SPSS #Outlier #MultivariateNormality
#StatisticAssistant #SmartResearchThai
Commentaires