Outlier ตัวนึงที่สำคัญ ไว้ทดสอบการแจกแจงเป็นโค้งปกติแบบหลายตัวแปร ก็คือ Mahalanobis Distance
วันนี้เราจะมีพูดถึงตัวนี้กัน
...
Mahalanobis Distance
เป็นการทดสอบระยะห่างของข้อมูล หากมีระยะห่างมากก็จะมีแนวโน้มเป็นตัวแปร Outlier
มีสูตรดังนี้
จากสูตรข้างต้น หากเรานำไปปรับใช้กับโปรแกรม SPSS สิ่งที่เราจะต้องทำก็คือ รันผลจาก Regression เพื่อให้ได้ค่า D2 มาก่อน (ขอเรียกค่านี้ว่าค่า maha) จากนั้น ต้องไปทำการคำนวณหา p-value ของ ค่า maha นี้ อีกที แล้วจึงจะพิจารณาได้ว่า เคสนั้นๆ มีปัญหาหรือไม่ โดยใช้คำสั่ง compute ใน spss และใช้สูตรในคำสั่งนั้น คือ 1-CDF.CHISQ(maha,df)
ค่าในวงเล็บ
maha คือ ตัวแปรที่เรารันออกมาจาก regression ดังที่กล่าวข้างต้น
df คือ จำนวนตัวแปรอิสระที่เราใช้ในโมเดลของเรา
ลองดูวิธีการคลิกในโปรแกรมกัน
(1) การคลิกจากคำสั่ง regression เพื่อออกค่า mahalanobis distance
จากภาพ จะเห็นว่าเมื่อทำการส่งตัวแปรต่างๆ ใน regression แล้ว ให้คลิกปุ่ม SAVE จากนั้น เลือก mahalanobis distance ในหัวข้อ distances จากนั้นจะได้ผลดังนี้
ตัวแปร Mah_1 คือสิ่งที่ได้จากการกด SAVE แล้วเลือก Mahalanobis ใน SPSS เป็นค่า maha
แต่ยังไม่หมด เราต้องไปคำนวณเพื่อหาค่า p-value ของ maha ตัวนี้ด้วย ดังนี้
เราจะทำการคำนวณหา p-value ของ maha ด้วยคำสั่ง transform -> compute
ในช่อง ชื่อตัวแปรใหม่ ให้ตั้งว่า pmaha เพื่อสื่อว่านี่คือ p-value ของ maha
ในช่อง expression ให้พิมพ์ 1-CDF.CHISQ(Mah_1,2) โดยที่ Mah_1 คือตัวแปร maha ที่รันออกมา และ df=2 เพราะมีตัวแปรอิสระ 2 ตัว
จากนั้น ผลลัพธ์ที่ได้จะเป็นดังนี้
จะได้ตัวแปร pmaha ออกมา จากนั้นไปกำหนดให้มีทศนิยม 3 หรือ 4 ตำแหน่ง
และทำการเรียงจากน้อยไปมาก
จากนั้น พิจารณาค่า pmaha ว่ามีเคสใดที่มีค่าน้อยกว่า 0.001 หรือไม่ ถ้าไม่มีแสดงว่า ข้อมูลนี้ ไม่มีปัญหา mahalanobis distance
ลองดูตัวอย่างวิธีการคลิกกัน
ต้องการเรียนสถิติ อยากปรึกษาสถิติทั้งเรื่อง Factor Analysis, CFA, SEM หรือเรื่องอื่นๆ สามารถติดต่อสอบถามเข้ามาได้เลย
'นึกถึงสถิติ นึกถึงเรา Smart Research Thai'
ร่วมติดตามได้ทุกช่องทาง
follow or subscribe in any channel
.
tel.086-555-5949
line: @SmartResearchThai
Blockdit: SmartResearchThai
Youtube: SmartResearchThai
Facebook: SmartResearchThai
Comments