ประสิทธิภาพของตัวสถิติที่ใช้ในการตรวจสอบค่าผิดปกติในการถดถอยเชิงเส้นพหุคูณ

Authors

  • วนิดา พงษ์ศักดิ์ชาติ
  • แพรวนภา เหมือนสมัย

Keywords:

ค่าผิดปกติ, การวิเคราะห์การถดถอย, สถิติ

Abstract

          งานวิจัยนี้มีวัตถุประสงค์เพื่อเปรียบเทียบประสิทธิภาพของตัวสถิติที่ใช้ในการตรวจสอบค่าผิดปกติในการ ถดถอยเชิงเส้นพหุคูณจำนวน 5 วิธีได้แก่ leverage value ( h ii ), studentized deleted residual ( t i ), Cook’s distance ( D i ),  D FFITS i และ covariance ratio ( C V R I ) ลักษณะของค่าผิดปกติในชุดข้อมูลที่ศึกษามี 3 ลักษณะ คือ ค่าผิดปกติในตัวแปรอิสระ ในตัวแปรตาม และทั้งในตัวแปรอิสระและตัวแปรตาม ขนาดตัวอย่างคือ 30, 50 และ 100 จำนวนค่าผิดปกติในแต่ละชุดข้อมูลเท่ากับ 1 ค่าสังเกต และร้อยละ 10, 20 และ 30 ของขนาดตัวอย่าง และเกณฑ์ที่ใช้ในการพิจารณาประสิทธิภาพของตัวสถิติทั้งหา 5 วิธี คือสัดส่วนที่ตัวสถิติเหล่านี้ตรวจสอบค่าผิดปกติได้ถูกต้องทั้งหมดทุกค่าที่มีในชุดข้อมูลจากการทำซ้ำ 10,000 ครั้ง ผลการศึกษาพบว่าในทุกขนาดตัวอย่างเมื่อมีค่าผิดปกติ 1 ค่าสังเกตในชุดข้อมูล h ii และ C V R i มีประสิทธิภาพในการตรวจสอบค่าผิดปกติดีที่สุดเมื่อค่าผิดปกติอยู่ในตัวแปรอิสระ ในขณะที่เมื่อค่าผิดปกติอยู่ในตัวแปรตาม  t i, D i , D FFITS i และ C V R i มีประสิทธิภาพในการตรวจสอบค่าผิดปกติมากที่สุด และเมื่อค่าผิดปกติอยู่ทั้งในตัวแปรอิสระและตัวแปรตาม h ii , D i และ D FFITS i มีประสิทธิภาพในการตรวจสอบค่าผิดปกติมากที่สุด อย่างไรก็ตาม ตัวสถิติเหล่านี้จะมีประสิทธิภาพในการตรวจสอบค่าผิดปกติลดลงเมื่อจำนวนค่าผิดปกติเพิ่มขึ้น           The objective of this research was to compare the performance of 5 outlier detecting statistics in the multiple linear regression which are leverage value ( h ii ), studentized deleted residual ( t i ), Cook’s distance ( D i ), D FFITS i and covariance ratio ( C V R i ). There were three types of outliers: outliers in independent variables, in the dependent variable and in both independent and dependent variables. Sample sizes were 30, 50 and 100 and number of outliers in each dataset were 1 observation and 10, 20 and 30 percent of the sample size. The criterion used for considering the performance of these statistics was proportion of correctly detect all of outliers in the dataset from 10,000 replications. The results are shown as follows: for all sample sizes, in single-outlier case, h ii and C V R i had the highest performance when an outlier was in the independent variables, whereas t i, D i, D FFITS i and C V R i had the highest performance when an outlier was in the dependent variable, and when an outlier was in both the independent variables and the dependent variable, h i, D i and D FFITS i had the best performance. However, the performance of these statistics decreased as the number of outliers in the dataset increased.

Downloads