การเปรียบเทียบการคัดเลือกตัวแปรอิสระที่มีปัญหาสหสัมพันธ์เชิงเส้นพหุด้วยวิธีการถดถอยแบบริดจ์และ การค้นหาแบบต้องห้าม

Authors

  • นิศาชล งามประเสริฐสิทธิ์
  • จิราวัลย์ จิตรถเวช

Keywords:

การคัดเลือกตัวแปร, การค้นหาแบบต้องห้าม, วิธีการถดถอยแบบขั้นตอน, วิธีการถดถอยแบบริดจ์, สหสัมพันธ์เชิงเส้นพหุ, Variable selection, Tabu search, Stepwise regression, Ridge regression, Multicollinearity

Abstract

บทคัดย่อ        การศึกษามีวัตถุประสงค์เพื่อเปรียบเทียบการคัดเลือกตัวแปรอิสระในการวิเคราะห์การถดถอยเชิงเส้นพหุที่ตัวแบบมีตัวแปรอิสระที่เกี่ยวข้องและไม่เกี่ยวข้องกับตัวแปรตาม โดยตัวแปรอิสระที่เกี่ยวข้อง 1 คู่ มีความสัมพันธ์กันสูง การคัดเลือกตัวแปรอิสระใช้วิธีการถดถอยแบบขั้นตอนที่ประมาณค่าสัมประสิทธิ์การถดถอยด้วยวิธีกำลังสองน้อยที่สุดและวิธีการถดถอยแบบริดจ์ โดยใช้วิธีการประมาณค่า คงตัวริดจ์ 4 วิธีคือ วิธีโฮเอิร์ล เคนนาร์ด และ บาลด์วิน (Hoerl, Kennard and Baldwin) วิธีลอว์เลสและแวง (Lawless and Wang) วิธีนอมูระ (Nomura) และวิธีคาลาฟและชูเกอร์ (Khalaf and Shukur) กับการคัดเลือกตัวแปรอิสระที่ประมาณค่าสัมประสิทธิ์การถดถอย โดยวิธีการค้นหาแบบต้องห้าม (Tabu Search) ที่ใช้ฟังก์ชันเป้าหมายเป็นค่าความคลาดเคลื่อนกำลังสองเฉลี่ย (MSE) และค่าความคลาดเคลื่อนกำลังสองเฉลี่ยปรับด้วยฟังก์ชันการลงโทษ (Penalty Function) เกณฑ์ที่ใช้ในการเปรียบเทียบการคัดเลือกตัวแปรอิสระเข้าสู่ตัวแบบ คือร้อยละของจำนวนครั้งที่แต่ละวิธีสามารถคัดเลือกตัวแปรอิสระเข้าสู่ตัวแบบได้ตามตัวแบบจริง การศึกษาใช้วิธีการจำลอง ข้อมูล กำหนดขนาดตัวอย่างเท่ากับ 20, 60 และ 100 และกระทำซ้ำในแต่ละสถานการณ์ 500 ครั้ง เมื่อค่าสัมประสิทธิ์สหสัมพันธ์ ระหว่างตัวแปรอิสระเป็น 0.95, 0.99 และ 0.999 วิธีการค้นหาแบบต้องห้ามที่มีฟังก์ชันเป้าหมายทั้ง 2 ฟังก์ชัน มีร้อยละของการคัดเลือก ได้ตัวแบบจริงมากกว่าวิธีอื่นๆ และค่อนข้างเสถียรในทุกขนาดตัวอย่าง ยกเว้นกรณีของริดจ์ที่มีการประมาณค่าคงตัวโดยวิธีคาลาฟและชูเกอร์เมื่อค่าสัมประสิทธิ์สหสัมพันธ์ระหว่างตัวแปรอิสระเพิ่มขึ้นเป็น 0.9999 วิธีการค้นหาแบบต้องห้ามที่มีฟังก์ชันเป้าหมายเป็นค่าความคลาดเคลื่อนกำลังสองเฉลี่ยปรับด้วยฟังก์ชันการลงโทษ มีร้อยละของการคัดเลือกได้ตัวแบบจริงสูงและค่อนข้างคงที่ โดยไม่ขึ้นกับขนาดตัวอย่างและค่าสัมประสิทธิ์สหสัมพันธ์ นอกจากนั้น ผลการศึกษาไม่พบตัวแบบ Underspecification และ Misspecification มีเพียงตัวแบบ Overspecification ซึ่งเป็นปัญหาที่มีความรุนแรงในการวิเคราะห์น้อยกว่าตัวแบบในสองกรณีแรก ในขณะที่วิธีการค้นหาแบบต้องห้ามที่มีฟังก์ชันเป้าหมายเป็นค่าความคลาดเคลื่อนกำลังสองเฉลี่ย และวิธีการถดถอยแบบขั้นตอนที่มีการประมาณค่าพารามิเตอร์กำลังสองน้อยที่สุดและแบบริดจ์ มีร้อยละของการคัดเลือกได้ตัวแบบจริงมีค่าต่ำ เมื่อขนาดตัวอย่างเท่ากับ 20 แต่จะเพิ่มขึ้นเมื่อขนาดตัวอย่างเพิ่มขึ้น และมีร้อยละของตัวแบบ Underspecification ลดลงอย่างชัดเจน ABSTRACT         The purpose of this study is to compare variable selection methods for multiple linear regression models that have both relevant and irrelevant variables in full model when one pair of relevant variables has a high correlation coefficient. The variables are selected by the stepwise regression method with the multiple regression coefficients are estimated by the method of Ordinary Least Square (OLS) and Ridge Regression by Hoerl, Kennard and Baldwin, Lawless and Wang, Nomura and Khalaf and Shukur methods. The variables are again selected and the multiple regression coefficients are again estimated by the Tabu Search using two objective functions: mean squared error (MSE) and mean squared error augmented by a penalty function. The criterion of com­parison is the percentage of selecting the true model. The comparisons, using simulation data, are per­formed with sample size 20, 60 and 100 and are repeated 500 times in each case of sample size. When the pairwise of correlation coefficientis 0.95, 0.99 and 0.999, the percentages of selecting the true model by Tabu Search using both objective functions are higher than those by other methods are rather stable for all cases of sample size except in the case of Ridge Regression using Khalaf and Shukar method. When the pairwise of correlation coefficient increases to 0.9999, the percentage of selecting the true model by Tabu Search using objective function of mean squared error augmented by a penalty function is high and quite stable, regardless of the sample size and correlation. Moreover, the Tabu Search using objective function of mean squared error augmented with a penalty function does not select any of the underspecified models and the misspecified models, only select a few overspecified models which its effects are less serious than those of the underspecified models. The percentages of selecting the true model by Tabu Search using objective function of mean squared error and by the stepwise method with OLS estimates and ridge estimates using all four methods are low when the sample size 20. But increase as the sample size increases and the percentages of selecting the underspecified models are clearly decreasing. 

Downloads