การวิเคราะห์การถดถอยเชิงเส้นกรณีที่ข้อมูลมีมิติสูงโดยใช้ขั้นตอนวิธีเชิงพันธุกรรม

Authors

  • ปณัช อาภาวุฒิชัย
  • วิชิต หล่อจีระชุณห์กุล
  • จิราวัลย์ จิตรถเวช

Keywords:

การคัดเลือกตัวแปร, ขั้นตอนวิธีเชิงพันธุกรรม, ข้อมูลที่มีมิติสูง, การวิเคราะห์การถดถอยเชิงเส้น

Abstract

          งานวิจัยมีวัตถุประสงค์เพื่อศึกษาวิธีการประมาณค่าพารามิเตอร์และคัดเลือกตัวแปรในการวิเคราะห์การถดถอยเชิงเส้น กรณีที่ข้อมูลมีมิติสูงโดยใช้ขั้นตอนวิธีเชิงพันธุกรรม และนําผลของวิธีที่เสนอไปเปรียบเทียบกับวิธีที่รู้จักกันอย่างแพร่หลาย 3 วิธี ได้แก่วิธีลาสโซ่ วิธีอีลาสติกเน็ต และวิธีการถดถอยแบบขั้นตอน โดยใช้วิธีการจําลองเกณฑ์ที่ใช้ในการพิจารณาเปรียบเทียบวิธีที่ศึกษา คือร้อยละของการคัดเลือกตัวแปรอิสระได้ถูกต้อง ร้อยละของการคัดเลือกตัวแปรอิสระมากเกินไป ร้อยละของการคัดเลือกตัวแปรอิสระน้อยเกินไป และร้อยละของการคัดเลือกตัวแปรอิสระไม่ถูกต้อง รวมทั้งค่าความคลาดเคลื่อนกําลังสองเฉลี่ยของสมการถดถอยและความถูกต้องของค่าประมาณพารามิเตอร์ของตัวแบบ ผลการศึกษาสรุปได้ว่าขั้นตอนวิธีเชิงพันธุกรรมสามารถประมาณค่าพารามิเตอร์และคัดเลือกตัวแปรอิสระได้ดีที่สุดเมื่อเทียบกับ 3 วิธี ดังกล่าวเกือบทุกกรณี           The research objective is to study the effectiveness of parameter estimation and variable selection by using genetic algorithm in the high-dimensional linear regression analysis. The results of the proposed method from the simulation are compared with the other three well-known methods: lasso, elastic net, and stepwise regression. The comparison criteria are the percentage of the number of correct fitting models, the percentage of the number of over-fitting models, the percentage of the number of under-fitting models, the percentage of the number of incorrect fitting models including mean squared error and the accuracy of the parameter estimates. It can be concluded that the direct selection by genetic algorithm yields the best results when compared with the other three methods in nearly all cases.

Downloads