การประมาณค่าสูญหายด้วยวิธีการถดถอยแบบเบย์-บูตสแตรป

Estimating Missing Data with Bayes Bootstrap Regression Imputation

Authors

  • ธรรมรัตน์ กลีบเมฆ
  • นพคุณ ทองมวล

Keywords:

ข้อมูลสูญหาย , วิธีการถดถอยแบบเบย์-บูตสแตรป , วิธีการถดถอย , วิธีการถดถอยด้วยระยะทางต่ำที่สุด

Abstract

งานวิจัยนี้มีวัตถุประสงค์เพื่อประมาณค่าข้อมูลสูญหายเมื่อตัวแปรตาม Y มีความสัมพันธ์กับตัวแปรอิสระ X โดยที่ตัวแปร X และ Y มีการแจกแจงปรกติ โดยนำเสนอวิธีประมาณค่าข้อมูลสูญหาย คือ วิธีการถดถอยแบบเบย์-บูตสแตรป เปรียบเทียบกับวิธีประมาณค่าสูญหายด้วยวิธีถดถอยและวิธีการถดถอยด้วยระยะ ทางต่ำที่สุด โดยใช้เกณฑ์ค่าคลาดเคลื่อนสัมบูรณ์เฉลี่ยเพื่อวัดความแม่นยำ การเปรียบเทียบการประมาณค่าข้อมูลสูญหายใช้เทคนิคการจำลองแบบมอนติคาร์โล ผลการศึกษาพบว่า วิธีการถดถอยแบบเบย์-บูตสแตรปและวิธีการถดถอยมีความแม่นยำมากกว่าวิธีการถดถอยด้วยระยะทางต่ำที่สุดในทุกกรณี แต่มีบางกรณีที่ค่าคลาดเคลื่อนสัมบูรณ์เฉลี่ยของวิธีการถดถอยแบบเบย์-บูตสแตรปมีค่าต่ำสุด ดังนั้นผู้วิจัยจึงแนะนำวิธีการถดถอยแบบเบย์-บูตสแตรปสำหรับการประมาณค่าข้อมูลสูญหายเมื่อทราบค่าสัมประสิทธิ์สหสัมพันธ์ระหว่างตัวแปรตาม Y และตัวแปรอิสระ X และตัวแปรทั้งสองมีการแจกแจงปรกติ  This research is about estimating missing data when dependent variable Y is correlated with independent variable X, and X and Y are distributed as normal. The proposed method for estimating missing data is Bayes-Bootstrap regression imputation method (BRI) that is compared with regression imputation method (RI) and distance regression imputation method (DRI). The measurement criteria is mean absolute error (MAE). Comparing of estimating missing data used the Monte Carlo simulation technique. The results of study indicate that BRI and RI are more accuracy than DRI for all cases, but BRI presents the lowest mean absolute error in some case. Therefore, researchers introduce the BRI method for estimating missing data when the correlation coefficient between dependent variable Y and independent variable X is known and both variable distributions are normal distributions.

References

Brick, J.M., and Kalton, G. (1996). Handling missing data in survey research. Statistical Methods in Medical Research, 5(3), 215-238.

Chaimongkol, W. (2005). Three composite imputation methods for item nonresponse estimation in sample surveys (Doctoral dissertation) Graduate School of Applied Statistics, National Institute of Development Administration, Bangkok.

Jitthavech, J. (2015). Regression Analysis (1st ed.). Bangkok, Thailand: Academic Promotion and Development Program, National Institute of Development Administration. (in Thai)

Lin, J. Q., Wu, H. C., Chan, S. C. (2017). A new regularized recursive dynamic factor analysis with variable forgetting factor for wireless sensor networks with missing data. IEEE International Symposium on Circuits and Systems, 1-4.

Merlise, A. C., Herbert K. H. L. (2000). Bagging and the Bayesian Bootstrap. Retrieved Jan, 2019, form https://www.researchgate.net/publication/2469163.

Peng, C.Y.J., Harwell, M., Liou, S.M., Ehman. LH. (2006) Advances in missing data methods and implications for educational research. Real data analysis, 31–78.

Pimchanok, C., Watchareeporn, C. (2017). A comparison of the estimation methods for missing data in sample survey. The Journal of Applied Science, 16(1), 60-73.

Rubin, D. (1981). The Bayesian bootstrap, Annals of Statistics, 9, 130-134.

Troyanskaya, O., Cantor, M., Sherlock, G. (2001). Missing value estimation methods for DNA microarrays. Bioinformatics, 17(6), 520–525, 2001.

Downloads

Published

2022-11-30