การประยุกต์ใช้วิศวกรรมคุณลักษณะและตัวแบบเชิงเส้นนัยทั่วไป สำหรับพยากรณ์จำนวนผู้ติดเชื้อใหม่ไวรัสโคโรนา 2019
An Application of Feature Engineering and Generalized Linear Model for Forecasting the Number of COVID-19 New Cases
Keywords:
ไวรัสโคโรนา 2019 , ตัวแบบเชิงเส้นนัยทั่วไป , วิศวกรรมคุณลักษณะ, Covid-19, generalized linear model, feature engineeringAbstract
งานวิจัยนี้มีวัตถุประสงค์เพื่อสร้างตัวแบบเชิงเส้นนัยทั่วไปเพื่อพยากรณ์จำนวนผู้ติดเชื้อไวรัสโคโรนา 2019 ที่จะเกิดขึ้นใหม่ การดำเนินการวิจัยใช้ข้อมูลสาธารณะ COVID-19 Dataset ของ DEVAKUMAR ปรับปรุงเมื่อวันที่ 30 มกราคม 2563 จากเว็บไซต์ www.kaggle.com ซึ่งข้อมูลดังกล่าวเป็นข้อมูลเกี่ยวกับผู้เชื้อไวรัสโคโรนา 2019 จาก 187 ประเทศประกอบด้วยตัวแปรตอบสนอง 1 ตัวแปร และตัวแปรอธิบาย 12 ตัวแปร ในการดำเนินการวิจัยได้ประยุกต์ใช้วิธีวิศวกรรมคุณลักษณะอัตโนมัติทำให้ลดการใช้ตัวแปรอธิบาย เหลือเพียง 6 ตัวแปร แต่มีคุณลักษณะที่มีนัยสำคัญในการสร้างตัวแบบ 7 คุณลักษณะ ได้แก่ จำนวนคนที่เสียชีวิตใหม่ จำนวนคนที่ติดเชื้อในรอบสัปดาห์ จำนวนคนที่หายจากการติดเชื้อสะสม จำนวนคนที่หายจากการติดเชื้อใหม่ จำนวนคนที่ติดเชื้อสะสม จำนวนคนที่อยู่ระหว่างการรักษา และผลคูณระหว่างจำนวนคนที่หายจากการติดเชื้อใหม่กับจำนวนคนที่อยู่ระหว่างการรักษา จากนั้นนำข้อมูล คุณลักษณะดังกล่าวไปดำเนินการสร้างตัวแบบด้วยวิธีตัวแบบเชิงเส้นนัยทั่วไป โดยตั้งสมมติฐานว่าข้อมูลมีรูปแบบการแจกแจงทางสถิติ 3 รูปแบบ ได้แก่ การแจกแจงปรกติ การแจกแจงทวินามลบ และการแจกแจงปัวซง ขั้นตอนถัดมานำตัวแบบที่ได้ไปปรับปรุงเพื่อเพิ่มประสิทธิภาพโดยการใช้กระบวนการการคัดเลือกตัวแปรแบบลำดับขั้น ผลการศึกษาพบว่าตัวแบบเชิงเส้นนัยทั่วไปที่ใช้การแจกแจงปัวซง เป็นตัวแบบที่มีประสิทธิภาพดีที่สุด โดยตัวแบบใช้ทั้ง 7 คุณลักษณะในการสร้างและมีค่ารากของค่าคลาดเคลื่อนกำลังสองเฉลี่ยเท่ากับ 365.0387 และค่าความคลาดเคลื่อนสัมบูรณ์เฉลี่ยเท่ากับ 803.0267 ขณะที่ตัวแบบเชิงเส้นนัยทั่วไปที่ใช้การแจกแจงปรกติมีประสิทธิ Figure ต่ำกว่าเล็กน้อย โดยมีค่ารากของค่าคลาดเคลื่อนกำลังสองเฉลี่ยเท่ากับ 365.4591 และค่าความคลาดเคลื่อนสัมบูรณ์เฉลี่ย เท่ากับ 803.0286 แต่ใช้เพียง 4 คุณลักษณะเท่านั้นในการสร้างตัวแบบ ซึ่งได้แก่ จำนวนคนที่เสียชีวิตใหม่ จำนวนคนที่ติดเชื้อในรอบสัปดาห์จำนวนคนที่หายจากการติดเชื้อใหม่ และจำนวนคนที่อยู่ระหว่างการรักษา ผลการดำเนินการที่ได้ช่วยให้ได้กระบวนทัศน์ของการประยุกต์ใช้วิธีวิศวกรรมคุณลักษณะมาลดความซับซ้อนในการสร้างตัวแบบเชิงเส้นนัยทั่วไปสำหรับพยากรณ์ The purpose of this research is to construct a generalized linear model (GLM) for forecasting the number of new COVID-19 cases. The data used in this research is the open-source COVID-19 dataset from DEVAKUMAR updated on January 30, 2020, from www.kaggle.com. The dataset contains information of infected COVID-19 patients data collected from 187 countries and is composed of 1 responsive variable and 12 explanatory variables. Through feature engineering, it was found that there were 6 significant explanatory variables only. These variables provided 7 significant features, which were the number of new deaths, number of new cases in a week, number of recovered cases, number of newly recovered cases, number of confirmed cases, number of active cases, and the product of the number of new recovered cases with the number of active cases. The 7 features were used to create the GLM under the assumption that the data might be classified following one of these three statistical distributions, normal distribution, negative binomial distribution, and Poisson distribution. After that, the models were modified for improving their performance by using the stepwise selection technique. The study showed that the GLM by Poisson distribution provided the best performance. By using all 7 features, the model by Poisson distribution has RMSE = 365.0387 and MAE = 803.0267. However, the GLM by normal distribution provided a marginally lower performance, RMSE = 365.4591 and MAE = 803.0286, by using 4 features only. The 4 features used for modeling were the number of new deaths, number of new cases in a week, number of newly recovered cases, and number of active cases. The result of this implementation allows for a paradigm of applying feature engineering methods to simplify the creation of generalized linear models for forecasting.References
Amattayakul, S. (2020). The world after COVID-19 economic and social impact. Strategy and Planning Division Foreign Commerce Group, Office of the Permanent Secretary, Ministry of Commerce. Interview on 2020/7/16 (in Thai)
Benlagha, N. (2020). Modeling the Declared New Cases of COVID-19 Trend Using Advanced Statistical Approaches, Preprint Document. DOI:10.6084/m9.figshare.12052638.
Benti, T. B. (2022). Modeling Mortality from COVID-19 Using Poisson Based Regressions: The Case of Sweden. U.U.D.M. Project Report 2022:9, Department of Mathematics, Uppsala University.
Chirawichitchai, H. (2018). AutoFE: Efficient and Robust Automated Feature Engineering. Master of Engineering in Electrical Engineering and Computer Science at the Massachusetts Institute of Technology,13-15.
Department of Mental Health. (2022). What does endemic disease mean and why is it in the category of coronavirus? News from newspapers related to mental health. (in Thai)
Emerging Infectious Disease Workof Communicable Disease Academic Development Group. (2021). Coronavirus disease 2019 (COVID-19) situation, public health measures and barriers to disease prevention and control among travelers. Department of Disease Control. (in Thai)
javaTpoint. (2021). K-Nearest Neighbor (KNN) Algorithm for Machine Learning.
Kasilingam, D., Prabhakaran, S.P.S., Rajendran, D.K. Rajagopal, V., Kumar, T.S., & Soundararaj, A. (2021). Exploring the growth of COVID-19 cases using exponential modelling across 42 countries and predicting signs of early containment using machine learning. Transboundary and Emerging Diseases. 86. Wiley Online Library.68(3), 1001-1018.
Kelter, D., Ghiassi, K., Patel, S., Connors, C., Bonk, M. P., Gray, E., Zarbiv, S. A., Menon, A., & Juneja, P. (2021). Use of feature engineering to predict COVID-19 mortality. American Thoracic Society International Conference Abstracts. American Journal of Respiratory and Critical Care Medicine 2021, 203, A2630
Leelarutsamee, A. (n.d.). Interesting Facts about COVID-19 Infection from SARS-CoV-2. The Medical Council of Thailand. (in Thai)
Nawaratana N. (2019). Analysis of distributions for insurance claims data. Master Degree Thesisof Suranaree University of Technology, 37–38.
Office of the Royal Thai Embassy. (2018). Dictionary of Statistical Terms, Royal Thai Council edition.2nd ed. (amended). Chulalongkorn University Press. (in Thai)
Patcharawongsakda, A. (2014). Introduction to Data Analysis with Data Mining Techniques. Bangkok: Asia Digital Press Company Limited. (in Thai)
Reis, G. F. N. (2019). Automated Feature Engineering for Classification Problems. American Faculdade De Engenharia Da Universidade Do Porto. 5-11.
Strategy and Organization Development Group. (2022). Government Action Plan for the Fiscal Year 2022. Urban Disease Prevention and Control Institute, Ministry of Public Health. (in Thai)
Vytla1, V., Ramakuri, S.K., Peddi, A., Srinivas, K.K. & Ragav, N.N. (2021). Mathematical Models for Predicting Covid-19. Journal of Physics: Conference Series, 1797(2001)012009, Doi:10.1088/1742-6596/1797/1/012009.
Xie, J. & Farrell, P. (2020). Analysis of COVID-19 Confirmed Cases based on Poisson Loglinear Regression Model. Honours Project. School of Mathematics and Statistics. Carleton University.