ตัวแบบการแปลงค่าข้อมูลที่ให้ความแปรปรวนคงที่โดยประมาณ สำหรับข้อมูลปัวซง

Approximate Variance Stabilizing Transformation Model for Poisson Data

Authors

  • อุไรวรรณ เจริญกีรติกุล
  • ลี่ลี อิงศรีสว่าง

Keywords:

การแปลงข้อมูลเพื่อให้ได้ความแปรปรวนคงที่, ตัวแบบถดถอยปัวซง, วิธีกำลังสองน้อยสุด (OLS), วิธีภาวะน่าจะเป็นสูงสุด (MLE), Variance Stabilizing Transformation, Poisson Regression Model, Ordinary Least Squares (OLS), Maximum Likelihood Estimation (MLE)

Abstract

การวิจัยนี้มีวัตถุประสงค์เพื่อศึกษาตัวแบบการถดถอยสำหรับข้อมูลปัวซง โดยเปรียบเทียบระหว่างการสร้างตัวแบบถดถอยเชิงเส้นด้วยวิธีการแปลงข้อมูลเพื่อให้ได้ความแปรปรวนคงที่ และประมาณค่าพารามิเตอร์ของตัวแบบด้วยวิธีกำลังสองน้อยที่สุด (OLS) กับการสร้างตัวแบบถดถอยปัวซงจากข้อมูลโดยตรง และประมาณค่าพารามิเตอร์ของตัวแบบด้วยวิธีภาวะน่าจะเป็นสูงสุด (MLE) การศึกษานี้ทำการจำลองสถานการณ์ให้ตัวแปรตาม Y มีการแจกแจงแบบปัวซง และมีตัวแปรทำนาย 2 ตัว คือ X1 และ X2 กำหนดขนาดตัวอย่างที่ศึกษาเท่ากับ 10, 30, 50, 70 และ 100 โดย 1) สร้างฟังก์ชันการถดถอยเชิงเส้น E(Y’) = µY’ = ß0+ß1X1+ß2X2 ด้วยการแปลงค่า Y ใน 4 รูปแบบ คือ Y’ =√Y, Y’ = √(Y+3/8), Y’√(Y+1+√Y และ Y’ = 1n(Y+1) ตามลำดับ และ 2) สร้างฟังก์ชันการถดถอยปัวซง E(Y’) = µ = eß0+ß1X1+ß2X2 ทำให้มีสถานการณ์ที่แตกต่างกันทั้งหมด 25 สถานการณ์ ในแต่ละสถานการณ์จะถูกจำลองและประมาณค่าพารา มิเตอร์ของตัวแบบด้วยโปรแกรม SAS® 9.1.3 โดยมีการคำนวณแบบวนซ้ำจำนวน 500 รอบ และพิจารณาความเหมาะสมของตัวแบบถดถอยที่สร้างขึ้นจากสถานการณ์ต่างๆ ด้วยค่าสถิติ Deviance ที่เฉลี่ยจากการวนซ้ำ 500 รอบ (Deviance) ตัวแบบการถดถอยในสถานการณ์จำลองที่ให้ค่า Deviance ต่ำสุด จะเป็นตัวแบบการถดถอยที่เหมาะสมที่สุด สำหรับข้อมูลการแจกแจงปัวซง ผลการศึกษาพบว่าตัวแบบถดถอยเชิงเส้นที่ได้จากวิธีการแปลงข้อมูลเพื่อให้ได้ความแปรปรวนคงที่ (VST) ในรูปแบบ Y’ = √(Y+3/8) ให้ค่า Deviance ต่ำสุดเมื่อเทียบกับตัวแบบถดถอยเชิงเส้นที่ได้จากวิธีการแปลงด้วยรูปแบบอื่น และให้ค่าใกล้เคียงกับค่า Deviance ของตัวแบบถดถอยปัวซง นอกจากนี้ผลการตรวจสอบความเหมาะสมของตัวแบบด้วยวิธีพล็อตค่าตกค้าง พบว่าค่าตกค้างจากตัวแบบถดถอยเชิงเส้นที่ได้จากวิธีการแปลงข้อมูลในรูปแบบ Y’ = √(Y+3/8) มีลักษณะการกระจายสม่ำเสมอรอบๆ เส้น Y’ = 0 ซึ่งเป็นไปตามคุณสมบัติของการประมาณค่าตัวแบบการถดถอยเชิงเส้น และยังพบว่าถ้าตัวอย่างข้อมูลมีขนาดใหญ่มากกว่าหรือเท่ากับ 50 ขึ้นไป ค่าทำนายของ Y ที่ได้จากตัวแบบถดถอยเชิงเส้นที่ได้จากวิธีการแปลงข้อมูลด้วย Y’ = √(Y+3/8) ให้ค่าที่ใกล้เคียงกับค่าทำนายจากตัวแบบถดถอยปัวซง แสดงว่าตัวแบบถดถอยเชิงเส้นที่ได้จากวิธีการแปลงข้อมูลเพื่อให้ได้ความแปรปรวนคงที่ในรูปแบบ Y’ = √(Y+3/8) มีความเหมาะสมที่จะใช้เป็นตัวแบบสำหรับข้อมูลที่มีการแจกแจงแบบปัวซง  The objective of this research was to study a regression model for Poisson data. Two types of regression models, including 1) a linear regression model that was applied for the variance stabilizing transformations and used the method of Ordinary Least Squares (OLS) for parameter estimates, and 2) a Poisson regression model in which its parameter estimates using the method of Maximum Likelihood Estimation (MLE) were considered and compared. The study method used a simulation technique. Data were simulated for the Poisson dependent variable, Y, and for the 2 predictor variables with the sample sizes of 10, 30, 50, 70, and 100 respectively. The simulation study consisted of: 1) building the linear regression Model, E(Y’) = µY’ = ß0+ß1X1+ß2X2 in which Y was transformed in four patterns of Y’ =√Y, Y’ = √(Y+3/8), Y’√(Y+1+√Y and Y’ = 1n(Y+1) respectively, and 2) building the Poisson regression model E(Y’) = µ = eß0+ß1X1+ß2X2. There were total 25 situations, and each situation 500 simulation runs were performed for parameter estimation by using SAS® 9.1.3. Additionally, the averaged value of deviance statistics that were obtained from the 500 simulation runs, denoted as Deviance, was used for assessing the fit. The model with the smallest Deviance would be the most suitable model for Poisson data.   The results of this showed that the variance stabilizing transformation (VST) model in the form of Y’ = √(Y+3/8) had the smallest Deviance among all types of the VST models and its value was still closed to the Deviance obtained from fitting the Poisson regression model. Moreover, the residual plot for model checking showed that the residuals fell within a horizontal band centered around 0 (Y’ = 0) with no systematic patterns. In addition, if the sample size was greater than or equal to 50, the predicted values of Y in the form of Y’ = √(Y+3/8) was still closed to the ones obtained from the Poisson regression model. In conclusion, the approximate variance stabilizing transformation model in the form of  Y’ = √(Y+3/8) was suitable for Poisson data.

References

Anscombe, F.J. (1948). The Transformation of Poisson, Binomial and Negative-Binomial Data. Biometrika 35, 246-254. Available Source: http://en.wikipedia.org/wiki/Anscombe_transform.

Bar-Lev, S.K., and Enis, P. (1988). On the Classical Choice of Variance Stabilizing Transformations and an Application for a Poisson Variate. Biometrika 75, 803-804.

Freeman, M.F., and Tukey, J.W. (1950). Transformations Related to the Angular and the Square Root. The Annual of Mathematical Statistical, 21, 607-611.

Guan Yu. (2009). Variance Stabilizing Transformations of Poisson, Binomial and Negative Binomial Distributions. Statistics and Probability Letters 79, 1621-1629.

Kutner, M.H. , Nachtsheim, C.J., Neter,J., and Li,W. (2005). Applied Linear Statistical Models. Singapore: McGraw-Hill Companies, Inc.

Lin, S.M., Du, P., Huber, W., and Kibbe, W.A. (2008). Model-Based Variance-Stabilizing Transformation for Illumina Microaray Data. Nucleic Acids Research 36(2), e11, Available Source:http://nar.oxfordjournals.org/cgi/reprint/36/2/e11.pdf, Published Online 4 January 2008.

McCullagh, P., and Nelder, J.A. (1996). Generalized Linear Models. (2nd ed). London: Chapman and Hall.

Myers, R.H., and Milton, J.S. (1991). A First Course in the Theory of Linear Statistical Models. Boston: PWS-KENT Pub.Co.

Myers, R.H., Montgomery, D.C., and Vining, G.G. (2002). Generalized Linear Models with Applications in Engineering and the Sciences. New York: John Wiley and Sons, Inc.

Rocke, D., and Durbin, B. (2003). Approximate Variance Stabilizing Transformation for Gene-Expression Microarray Data. Bioinformatics 19, 966-972. Available Source: http://bioinformatics.oxfordjournals.org/cgi/screenpdf/19/8/966.pdf.

Downloads

Published

2024-06-12