การเปรียบเทียบประสิทธิภาพของสถิติทดสอบความเป็นอิสระภายใต้การแจกแจงของข้อมูลและระดับความสัมพันธ์ที่ต่างกัน
Efficiency Comparison of Statistical Tests of Independence under the Differences of Data Distributions and Relationships
Keywords:
ความผิดพลาดแบบที่ 1 , กำลังการทดสอบ , สถิติทดสอบความเป็นอิสระ , ตารางการจรAbstract
การวิจัยครั้งนี้มีวัตถุประสงค์เพื่อเปรียบเทียบประสิทธิภาพของสถิติทดสอบความเป็นอิสระภายใต้การแจกแจงของข้อมูลและระดับความสัมพันธ์ที่ต่างกัน โดยพิจารณาจากการควบคุมค่าความผิดพลาดแบบที่ 1 และกำลังการทดสอบของสถิติทดสอบ 5 วิธี คือ สถิติทดสอบไคกำลังสองของเพียร์สัน สถิติทดสอบของเยตส์ สถิติทดสอบอัตราส่วนล็อกภาวะน่าจะเป็น สถิติทดสอบอัตราส่วนล็อกภาวะน่าจะเป็นที่ปรับปรุง และสถิติทดสอบของเนย์แมน ทำการจำลองข้อมูลด้วยเทคนิคมอนติคาร์โล จำนวน 10,000 ครั้ง ภายใต้เงื่อนไขที่ศึกษา คือ ข้อมูลในตารางการจรขนาด 2x2 ที่มีการแจกแจงเอกรูป เบ้ปานกลาง และ เบ้มาก ระดับความสัมพันธ์น้อย ปานกลาง และมาก ขนาดตัวอย่างเท่ากับ 20, 30, 40, 50, 100, 150, 200 และ 300 ระดับนัยสำคัญเท่ากับ 0.01 และ 0.05 ผลการศึกษาพบว่า ภายใต้การแจกแจงของข้อมูลและระดับความสัมพันธ์ที่ต่างกันในทุกขนาดตัวอย่างและทุกระดับนัยสำคัญ ส่วนใหญ่สถิติทดสอบของเนย์แมนและสถิติทดสอบอัตราส่วนล็อกภาวะน่าจะเป็น มีประสิทธิภาพดีกว่าสถิติทดสอบอัตราส่วนล็อกภาวะน่าจะเป็นที่ปรับปรุง สถิติทดสอบไคกำลังสองของเพียร์สัน และสถิติทดสอบของเยตส์ ตามลำดับ และในทุกการแจกแจงของข้อมูล กำลังการทดสอบของสถิติทดสอบทั้ง 5 วิธี จะแปรผันตามระดับความสัมพันธ์ ขนาดตัวอย่าง และระดับนัยสำคัญ โดยมีกำลังการทดสอบมากขึ้น เมื่อระดับความสัมพันธ์ ขนาดตัวอย่าง และระดับนัยสำคัญเพิ่มขึ้น The purpose of this research is to compare the efficiency of statistical tests of independence under the differences of data distributions and relationships. These tests are considered type I error and power of a test of five statistical tests which are Pearson’s chi-squared test, Yates's test, the log likelihood ratio test, the modified log likelihood ratio test and the Neyman’s test. The simulation is used Monte Carlo technique 10,000 times. Under the condition of 2x2 contingency tables from uniform, moderately skewed and highly skewed distribution with weak, medium and strong relationships. The sample sizes are 20, 30, 40, 50, 100, 150, 200 and 300. The significance levels are 0.01 and 0.05. The results show that with the differences of data distribution and relationships for all sample sizes and significance levels, the Neyman’s test and the log likelihood ratio test are more efficient than the modified log likelihood ratio test, Pearson’s chi-squared test and Yates's test, respectively. For all data distributions, power of a test of five statistical tests vary with relationships, sample sizes and significance levels and are more as relationships, sample sizes and significance levels increase.References
Bradley, J. V. (1978). Robustness. The British Journal of Mathematical and Statistical Psychology, 31(2), 144-152.
Bawornkitiwong, S. & Srisuttiyakorn, S. (2016). Robust of chi-square test. Journal of Education Studies, 44(3), 212-220. (in Thai)
Chaimay, P. (2010). Notice of using chi-square test in health science researches. Thaksin University Journal, 13(1), 55-58. (in Thai)
Cressie, N. & Read, T. (1984). Multinomial goodness of fit tests. Journal of the Royal Statistical Society, Series B (Methodological), 46(3). 440–464.
Khamis, H. (2008). Measures of association: How to choose. Journal of Diagnostic Medical Sonography, 24(3). 155–162.
Neyman, J. (1949). Contribution to the theory of the chi-square test. In Proceedings of the First Berkeley Symposium on Mathematical Statistics and Probability. (pp. 239-273). Berkeley, CA: University of California Press.
Pearson, K. (1900). On the criterion that a given system of deviations from the probable in the case of a correlated system of variables is such that it can be reasonably supposed to have arisen from random sampling. Philosophy Magazine Series, 1900(50), 157–175.
Sulewski, P. & Motyka, R. (2015). Power analysis of independence testing for contingency tables. Scientific Journal of Polish Naval Academy, 56(1), 37-46.
Suwansantisuk, A. (2009). Development of the chi-square correction for contingency tables with more than 20% of small expected frequencies. Academic Journal Uttaradit Rajabhat University, 4(10), 206-223. (in Thai)
Wichiencharoen, N. (2000). Bayesian test of independence for multinomial distribution using independence prior. Master’s Thesis, Faculty of Commerce and Accountancy, Chulalongkorn University. (in Thai)
Yates, F. (1984). Tests of significance for 2x2 contingency tables. Journal of the Royal Statistical Society, 147(3), 426–463.