การเปรียบเทียบประสิทธิภาพการตรวจสอบการทำหน้าที่ต่างกันของข้อสอบที่มีรูปแบบการตรวจให้คะแนนแบบหลายค่า ด้วยวิธี IRT LR วิธี Poly-SIBTEST และวิธี Multiple-groups CFA

วาสนา กลมอ่อน; ไพรัตน์ วงษ์นาม; สุรีพร อนุศาสนนันท์

Authors

วาสนา กลมอ่อน
ไพรัตน์ วงษ์นาม
สุรีพร อนุศาสนนันท์

Keywords:

ทฤษฎีการตอบสนองข้อสอบ., การวัดผลทางการศึกษา, ข้อสอบ

Abstract

การวิจัยนี้มีวัตถุประสงค์เพื่อ 1) ตรวจสอบประสิทธิภาพการตรวจสอบการทำหน้าที่ต่างกันของ ข้อสอบที่มีรูปแบบการตรวจให้คะแนนแบบหลายค่าในโมเดลการตอบสนองข้อสอบแบบมิติเดียว ด้วยวิธี IRT LR วิธี Poly-SIBTEST และวิธี Multiple-Groups CFA ภายใต้เงื่อนไขปัจจัยที่แตกต่าง 3 ปัจจัย คือ ขนาดการ ทำหน้าที่ต่างกันของข้อสอบ 2 รูปแบบ ความยาวของแบบสอบ 2 รูปแบบ และขนาดของกลุ่มตัวอย่าง 3 ขนาด และ 2) เปรียบเทียบอัตราความคลาดเคลื่อนประเภทที่ 1 และอำนาจการทดสอบของการตรวจสอบการทำหน้าที่ต่างกันของข้อสอบที่มีรูปแบบการตรวจให้คะแนนแบบหลายค่า ด้วยวิธีการตรวจสอบการทำหน้าที่ ต่างกันของข้อสอบสามวิธี ภายใต้เงื่อนไขปัจจัยที่แตกต่าง 3 ปัจจัย โดยการจำลองข้อมูลภายใต้โมเดล Graded-Response และข้อสอบทุกข้อมีรายการคำตอบ 5 ตัวเลือก ให้คะแนนเป็น 0, 1, 2, 3 และ 4 คะแนน รวมจำนวน 12 เงื่อนไข (2x2x3) และในแต่ละเงื่อนไขจำลองข้อมูลวนซ้ำ 100 รอบ ผลการวิจัยสรุปได้ดังนี้ 1. การตรวจสอบการทำหน้าที่ต่างกันของข้อสอบที่มีรูปแบบการตรวจให้คะแนนแบบหลายค่า ภายใต้เงื่อนไขปัจจัยหลักที่แตกต่าง 3 ปัจจัย ด้วยวิธี IRT LR มีอัตราความคลาดเคลื่อนประเภทที่ 1 ต่ำกว่าเกณฑ์ที่ กำหนด และอัตราอำนาจการทดสอบสูงกว่าเกณฑ์ที่กำหนดภายใต้เงื่อนไขปัจจัยขนาดการทำหน้าที่ต่างกันของข้อสอบที่มีขนาดกลาง สำหรับวิธี Poly-SIBTEST มีอัตราความคลาดเคลื่อนประเภทที่ 1 และอัตราอำนาจการ ทดสอบ ไม่อยู่ในเกณฑ์ที่กำหนดเกือบทุกเงื่อนไขปัจจัย และวิธี Multiple-groups CFA มีอัตราความคลาดเคลื่อนประเภทที่ 1 สูงกว่าเกณฑ์ที่กำหนด และอัตราอำนาจการทดสอบ สูงกว่าเกณฑ์ที่กำหนดภายใต้ เงื่อนไขปัจจัยขนาดการทำหน้าที่ต่างกันของข้อสอบที่มีขนาดกลาง 2. ผลการเปรียบเทียบอัตราความคลาดเคลื่อนประเภทที่ 1 และอำนาจการทดสอบ การทำหน้าที่ ต่างกันของข้อสอบ ด้วยวิธีการตรวจสอบการทำหน้าที่ต่างกันสามวิธี พบว่า ความคลาดเคลื่อนประเภทที่ 1 และอำนาจการทดสอบของทั้งสามวิธีโดยรวม แตกต่างกันอย่างมีนัยสำคัญทางสถิติที่ระดับ .001 นอกจากนี้ ผลของวิธีการตรวจสอบยังขึ้นอยู่กับปัจจัยขนาดการทำหน้าที่ต่างกันของข้อสอบ ความยาวของแบบสอบ และขนาดของกลุ่มตัวอย่าง The purpose of this research were: (1) to detecting of the efficiency of differential item functioning for polytomous scored items by using IRT LR, poly-SIBTEST and multiple-groups CFA method, and (2) to compare the Type I error rate and the power rate of investigated differential item functioning under a variety of three factors differences 3 factors: two levels forms of DIF magnitudes (small, medium), two levels forms of length test (9 items, 15 items), and three levels forms of sample size (200, 500, 1,000). These data were simulated under the unidimensional Graded-Response Model, and all items were in five response categories scoring as 0, 1, 2, 3 and 4. A total of 12 (2x2x3) conditions were studied. The data were replicated 100 times for each condition. The research results were as follows: 1. The performance in differential item functioning (DIF) for polytomous scored items detecting under a variety of three factors differences 3 factors. Type I Error rate on IRT LR procedure was less than nominal limit and power rate was higher than nominal limit under medium magnitude of DIF. For Poly-SIBTEST procedure, Type I Error rate and Power rate were not nominal limits on almost conditions. And Type I Error rate on Multiple-groups CFA procedure was higher than nominal limit on overall conditions and power rate was higher than nominal limit under medium magnitude of DIF. 2. Results of the comparison of Type I error rate and Power rate by using DIF procedure on three methods found that Type I Error and Power on overall methods was statistically significant (α = 0.001). Moreover, result of methods depended on Magnitude of DIF, test length, and sample size.

Authors

Keywords:

Abstract

Downloads

Issue

Section

Developed By

Information