多维计算机化自适应测验:模型、技术和方法*
题库,选题,1引言,2MCAT的模型基础,1二级评分项目的MIRM,1.1logisticMIRM,1.2正态肩形MIRM,2多级评分项目的MIRM,2.1Rasch模型的多维推广,2.2多维分部评分模型(multi
毛秀珍 辛 涛(1四川师范大学教育科学学院, 成都 610066) (2北京师范大学发展心理研究所, 北京 100875)
1 引言
多维项目反应理论(multidimensional item response theory, MIRT)引入多维能力、多维项目区分度以及多个步骤难度参数模拟测验项目和被试间的相互作用, 采用概率模型来表征具有特定多维能力水平的被试正确答对特定项目的概率(Reckase, 2009)。一方面, MIRT能同时估计被试在测验每个维度上的能力水平, 实现测验的认知诊断功能(Zhang & Stone, 2008)。于是, MIRT的应用顺应了从 2001年美国法案“No Child Left Behind” (NCLB)到 2011“Race to the top”早期学习挑战经费的设立, 再到我国《国家中长期教育改革和发展规划纲要(2010?2020)年》对教育认知诊断功能的要求。另一方面, MIRT比项目反应理论(item response theory, IRT)更适用于分析许多新形式的测验如认知诊断测验、公务员考试、表现性评估以及写作测验的项目和被试特征(van der Linden & Hambleton, 1997)。例如, Yao和Schwarz(2006)运用 MIRT分析五年级学生写作测验的二维结构和项目特征; 涂冬波、蔡艳、戴海琦和丁树良(2011)运用 MIRT获得瑞文高级推理测验的项目参数和被试的能力水平; 张军(2011)运用MIRT分析汉语水平考试(HSK)阅读部分的潜在多维度结构; 许志勇、丁树良和钟君(2013)应用MIRT分析2010年某省市高考数学理工试卷考查的五个能力维度, 并获得各维度之间的相关系数和考生的多维能力水平。由此可见, MIRT具有广阔的应用前景,是现代心理测量学的重点研究方向。
计算机化自适应测验(computerized adaptive testing, CAT)的核心是基于被试在已作答项目上的反应估计其能力水平, 然后根据选题策略从剩余题库中选择最适合被试作答的项目施测被试,重复上述步骤直到测验结束。它包括采用的项目反应模型、题库、初始项目的选择、选题策略、能力估计方法和测验终止规则几个部分。根据CAT采用的测量模型, 可将其划分为基于IRT的单维CAT (unidimensional CAT, UCAT); 基于MIRT的多维 CAT (multidimensional CAT, MCAT)以及以认知诊断理论为基础的认知诊断 CAT (cognitive diagnostic CAT, CD-CAT) ......
您现在查看是摘要页,全文长 36737 字符。