适用于多维迫选测验的IRT计分模型
作假,1引言,2迫选测验设计与传统计分方式,1迫选测验设计,2传统计分方式与自模式数据,3用于迫选测验的IRT计分模型,1题目反应模式,2决策理论,3TIRT模型,4MUPP框架及衍生模型,5RIM模型,6BRB-IRT模型
刘 娟 郑蝉金 李云川 连 旭·研究方法(Research Method)·
适用于多维迫选测验的IRT计分模型
刘 娟1郑蝉金2,3李云川1连 旭1
(1北京智鼎优源管理咨询有限公司, 北京 100102) (2华东师范大学教育心理学系;3华东师范大学上海智能教育研究院, 上海 200062)
迫选(forced-choice, FC)测验由于可以控制传统李克特方法带来的反应偏差, 被广泛应用于非认知测验中, 而迫选测验的传统计分方式会产生自模式数据, 这种数据由于不适合于个体间的比较, 一直备受批评。近年来, 多种迫选IRT模型的发展使研究者能够从迫选测验中获得接近常模性的数据, 再次引起了研究者与实践人员对迫选IRT模型的兴趣。首先, 依据所采纳的决策模型和题目反应模型对6种较为主流的迫选IRT模型进行分类和介绍。然后, 从模型构建思路、参数估计方法两个角度对各模型进行比较与总结。其次, 从参数不变性检验、计算机化自适应测验(computerized adaptive testing, CAT)和效度研究3个应用研究方面进行述评。最后提出未来研究可以在模型拓展、参数不变性检验、迫选CAT测验和效度研究4个方向深入。
迫选测验, 自模式数据, TIRT, MUPP, GGUM-RANK
1 引言
心理测评可依据测量的内容分为认知测验和非认知测验。认知测验测量个体认知能力, 如数值计算能力。这种测验通常具有标准答案, 答对即得分, 总分越高代表其相应的能力越高。非认知测验是了解个体的性格特点、价值观和态度倾向等方面最重要的方法之一, 被广泛应用于临床心理诊断、职业生涯规划、人事决策中, 有相当多的效度研究证明了性格对工作绩效有很好的预测效力(SHL, 2018; Sitser et al., 2013; Hurtz & Donovan, 2000)。与认知测验不同的是, 大部分非认知类的心理测评通常使用李克特形式的等级评定量表(rating scale), 其要求个体每次独立地评价一个题目(如, 我是一个做事有条理性的人), 从最不符合我—1到最符合我—5 (5级李克特)中选择与自己最接近的一项, 答案没有对错之分。当在应聘、选拔等高利害的测评情境中使用此种题型的量表时, 个体很容易有意地操控某些题目(如体现高责任心、乐观性的题目)的分数使自己看起来更符合组织期望, 即使自己并不是这样的人。这种可能的倾向被称为作假、装好, 由此得到的测评结果便失去了对人才的区分效力, 严重损害了测验的公平性 ......
您现在查看是摘要页,全文长 50070 字符。