心理与教育测验分类信度：分类一致性评估方法

http://www.100md.com 2025年8月23日心理科学进展 2025年第8期

    分类号 B841

    1引言

    中共中央、国务院(2020)印发的《深化新时代教育评价改革总体方案》，提到应严格学业标准，完善各级各类学校学生学业要求，严把出口关。测验是教育评价的重要形式，也是决策的重要依据。测验广泛应用于教育、心理和医学领域，进行人才选拔、等级划分、心理诊断和医学诊断等(Gonzalez，202la;Gonzalezetal.，2024)。测验主要分为两类(Glaser，1963)，依据相对质量标准的常模参照测验(Norm-ReferencedTest，NRT)，以及依据绝对质量准则的标准参照测验(CriterionReferencedTest，CRT)。两者在测验分数解释方面具有本质区别，NRT基于个体间分数比较而解释个体的表现水平，而CRT主要判断个体能力是否达到预设期望标准。CRT广泛应用于大规模测评项目，包括国外的PISA和TIMSS，以及国内的国家基础教育质量监测(陈平，2022)。

    无论NRT还是CRT，反映测验结果一致性的测验信度，都是测验质量的重要评价指标之一(Shrockamp;Coscarelli，2007)。CRT的测试者得分通常是与一个特定的标准进行比较，而不是与其他测试者相比。这意味着测验的设计者会设定一个明确的最低要求或标准，测试者需要达到或超过这个标准才被视为通过测验。这些分类决策(如通过和不通过)对证书或资格考试非常重要(Kimamp;Lee，2019)。测验分类结果会直接影响测试者入学机会、求职资格、心理干预和疾病治疗等。因此，如何评价CRT信度十分重要(Parketal.，2023)。

    NRT与CRT关注的问题不同，两者的信度也有着不同的内涵，CRT不能沿用NRT的信度指标(陈希镇，1996)。NRT通常要求个体分数具有差异性，而CRT甚至用于个体分数没有差异情景。NRT的信度指标，如内部一致性、 a 信度系数与重测信度等(温忠麟，叶宝娟，2011)，并不完全适合CRT(Hambletonamp; Novick，1973；Livingston，1972;Pophamamp;Husek，1969;Subkoviak，1976) ......

百拇医药网 http://www.100md.com/html/paper/1671-3710/2025/08/008.htm

您现在查看是摘要页，全文长 64555 字符。