摘要
在计算机自适应性(CAT)与评价中,题库是测试系统实现的基础,其中题目参数估计质量是决定题库建设的核心和必要条件.研究以22582 名中国汉语水平考试(HSK)考生的实测大数据为基础,采用分层随机抽样法,对获得的8 个不同容量的被试样本进行了CTT和IRT参数的估计及比较研究.结果发现,在样本分布同质性前提下,当样本规模在500 以内时,CTT与IRT的项目难度参数、区分度参数之间一致性较差;项目的区分度参数稳定性不高;考生能力参数之间存在显著相关性.在远程自适应性语言测试的题库建设中,建议采用大样本IRT参数估计方案.
基金项目
国家社会科学基金重点项目(17AYY011)
中央高校基本科研业务费专项北京语言大学重大基础研究专项(19ZDJ04)
北京语言大学一流学科团队支持计划(2023YJC02)