自适性语言测试题库CTT与IRT参数估计对比研究

修美丽 ¹柴省三 ²鲍杰²

扫码查看

作者信息

1. 对外经济贸易大学国际学院
2. 北京语言大学国际学生教育政策与评价研究院
折叠

摘要

在计算机自适应性(CAT)与评价中,题库是测试系统实现的基础,其中题目参数估计质量是决定题库建设的核心和必要条件.研究以22582 名中国汉语水平考试(HSK)考生的实测大数据为基础,采用分层随机抽样法,对获得的8 个不同容量的被试样本进行了CTT和IRT参数的估计及比较研究.结果发现,在样本分布同质性前提下,当样本规模在500 以内时,CTT与IRT的项目难度参数、区分度参数之间一致性较差;项目的区分度参数稳定性不高;考生能力参数之间存在显著相关性.在远程自适应性语言测试的题库建设中,建议采用大样本IRT参数估计方案.

关键词

计算机自适应性考试/题库参数估计/教育测量/语言测试/CTT与IRT理论

引用本文复制引用

基金项目

国家社会科学基金重点项目(17AYY011)

中央高校基本科研业务费专项北京语言大学重大基础研究专项(19ZDJ04)

北京语言大学一流学科团队支持计划(2023YJC02)

出版年

2024

首都师范大学学报(社会科学版)

首都师范大学

首都师范大学学报(社会科学版)

CSSCICHSSCD北大核心

影响因子：0.617

ISSN：1004-9142

段落导航