文心一言和ChatGPT在临床基础检验专业单选题中的正确率比对

刘坪 ¹李妹 ²李钦 ²陈诗莹 ²司徒博³

扫码查看

作者信息

1. 伊犁哈萨克自治州新华医院检验科,新疆伊宁 835000;吴川市人民医院检验科,广东吴川 524500
2. 吴川市人民医院检验科,广东吴川 524500
3. 南方医科大学南方医院检验科,广州 510515
折叠

摘要

目的探讨文心一言、ChatGPT在临床基础检验专业单项选择题中的表现,并与检验人员的正确率进行比较.方法由2位临床基础检验技术的任课老师出题,共57道单项选择题,其中Al型题(基础知识)40题,A2型题(病例题)17题.采用2种提问模式:模式一为一次性问10题,模式二为一次性问2题.分别使用文心一言3.5、ChatGPT3.5、ChatGPT4.0进行回答.同时,6名检验人员(3名检验实习生、3名检验工作人员)在闭卷情况下测试这57道单选题.结果在模式一中,对于Al型题,检验人员＞ChatGPT4.0＞文心一言3.5＞ChatGPT3.5,其中检验人员、ChatGPT4.0和文心一言3.5的正确率均超过60％;对于A2型题(病例题),文心一言3.5和检验人员的正确率均为64.7％,ChatGPT3.5的正确率最低,而ChatGPT4.0的正确率最高;ChatGPT4.0和检验人员在Al型题和A1+A2型题的表现均优于ChatGPT3.5,差异有统计学意义(Al型题:P=0.025,P=0.001;A1+A2型题:P=0.008,P=0.001).在模式二中,对于Al型题,ChatGPT4.0＞检验人员＞文心一言3.5＞ChatGPT3.5,其中ChatGPT4.0的正确率超过80％;对于A2型题,正确率排序为:ChatGPT4.0＞文心一言3.5＞ChatGPT3.5＞检验人员,其中ChatG-PT4.0的正确率同样超过80％;ChatGPT4.0和检验人员在Al型题和A1+A2型题的表现同样优于ChatGPT3.5,差异有统计学意义(Al 型题:P=0.008,P=0.033;Al+A2 型题:P=0.007,P=0.044).结论文心一言 3.5、ChatGPT3.5、ChatGPT4.0 在临床基础检验专业单项选择题中的正确率均较高.然而,检验人员和ChatGPT4.0在Al型题及A1+A2型题的正确率明显高于Chat-GPT3.5.

关键词

ChatGPT/文心一言3.5/临床基础检验

引用本文复制引用

基金项目

广东省湛江市非资助科技攻关项目(2023B01191)

出版年

2024

临床检验杂志

江苏省医学会

临床检验杂志

CSTPCD

影响因子：0.746

ISSN：1001-764X

段落导航