首页|文心一言和ChatGPT在临床基础检验专业单选题中的正确率比对

文心一言和ChatGPT在临床基础检验专业单选题中的正确率比对

扫码查看
目的 探讨文心一言、ChatGPT在临床基础检验专业单项选择题中的表现,并与检验人员的正确率进行比较.方法 由2位临床基础检验技术的任课老师出题,共57道单项选择题,其中Al型题(基础知识)40题,A2型题(病例题)17题.采用2种提问模式:模式一为一次性问10题,模式二为一次性问2题.分别使用文心一言3.5、ChatGPT3.5、ChatGPT4.0进行回答.同时,6名检验人员(3名检验实习生、3名检验工作人员)在闭卷情况下测试这57道单选题.结果 在模式一中,对于Al型题,检验人员>ChatGPT4.0>文心一言3.5>ChatGPT3.5,其中检验人员、ChatGPT4.0和文心一言3.5的正确率均超过60%;对于A2型题(病例题),文心一言3.5和检验人员的正确率均为64.7%,ChatGPT3.5的正确率最低,而ChatGPT4.0的正确率最高;ChatGPT4.0和检验人员在Al型题和A1+A2型题的表现均优于ChatGPT3.5,差异有统计学意义(Al型题:P=0.025,P=0.001;A1+A2型题:P=0.008,P=0.001).在模式二中,对于Al型题,ChatGPT4.0>检验人员>文心一言3.5>ChatGPT3.5,其中ChatGPT4.0的正确率超过80%;对于A2型题,正确率排序为:ChatGPT4.0>文心一言3.5>ChatGPT3.5>检验人员,其中ChatG-PT4.0的正确率同样超过80%;ChatGPT4.0和检验人员在Al型题和A1+A2型题的表现同样优于ChatGPT3.5,差异有统计学意义(Al 型题:P=0.008,P=0.033;Al+A2 型题:P=0.007,P=0.044).结论 文心一言 3.5、ChatGPT3.5、ChatGPT4.0 在临床基础检验专业单项选择题中的正确率均较高.然而,检验人员和ChatGPT4.0在Al型题及A1+A2型题的正确率明显高于Chat-GPT3.5.

刘坪、李妹、李钦、陈诗莹、司徒博

展开 >

伊犁哈萨克自治州新华医院检验科,新疆伊宁 835000

吴川市人民医院检验科,广东吴川 524500

南方医科大学南方医院检验科,广州 510515

ChatGPT 文心一言3.5 临床基础检验

广东省湛江市非资助科技攻关项目

2023B01191

2024

临床检验杂志
江苏省医学会

临床检验杂志

CSTPCD
影响因子:0.746
ISSN:1001-764X
年,卷(期):2024.42(10)