查看更多>>摘要:大语言模型(Large Language Models,LLMs)在多种自然语言处理(Natural Language Processing,NLP)任务中展现出了卓越性能,并为实现通用语言智能提供了可能.然而随着其应用范围的扩大,如何准确、全面地评估大语言模型已经成为了一个亟待解决的问题.现有评测基准和方法仍存在许多不足,如评测任务不合理和评测结果不可解释等.同时,随着模型鲁棒性和公平性等其它能力或属性的关注度提升,对更全面、更具解释性的评估方法的需求日益凸显.该文深入分析了大语言模型评测的现状和挑战,总结了现有评测范式,分析了现有评测的不足,介绍了大语言模型相关的评测指标和评测方法,并探讨了大语言模型评测的一些新方向.
查看更多>>摘要:ChatGPT引发了新一轮的科技革命,使得对话系统成为研究热点.口语理解(Spoken Language Under-standing,SLU)作为任务型对话系统的第一部分,对系统整体的表现具有重要影响.在最近几年中,得益于大规模语言模型的成功,口语理解任务取得了较大的发展.然而,现有工作大多基于书面语数据集完成,无法很好地应对真实口语场景.为此,该文面向与书面语相对的口语,重点关注医疗领域这一应用场景,对现有的医疗领域对话系统口语理解任务进行综述.具体地,该文阐述了医疗口语理解任务的难点与挑战,并从数据集、算法和应用的层面梳理了医疗口语理解的研究现状及不足之处.最后,该文结合生成式大模型的最新进展,给出了医疗口语理解问题新的研究方向.