首页|InstructGPT在命名实体识别任务中的表现和挑战

InstructGPT在命名实体识别任务中的表现和挑战

扫码查看
当前,关于大规模语言模型,例如,InstructGPT的研究主要聚焦在自由形式生成任务上,而忽略了在结构化抽取任务上的探索.为了让未来的工作在结构化抽取任务上有一个全面的认知,该文在零样本和少样本设定下,全面分析了 InstructGPT在基础的结构化抽取任务,命名实体识别上的表现.为了让结论更加可靠,该文的实验同时包含了生物医学领域和通用领域的常规和嵌套数据集.实验结果表明,InstructGPT 在零样本学习上的性能只能达到微调小规模语言模型的 11%~56%,增加少量样本也最多只能提升至 72%.为了探究 InstructGPT在命名实体识别上表现性能不佳的原因,该文通过分析模型的输出,发现接近 50%的句子都存在无效生成的问题.另外,由于无效生成会同时导致"虚假错误预测"和"虚假正确预测",解决生成无效问题并不能保证性能的提升.此外,InstructGPT抽取嵌套实体的能力还是有待提高,抽取嵌套实体的比例也偏低.因此,用InstructGPT解决命名实体识别任务,除了要保证生成的有效性,还需要更加深入地研究才能找到行之有效的方法.
Performance and Challenges of InstructGPT in Named Entity Recognition
Currently,the research on Large Language Models(LLMs),such as InstructGPT,is primarily focused on free-form generation tasks,while the exploration in structured extraction tasks has been overlooked.In order to gain a deep understanding of LLMs on structured extraction tasks,this paper analyzes InstructGPT's performance on named entity recognition(NER),one of the fundamental structured extraction tasks,in both zero-shot and few-shot settings.To ensure the reliability of the findings,the experiments cover common and nested datasets from both biomedical domain and general domain.The results demonstrate that InstructGPT's performance on zero-shot NER achieves 11%to 56%of the performance by a finetuned small-scaled model.To explore why InstructGPT struggles with NER,this paper examines the outputs,finding invalid generation for 50%of them.Besides,the occurrence of both"false-negative"and"false-positive"predictions makes it difficult to improve performance by only addressing the invalid generation.Therefore,in addition to ensuring the validity of generated outputs,further research still should focus on finding effective ways of using InstructGPT in this area.

large language modelnamed entity recognitionin-context learningchain-of-thought

孙瑜、颜航、邱锡鹏、王定、牟小峰、黄萱菁

展开 >

复旦大学 计算机科学技术学院,上海 200433

美的集团 AI创新中心,广东 佛山 528311

大规模语言模型 命名实体识别 上下文学习 思维链

国家自然科学基金国家重点研究与发展计划

620220272022CSJGG0801

2024

中文信息学报
中国中文信息学会,中国科学院软件研究所

中文信息学报

CSTPCDCHSSCD北大核心
影响因子:0.8
ISSN:1003-0077
年,卷(期):2024.38(1)
  • 28