基于大语言模型辅助的防洪调度规则标签设计方法
Label design method for flood control scheduling rules assisted by LLM
冯钧 1吕志鹏 1范振东 2孔旭 2陆佳民 1周思源1
作者信息
- 1. 河海大学水利部水利大数据重点实验室,江苏南京 211100;河海大学计算机与软件学院,江苏南京 211100
- 2. 中国电建华东勘测设计研究院有限公司,浙江杭州 311122
- 折叠
摘要
防洪调度规则的信息抽取对于防洪调度自动化具有重要意义,而标签体系设计在信息抽取任务中至关重要.一般的设计方式经常由于理解偏差和疏漏,导致设计出来的标签体系存在过度概括、不全面和不易区分等问题,这些问题被称为标签体系的非完美性.针对这一问题,本研究重点面向防洪调度文本中的规则抽取,提出了一种创新性的非完美标签优化方法,旨在改进文本信息抽取的标签设计方法.方法利用大语言模型进行辅助,通过标签细化、标签生成和标签更名等措施,来提高标签的准确性和表达能力.此外,本文还提出了一种针对数据集标签较多的实体关系三元组分组抽取方法.通过对实体关系三元组进行分组,并按照分组训练模型与识别结果,有效改善了数据集标签较多情况下模型的信息抽取效果.最终,研究利用Neo4j形成了可视化的防洪调度知识图谱.本文研究成果为后续的防洪调度工作以及相关的知识抽取工作提供了基础资源,对防洪调度领域的知识抽取进行了探索.
Abstract
The information extraction of flood control dispatching rules is of great significance for flood control dis-patching automation,and the design of labeling systems is pivotal for information extraction.Traditional designs of-ten have comprehension biases and omissions,leading to issues like overgeneralization and incompleteness.Ad-dressing these imperfections,this research emphasizes the extraction of rules in flood scheduling texts,proposing an enhanced approach for labeling optimization.Large Language Models(LLM)are utilized for tasks like label refine-ment and generation,boosting label precision and clarity,and a technique for extracting entity relationship triplets is also presented for datasets with many labels.Grouping these triplets enhances extraction performance in label-rich datasets.A visual knowledge graph for flood control scheduling using Neo4j is also developed.This research offers foundational insights for future work in flood control scheduling knowledge extraction.
关键词
知识抽取/标签设计/防洪调度/知识图谱/自然语言处理Key words
knowledge extraction/label design/flood control scheduling/knowledge graph/natural language processing引用本文复制引用
基金项目
国家重点研发计划地球观测与导航重点专项(2021YFB3900601)
国家自然科学基金青年项目(62306007)
江苏省水利科技项目(2022002)
江苏省水利科技项目(2023044)
水利部重大科技项目(SKS-2022132)
出版年
2024