面向电力领域自然语言理解的数据增强研究与实现

施俊威¹

扫码查看

作者信息

1. 东华大学
折叠

摘要

随着人工智能技术的不断发展和应用，电力领域也逐渐迎来了智能化转型的浪潮。在电力行业中，用户往往通过人工客服和电力公司网站等传统方式获取与用电相关的各种信息，在人工智能技术与电力系统的融合中，智能问答成为一种重要的应用方式和技术手段，提高沟通效率和工作效率[1]。智能问答系统中用户问题的语义理解是核心，通常构建自然语言理解模型实现。NLU模型需要大量的训练样本提高模型性能[2]，在电力应用中，用户和企业提供的领域问题数据并不能满足模型训练要求，并且人工数据标注的成本大，所以需要使用数据增强技术生成大量的电力领域样本数据，以满足NLU模型训练需求。本文系统研究实现了电力系统问答的数据增强的方法，包含槽值替换、槽替换、句式变换等，并提出了基于对比搜索的序列生成模型以生成句式多样化的样本。在此基础上设计了样本生成工具，面向电力领域中多种业务场景，生成大量高质量的样本数据，实现了样本标注，样本模版导入，电力指标数据分析与导入，样本生成等主要功能。本文主要工作及贡献如下。 1．通过对自然语言理解模型训练数据的研究，设计3种NLU任务样本数据增强方法。第一，基于模版生成样本数据，设计电力领域数据模版，根据不同业务场景设定不同类型的槽，通过替换槽值与槽来生成大量样本数据。第二，为增加问题样本的语汇多样性并且使得问题样本中的领域数据更加贴合实际应用，收集领域数据的同近义词与上下位词并且对专业领域词汇进行缩略处理。第三，为使基于槽值替换生成样本数据更加自动化，减少操作，通过使用生成式模型Genius完成数据增强。 2．为增强问题样本的句式多样性，使用基于领域关键词文本生成模型生成问题样本，根据所给领域关键词，生成文本尽可能包含领域关键词或者与其相关。针对生成式模型生成文本会出现连续重复词，导致生成的文本语义不正确，在模型的解码阶段使用对比搜索，降低生成文本的重复率。 3．基于Django框架设计并实现样本生成工具，基于模版的方式，设计并且实现相关功能模块，实现样本数据生成。对系统进行部署，实现用户远程访问，完成样本数据生成相关操作。本文研究实现样本生成工具，通过基于模版的方式生成大量具有语义多样性、语汇多样性和句式多样性的样本数据，并且，通过使用生成式模型生成大量句式多样的问题样本，减少人工句式收集工作和提高样本数据的句式多样性。使用生成的样本数据大规模训练NLU模型，提升模型对用户问题的语义识别准确率。

关键词

自然语言理解/数据增强/文本生成/Django框架/电力系统/人工智能

引用本文复制引用

授予学位

硕士

学科专业

自然语言

导师

宋晖

学位年度

2023

学位授予单位

东华大学

语种

中文

中图分类号

段落导航