摘要
当前电力设备缺陷文本信息存在数据丰富,利用率较低的情况,电力公司现有的缺陷文本信息管理系统对缺陷文本信息的分类方法不够完善,系统仅能实现对缺陷文本简单的单一分类,无法完成对缺陷文本的精确分类,同时缺陷文本填写不规范的情况也影响着缺陷文本的分类正确性与精确性。由于对缺陷文本信息的利用不足,常出现同一缺陷在不同地区重复发生的情况,且随着我国电网规模的扩大,设备使用年限的增加,该问题变得越来越突出。因此,需要找到新的缺陷分类方法实现对缺陷文本的自分类,进而实现对缺陷文本信息填写规范度的评价,保证缺陷填写分类的准确性,实现缺陷文本信息的精确查询与数据挖掘,使缺陷文本信息得到有效利用,从而帮助现场人员快速发现缺陷,减少事故发生,提高电力公司运行维护水平。 本文针对该问题,结合近年来电力公司缺陷文本信息管理系统中所积累的大量数据,利用多标签分类法对电力缺陷文本进行多标签分类,利用分类数据进行电力缺陷文本信息数据的规范度评价与数据挖掘的研究工作。第一部分,介绍了本文所用的相关方法与技术;第二部分,分析多标签分类的优势以及提出基于深度学习的多标签电力缺陷文本分类实现方案,利用分词工具与Word2vec完成面向电力缺陷文本的预处理,结合Seq2seq模型与注意力机制实现对电力缺陷文本的多标签分类;第三部分,从缺陷文本的规范性信息中筛选指标建立缺陷文本信息规范度评价指标体系,结合模糊层次分析法建立缺陷文本信息规范度评价模型评价缺陷文本信息规范度与准确性,综合改进型Apriori算法与缺陷文本信息规范度评价模型以某电力公司缺陷数据为目标进行数据挖掘,得到缺陷关联性信息以辅助现场快速判断缺陷情况,为领导层决策提供依据,为缺陷分析提供更多数据支持,论文主要工作及研究成果包括有: ①针对目前电力缺陷文本存在数据多、利用少,分类方法效果差、不合理等问题,分析比较多标签分类方式在缺陷文本分类与当前分类方式的分类效果,提出基于深度学习的多标签电力缺陷文本分类实现方案,结合电力缺陷文本专业性强、逻辑性强、长文本、噪音强等特点完成对电力缺陷文本的短文本化、分词、去停顿词、词向量化等预处理操作,结合Seq2seq模型与注意力机制实现对电力缺陷文本的多标签分类,最后利用三种设备类型的缺陷数据集实验证明该方法的有效性与性能优越性。 ②建立缺陷文本信息规范度评价体系,提出基于模糊层次分析法的缺陷文本信息规范度评价模型,考虑专家经验和数据自身变化,实现对缺陷文本信息规范度的定量评价,实例研究表明,本文提出的模型对缺陷文本信息规范度评价具有较高的准确性与通用性;基于缺陷多标签分类法提出布尔矩阵与改进型Apriori算法相结合的缺陷文本信息数据挖掘方法,结合实际案例表明,该方法可以利用挖掘所得缺陷关联性信息辅助现场运维工作,为缺陷分析提供更多数据支持。