基于改进的Trie树和DFA的敏感词过滤算法

Sensitive word filtering algorithm based on improved Trie tree and DFA

吴珊 ¹李英祥 ²徐鸿雁 ³张仕霞 ³施宜军⁴

扫码查看

作者信息

1. 西南财经大学天府学院智能科技学院,四川绵阳 621000;成都信息工程大学通信工程学院,成都610103
2. 成都信息工程大学通信工程学院,成都610103
3. 西南财经大学天府学院智能科技学院,四川绵阳 621000
4. 工业和信息化部电子第五研究所,广州510507
折叠

摘要

通过对文本内容中敏感词过滤方法及相关技术的研究,提出了一种基于改进的Trie树和DFA的敏感词过滤算法,解决了敏感词过滤技术中的人工干扰、分词障碍等关键问题,提高了文本中敏感词过滤的准确性和有效性.提出的算法包括三个步骤:基于排列组合的数学原理对中文词向中拼混合词进行扩充;采用改进的Trie树结构来存储DFA的所有状态,构建敏感词树;根据构建的敏感词树结构以及采用最小匹配规则对文本内容中的敏感词进行检测和过滤.通过分析得到构建敏感词树算法的时间复杂度为O(n×len),敏感词检测及过滤算法时间复杂度为O(L).实验结果表明,本算法其查准率为100％,查全率约为87％～100％.

关键词

改进的Trie树/确定有穷自动机(DFA)/敏感词过滤/最小匹配规则

引用本文复制引用

基金项目

国家自然科学基金(61804032)

院士基金(ZHD201806)

出版年

2021

计算机应用研究

四川省电子计算机应用研究中心

计算机应用研究

CSTPCDCSCD北大核心

影响因子：0.93

ISSN：1001-3695

被引量5

参考文献量8

段落导航