计算机应用研究2021,Vol.38Issue(6) :1678-1682,1688.DOI:10.19734/j.issn.1001-3695.2020.09.0240

基于改进的Trie树和DFA的敏感词过滤算法

Sensitive word filtering algorithm based on improved Trie tree and DFA

吴珊 李英祥 徐鸿雁 张仕霞 施宜军
计算机应用研究2021,Vol.38Issue(6) :1678-1682,1688.DOI:10.19734/j.issn.1001-3695.2020.09.0240

基于改进的Trie树和DFA的敏感词过滤算法

Sensitive word filtering algorithm based on improved Trie tree and DFA

吴珊 1李英祥 2徐鸿雁 3张仕霞 3施宜军4
扫码查看

作者信息

  • 1. 西南财经大学天府学院 智能科技学院,四川 绵阳 621000;成都信息工程大学 通信工程学院,成都610103
  • 2. 成都信息工程大学 通信工程学院,成都610103
  • 3. 西南财经大学天府学院 智能科技学院,四川 绵阳 621000
  • 4. 工业和信息化部电子第五研究所,广州510507
  • 折叠

摘要

通过对文本内容中敏感词过滤方法及相关技术的研究,提出了一种基于改进的Trie树和DFA的敏感词过滤算法,解决了敏感词过滤技术中的人工干扰、分词障碍等关键问题,提高了文本中敏感词过滤的准确性和有效性.提出的算法包括三个步骤:基于排列组合的数学原理对中文词向中拼混合词进行扩充;采用改进的Trie树结构来存储DFA的所有状态,构建敏感词树;根据构建的敏感词树结构以及采用最小匹配规则对文本内容中的敏感词进行检测和过滤.通过分析得到构建敏感词树算法的时间复杂度为O(n×len),敏感词检测及过滤算法时间复杂度为O(L).实验结果表明,本算法其查准率为100%,查全率约为87%~100%.

关键词

改进的Trie树/确定有穷自动机(DFA)/敏感词过滤/最小匹配规则

引用本文复制引用

基金项目

国家自然科学基金(61804032)

院士基金(ZHD201806)

出版年

2021
计算机应用研究
四川省电子计算机应用研究中心

计算机应用研究

CSTPCDCSCD北大核心
影响因子:0.93
ISSN:1001-3695
被引量5
参考文献量8
段落导航相关论文