首页|基于改进的Trie树和DFA的敏感词过滤算法

基于改进的Trie树和DFA的敏感词过滤算法

扫码查看
通过对文本内容中敏感词过滤方法及相关技术的研究,提出了一种基于改进的Trie树和DFA的敏感词过滤算法,解决了敏感词过滤技术中的人工干扰、分词障碍等关键问题,提高了文本中敏感词过滤的准确性和有效性.提出的算法包括三个步骤:基于排列组合的数学原理对中文词向中拼混合词进行扩充;采用改进的Trie树结构来存储DFA的所有状态,构建敏感词树;根据构建的敏感词树结构以及采用最小匹配规则对文本内容中的敏感词进行检测和过滤.通过分析得到构建敏感词树算法的时间复杂度为O(n×len),敏感词检测及过滤算法时间复杂度为O(L).实验结果表明,本算法其查准率为100%,查全率约为87%~100%.
Sensitive word filtering algorithm based on improved Trie tree and DFA

吴珊、李英祥、徐鸿雁、张仕霞、施宜军

展开 >

西南财经大学天府学院 智能科技学院,四川 绵阳 621000

成都信息工程大学 通信工程学院,成都610103

工业和信息化部电子第五研究所,广州510507

改进的Trie树 确定有穷自动机(DFA) 敏感词过滤 最小匹配规则

国家自然科学基金院士基金

61804032ZHD201806

2021

计算机应用研究
四川省电子计算机应用研究中心

计算机应用研究

CSTPCDCSCD北大核心
影响因子:0.93
ISSN:1001-3695
年,卷(期):2021.38(6)
  • 5
  • 8