[转*摘要*总结]敏感词过滤的算法原理之DFA算法
敏感词、文字过滤是一个网站必不可少的功能,过滤的关键是用户输入内容与敏感字库的匹配。对于字符串匹配,一般的方法是字符串子串包含判断、正则表达式判断,但对于用户输入的大量内容,它们的效率是非常低的。Google和百度搜索文字过滤算法时我找到了一个比较好的算法DFA算法。实际项目中,对于整句的匹配我们采用的仍是正则表达式,因为整句词库比较少;对于单词屏蔽,我们采用的是DFA算法来处理,因为单词字库是万级以上的,DFA算法简单高效。
转载
2020-06-12 13:20:34 ·
1515 阅读 ·
0 评论