关键字过滤

关键字过滤

实质:多模式文本匹配问题。

实现方式

  • 编码格式统一为Unicode编码,统一编码差异。
  • hash存储关键字首字符,快速判定。
  • 存储关键字首字符在vector中的范围下标,提高遍历检索效率。
  • 支持中文规则。
  • 最长匹配原则。

代码实现

https://github.com/TxtpGame/KeyWord/

建议

脏词过滤是个非常繁杂的业务。

建议接第三方服务。

posted @ 2022-07-18 14:51  天下太平  阅读(64)  评论(0编辑  收藏  举报