2011 年 12月 20 日随笔档案 - Kudy

2011年12月20日

摘要：在本人昨晚发的强大灵活的脏字过虑：1万字文章过虑1万关键词用时只要1毫秒（包括扩展的高亮功能）　文章中，只是介绍过虑的功能和性能，这个文章主要讲一下实现的思路，另外给大家看一下Aho–Corasick算法的C#实现。既然是要过虑，那就要先查找，如果是直接的一个字符一个字符的匹配，那是很耗时的，因为时间花在不需要匹配的工作，有不少人会用正则去解决过虑，我09年的时候也这样，但后来发现大量关键词下性能确实极低下，所以才会另想它法。上一文中的过虑主要思想是这样的，开始会先用一个字典保存保存所有关键词，同一个字母开头的会另放在一个子字典里，这样一来，扫描的范围就大大的缩小了，然后再考虑到脏字一般是2个阅读全文

posted @ 2011-12-20 16:22 Kudy 阅读(5918) 评论(16) 推荐(12) 编辑

公告

个人简介：kudy，毕业于深圳大学软件学院，2005年开始对Web开发有浓厚的兴趣...

昵称： Kudy
园龄： 15年3个月
荣誉：推荐博客
粉丝： 397
关注： 17

Kudy's Tech Blog

我不去想身后会不会袭来寒风冷雨既然目标是地平线,留给世界的只能是背影!

公告

我的标签

积分与排名

随笔分类

随笔档案

个人站点

阅读排行榜

推荐排行榜

最新评论