再谈脏字过滤（基于hash的优化算法）

前段时间写了篇文章。说的trie算法原文见

http://www.cnblogs.com/yeerh/archive/2011/08/24/2152607.html

回复中有说到一个很快的方法。原文见xingd的博客

http://www.cnblogs.com/xingd/archive/2008/02/01/1061800.html

经测试，这种方法确实很快，但已不是单纯的hash算法了,其中的思路比较巧妙。

文章中基本上只有代码，只有很少的说明。

经过本人的认真阅读，终于搞懂了优化的关键所在。

现在对这种做了一个小的改动，不敢独享，特分享给大家。

这种优化基于我们本常所用的大部分词或是字并不是脏字的前提。

有些字符即使在脏字单词中出现，他们出现地位置也不一样。

根据这个特点。我们先建立一个用于快速过滤的数组。

Uint16[] m_fastCheck = new Uint16[char.MaxValue];

fastCheck的索引号用来表示对应的字符。

里面的值表示这个字符在单词中出现的位置，我们用Uint16来表示，
也就可以保存1-16。。

比如：马这个字符, 脏字有 "你马", '马的' , '草泥马'

则 fastCheck[39532] = 0x07; //'马'转化为数字为39532；

因为字符可以隐式转换为整数。也可以写作 fastCheck['马'] = 0x07;

至于这个0x07是怎么来的。因为马出现的位置有 1，2，3

对这些位置做位运算就可以得出7.

这个我们在添加关键中的时候就可以初始化。

public void AddKey(string word)

{.................

for(int i=0;i<word.Length;i++)

{

m_fastCheck[word[i]] |= (UInt16)(1<<i);

}

有了这个，我们可以快速排除一些不是脏字字符。还可以更快吗？

可以，我们再加一个首尾字符的判断。

Uint16[] m_startCheck = new Uint16[char.MaxValue];

Uint16[] m_endCheck = new Uint16[char.MaxValue];

而这种我们保存的不是字符出现的位置。而是保存词的长度。

public void AddKey(string word)

{.................

for(int i=0;i<word.Length;i++)

{

m_fastCheck[word[i]] |= (UInt16)(1<<i);

}

Uint16 mask = (UInt16)(1<<word.Length-1);

m_startCheck[word[0]] |= mask;

m_endCheck[word[word.Length-1]] |= mask;

}

就这样，在进行查找的时候。我们先判断对应位置的字符出现地位置是否正确，

再判断首尾字符的长度是否要求。如果这些条件都满足，再进行hash查找。

方法如下：

public string FindOne(string text)

{

for (int index = 0; index < text.Length; index++)

{

int count = 0;

int maxIndex = Math.Min(maxWordLength + index, text.Length);

char begin = text[index];

for (int j = index; j < maxIndex; j++)

{

char current = text[j];

UInt16 mask = (UInt16)(1 << count);

//先判断字符出现的位置是否正确

if ((m_fastCheck[current] & mask) == 0)

{

index += count;

break;

}

++count;

//再判断首字符和尾字符的长度是否正确.

if ((m_startLength[begin] & mask) > 0 && (m_endLength[current] & mask) > 0)

{

//进行hash比较

.........................

}

return string.Empty;

}

至此，整个查找方法就完成了。脏字替换跟查找的方法差不多。

为了减少字符串的截取，我重写了一个HashSet, 支持bool Contains(string text,int offset,int coung)的方式进行调用.

完整的代码下载：

https://files.cnblogs.com/yeerh/Filter2.7z

15:15 2011-12-21 更新版，修正了一些小bug
https://files.cnblogs.com/yeerh/Filter3.7z

11:17 2012/10/7 更新版，修正了FastFilter中的一个错误
https://files.cnblogs.com/yeerh/Filter4.7z

posted @ 2011-10-20 15:46 边城浪阅读(11096) 评论(29) 编辑收藏举报

刷新页面返回顶部

yeerh

再谈脏字过滤（基于hash的优化算法）

公告