2012年3月24日

网页抽取技术浅谈

摘要: 这是一篇关于网页抽取技术的随笔。文中所述是笔者在实际开发过程中的一些感想,如有不当之处,敬请斧正。 阅读全文

posted @ 2012-03-24 23:57 cuberub 阅读(1781) 评论(4) 推荐(0) 编辑

Eclipse下配置CDT和MinGW

摘要: 本文介绍如何在Windows下配置Eclipse+CDT+MinGW的C/C++开发环境。 阅读全文

posted @ 2012-03-24 23:30 cuberub 阅读(2604) 评论(0) 推荐(0) 编辑

Double-Array Trie快速入门

摘要: shiqi.cui<cuberub@gmail.com>May 24, 20091. Trie Trie是一种搜索树,因“Retrieval”而得名。在以Trie树组织的词典里,所有词条的公共前缀是压缩存储的,即只会存储一份,所以又称前缀树。如图所示:Trie可以理解为确定有限状态自动机,即DFA。在Trie树中,每个节点表示一个状态,每条边表示一个字符,从根节点到叶子节点经过的边即表示一个词条。查找一个词条最多耗费的时间只受词条长度影响,因此Trie的查找性能是很高的,跟哈希算法的性能相当。2. Trie存储方式 Trie可以按照树的方式存储。每个节点包含n个指针,分别指向n个后 阅读全文

posted @ 2012-03-24 23:09 cuberub 阅读(7792) 评论(1) 推荐(1) 编辑

导航