2017 年 6月 27 日随笔档案 - 爱吃土豆的男孩

2017年6月27日

摘要：在全文检索中，分词处理对性能的影响很大，包括索引大小、检索速度、准确度等方面。一个好的分词处理应该具备哪些特性呢？ 1）速度、准确度 2）自定义词典 3）对英文、数字符号、日期、繁简转换等的优化中文分词算法大概分为两大类 1、字符串匹配（基于词典）这一算法其实就是使用字典，与字典中的词想匹配，阅读全文

posted @ 2017-06-27 20:42 爱吃土豆的男孩阅读(1736) 评论(0) 推荐(0) 编辑

KMP算法

摘要： 1、概述 KMP算法是一种改进的字符串匹配算法，关键在于利用匹配失败后的信息，尽量减少模式串与主串的次数。 2、算法原理举个简单的例子：主串为“BBC ABCDAB ABCDABCDABDE”，匹配串为“ABCDABD” 通常我们比较字符串，从头开始，第一个字符不匹配时，向后移匹配串。当匹配串与阅读全文

posted @ 2017-06-27 18:03 爱吃土豆的男孩阅读(109) 评论(0) 推荐(0) 编辑

信息检索——初识Trie树

摘要： 1、概述 Trie树（ /tri:/ ），又称前缀树、字典树，是种快速检索的多叉树结构， Trie树的基本性质可以归纳为：（1）根节点不包含字符，除根节点意外每个节点只包含一个字符。（2）从根节点到某一个节点，路径上经过的字符连接起来，为该节点对应的字符串。（3）每个节点的所有子节点包含的字符阅读全文

posted @ 2017-06-27 16:41 爱吃土豆的男孩阅读(264) 评论(0) 推荐(0) 编辑

爱吃土豆的男孩

公告