摘要: 在全文检索中,分词处理对性能的影响很大,包括索引大小、检索速度、准确度等方面。 一个好的分词处理应该具备哪些特性呢? 1)速度、准确度 2)自定义词典 3)对英文、数字符号、日期、繁简转换等的优化 中文分词算法大概分为两大类 1、字符串匹配(基于词典) 这一算法其实就是使用字典,与字典中的词想匹配, 阅读全文
posted @ 2017-06-27 20:42 爱吃土豆的男孩 阅读(1736) 评论(0) 推荐(0) 编辑
摘要: 1、概述 KMP算法是一种改进的字符串匹配算法,关键在于利用匹配失败后的信息,尽量减少模式串与主串的次数。 2、算法原理 举个简单的例子:主串为“BBC ABCDAB ABCDABCDABDE”,匹配串为“ABCDABD” 通常我们比较字符串,从头开始,第一个字符不匹配时,向后移匹配串。 当匹配串与 阅读全文
posted @ 2017-06-27 18:03 爱吃土豆的男孩 阅读(109) 评论(0) 推荐(0) 编辑
摘要: 1、概述 Trie树( /tri:/ ),又称前缀树、字典树,是种快速检索的多叉树结构, Trie树的基本性质可以归纳为: (1)根节点不包含字符,除根节点意外每个节点只包含一个字符。 (2)从根节点到某一个节点,路径上经过的字符连接起来,为该节点对应的字符串。 (3)每个节点的所有子节点包含的字符 阅读全文
posted @ 2017-06-27 16:41 爱吃土豆的男孩 阅读(264) 评论(0) 推荐(0) 编辑