摘要:
ElasticSearch 2 (26) 语言处理系列之打字或拼写错误 摘要 我们喜欢在对结构化数据(如:日期和价格)做查询时,结果只返回那些能精确匹配的文档。但是,好的全文搜索不应该有这样的限制。相反,我们可以扩大范围,包括更多可能匹配的词语,使用相关度评分将更匹配的文档放置在结果集的顶部。 事实 阅读全文
摘要:
ElasticSearch 2 (25) 语言处理系列之同义词 摘要 词干提取有助于通过简化屈折词到它们词根的形式来扩展搜索的范围,而同义词是通过关联概念和想法来扩展搜索范围的。或许没有文档能与查询 “English queen” 相匹配,但是包含 “British monarch” 的文档会很可能 阅读全文
摘要:
ElasticSearch 2 (24) 语言处理系列之停用词:性能与精度 摘要 在信息检索早期,磁盘和内存相较我们今天的使用只是很小的一部分。将索引空间保持在一个较小的水平是至关重要的,节省每个字节都意味着巨大的性能提升。词干提取(参见 缩减单词至词根形式(Reducing Words to Th 阅读全文
摘要:
ElasticSearch 2 (23) 语言处理系列之词根提取 摘要 世界上大多数语言都是屈折变化的,意思是词语可以通过变形来表达不同的含义: 数(Number): fox, foxes 时态(Tense): pay, paid, paying 性(Gender): waiter, waitres 阅读全文
摘要:
ElasticSearch 2 (22) 语言处理系列之标记规范化 摘要 将文本拆解成标记只是工作的一半。为了使这些标记更容易被搜索到,它们需要经过一个规范化的处理过程,以移除相同单词间不重要的差异(比如:大小写)。或许我们还需要移除一些重要的差异,让 、`ésta está déjà vu dej 阅读全文
摘要:
ElasticSearch 2 (21) 语言处理系列之单词识别 摘要 一个英语单词相对容易识别:因为英语单词是被空格或(某些)标点符号隔开的。但在英语中也有反例: you’re 这个词是一个单词还是两个?那 o’clock 、 cooperate 、 half baked 或 eyewitness 阅读全文
摘要:
ElasticSearch 2 (20) 语言处理系列之如何开始 摘要 Elasticsearch 配备了一组语言分析器,为世界上大多数常见的语言提供良好的现成基础支持。 阿拉伯语、亚美尼亚语,巴斯克语,加泰罗尼亚语,巴西语、保加利亚语、汉语、捷克语、丹麦语、荷兰语、英语、芬兰语、法语、德语、希腊语 阅读全文
摘要:
ElasticSearch 2 (19) 语言处理系列之故事开始 摘要 全文搜索是精度(尽可能少的返回不相关文档)和召回(尽可能多的返回相关文档)的战场。尽管只精确匹配用户查询的词肯定会是精确的,但这并不够。我们可能会丢失许多被用户认为相关的文档,取而代之的是我们需要扩大撒网范围,去搜索那些与原始查 阅读全文