文章分类 -  全文检索

摘要:http://pythonhosted.org//Whoosh/highlight.html#how-to-create-highlighted-search-result-excerptsOverviewThe highlighting system works as a pipeline, wi... 阅读全文

posted @ 2014-12-03 15:45 旅途 阅读(300) 评论(0) 推荐(0) 编辑

摘要:Filtering resultsYou can use thefilterkeyword argument tosearch()to specify a set of documents to permit in the results. The argument can be awhoosh.q... 阅读全文

posted @ 2014-12-03 14:39 旅途 阅读(218) 评论(0) 推荐(0) 编辑

摘要:http://pythonhosted.org//Whoosh/querylang.html该文档介绍了查询语句的关键词。OverviewA query consists oftermsandoperators. There are two types of terms: single terms ... 阅读全文

posted @ 2014-12-03 14:16 旅途 阅读(136) 评论(0) 推荐(0) 编辑

摘要:http://pythonhosted.org//Whoosh/parsing.htmlOverviewThe job of a query parser is to convert aquery stringsubmitted by a user intoquery objects(objects... 阅读全文

posted @ 2014-12-03 13:43 旅途 阅读(416) 评论(0) 推荐(0) 编辑

摘要:# -*- coding: UTF-8 -*-from whoosh.index import create_infrom whoosh.fields import *from whoosh.analysis import RegexAnalyzerfrom whoosh.qparser impor... 阅读全文

posted @ 2014-12-02 17:11 旅途 阅读(92) 评论(0) 推荐(0) 编辑

摘要:# -*- coding: UTF-8 -*-from whoosh.index import create_infrom whoosh.fields import *from whoosh.analysis import RegexAnalyzerfrom whoosh.qparser impor... 阅读全文

posted @ 2014-12-02 15:11 旅途 阅读(101) 评论(0) 推荐(0) 编辑

摘要:# -*- coding: UTF-8 -*-from whoosh.index import create_infrom whoosh.fields import *from whoosh.analysis import RegexAnalyzerfrom whoosh.qparser impor... 阅读全文

posted @ 2014-12-02 13:54 旅途 阅读(101) 评论(0) 推荐(0) 编辑

摘要:# -*- coding: UTF-8 -*-from whoosh.index import create_infrom whoosh.fields import *from whoosh.analysis import RegexAnalyzerimport osanalyzer = Regex... 阅读全文

posted @ 2014-12-02 10:50 旅途 阅读(115) 评论(0) 推荐(0) 编辑

摘要:链接:http://www.oschina.net/project/tag/264/segment 开源中国社区1、IKAnalyzerIKAnalyzer是一个开源的,基于java语言开发的轻量级的中文分词工具包。从2006年12月推出1.0版开始,IKAnalyzer已经推出 了3个大版本。最初... 阅读全文

posted @ 2014-12-02 10:21 旅途 阅读(411) 评论(0) 推荐(0) 编辑

摘要:http://xiaoweispace.blog.163.com/blog/static/1649686182011735037287/ 常见中文分词开源项目SCWS Hightman开发的一套基于词频词典的机械中文分词... 阅读全文

posted @ 2014-12-02 10:19 旅途 阅读(419) 评论(0) 推荐(0) 编辑

摘要:https://github.com/fxsjy/jiebaPython 2.x全自动安装:easy_install jieba或者pip install jieba半自动安装:先下载http://pypi.python.org/pypi/jieba/,解压后运行 python setup.py i... 阅读全文

posted @ 2014-12-02 10:15 旅途 阅读(680) 评论(0) 推荐(0) 编辑

摘要:http://glynjackson.org/weblog/entry/django-search-haystack-whoosh.htmlWhoosh 是一个纯 Python 实现的全文搜索组件。基础架构和 Lucene 比较像。使用试了试,记录一些东西。中文分词Whoosh 本身只有英文分词,因... 阅读全文

posted @ 2014-12-02 10:09 旅途 阅读(997) 评论(0) 推荐(0) 编辑

摘要:http://blog.csdn.net/wenxuansoft/article/details/8169842Django没有内置全文检索功能,这方面的资料也很少。有搜到两篇,一篇是使用在django应用上使用sphinx全文搜索还有一篇是使用Whoosh的,看这里其中whoosh是原生唯一的py... 阅读全文

posted @ 2014-12-02 10:05 旅途 阅读(443) 评论(0) 推荐(0) 编辑

摘要:本文转载自xum2008的博客,主要介绍13款现有的开源搜索引擎,你可以将它们用在你的项目中以实现检索功能。1. LuceneLucene的开发语言是Java,也是Java家族中最为出名的一个开源搜索引擎,在Java世界中已经是标准的全文检索程序,它提供了完整的查询引擎和索引引擎,没有中文分词引擎,... 阅读全文

posted @ 2014-12-01 17:07 旅途 阅读(774) 评论(0) 推荐(0) 编辑

摘要:http://blog.csdn.net/twsxtd/article/details/8313843How to Index documentsCreating an index obiect可以使用index.create_in()函数创建index对象:[python]view plainco... 阅读全文

posted @ 2014-12-01 16:13 旅途 编辑

摘要:http://blog.csdn.net/twsxtd/article/details/8309471About schema and fieldsschema指明了在一个index中的document的field每个document可以有多个field,比如title,content,url,da... 阅读全文

posted @ 2014-12-01 16:12 旅途 阅读(920) 评论(0) 推荐(0) 编辑

摘要:Whoosh的分词是基于正则表达式的,所以只需要写出合适的正则表达式就可以正确分词。当然,因为Whoosh是纯python的,你要重新实现分词模块或是使用第三方分词模块都是很容易的。下面是一些例子(基于正则表达式),可能有不完善的地方,需要继续完善完善。#测试分词#!/usr/bin/env pyt... 阅读全文

posted @ 2014-12-01 16:01 旅途 阅读(414) 评论(0) 推荐(0) 编辑

摘要:http://blog.sina.com.cn/s/blog_819588bc0101co4b.html最近想做一个搜索引擎,当然少不了看下闻名遐迩的Lucene,不得不说确实非常出色,但是对于python的实现pylucene确是差强人意,首先它 不是纯python实现而是做了一层包装到头来还是使... 阅读全文

posted @ 2014-12-01 16:00 旅途 阅读(429) 评论(0) 推荐(0) 编辑

摘要:https://pypi.python.org/pypi/Whoosh/About WhooshWhoosh is a fast, featureful full-text indexing and searching library implemented in pure Python. Prog... 阅读全文

posted @ 2014-12-01 15:39 旅途 阅读(209) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示