摘要:
该程序用到了Lucene.Net,用到了基于词典的ICTCLAS中文分词1.0. ICTCLAS中文分词for Lucene.Net接口代码(实现Analyzer): Code 1usingSystem; 2usingSystem.Collections.Generic; 3usingSystem.Text; 4usingSystem.IO; 5 6usingLucene.Net.Analysis... 阅读全文
摘要:
作者:phinecos(洞庭散人) Blog:http://phinecos.cnblogs.com/ Email:phinecos@163.com Preface 本文缘起于最近在读的一本书-- Tom M.Mitchell的《机器学习》,书中第6章详细讲解了贝叶斯学习的理论知识,为了将其应用到实际中来,参考了网上许多资料,从而得此文。文章将分为两个部分,第一部分将介绍贝叶斯学习的相关理论(如... 阅读全文
摘要:
HtmlParser设计解析(1) - 解析器模式(Interpreter) 对于HtmlParser的使用,这方面的介绍很多,而且详细。前段时间我将HtmlParser的源码读了一篇,在此,总结下其HtmlParser的设计,跟大家交流,我们只关注是设计。 一、Filter设计 NodeFilter 是htmlParser主要的提取节点的一种方式,其结构灵活,通过组合解释器查找页面上的任一个... 阅读全文
摘要:
http://code.google.com/p/hbase-writer/What is HBase-Writer?HBase-Writer is an extension to the Heritrix open source crawler written by the Internet Archive (http://crawler.archive.org/) that enables i... 阅读全文
摘要:
HBase-Writer (http://code.google.com/p/hbase-writer/) is designed to be extensible but as it is, it can be used as a powerful web crawling tool. Out of the box, HBase-Writer is ready to write the cra... 阅读全文
摘要:
lucene .NET 搜索图片 功能实现 收藏 关于搜索部分 1想建立索引。构建jpg图片解析器,在索引时将jpg图片的exif信息及其文本信息如名称,存放路径,大小,日期等等加入索引!具体实现代码如下: public void BulidIndex(string path)//创建索引 { DateTime biStart = DateTime.Now;//创建索引开始 Directo... 阅读全文
摘要:
Solr data import 中XML/HTTP 数据源的使用参考自:http://wiki.apache.org/solr/DataImportHandler DataImportHandler可以通过datasource数据源索引来自于HTTP的数据。包括REST/XML和RSS/ATOM。 在版本1.4中,推荐使用URLDataSource。 配置示例如下: Xml代码 <da... 阅读全文
摘要:
使用Solr Data Import的delta-import功能 Solr提供了full-import和delta-import两种导入方式,这篇文章主要讲解后者。 所谓delta-import主要是对于数据库(也可能是文件等等)中增加或者被修改的字段进行导入。主要原理是利用率每次我们进行import的时候在solr.home\conf下面生成的dataimport.properties文件,此... 阅读全文