上一页 1 ··· 4 5 6 7 8 9 10 11 12 ··· 22 下一页
摘要: 该程序用到了Lucene.Net,用到了基于词典的ICTCLAS中文分词1.0. ICTCLAS中文分词for Lucene.Net接口代码(实现Analyzer): Code 1usingSystem; 2usingSystem.Collections.Generic; 3usingSystem.Text; 4usingSystem.IO; 5 6usingLucene.Net.Analysis... 阅读全文
posted @ 2010-04-27 21:45 searchDM 阅读(541) 评论(0) 推荐(0) 编辑
摘要: 作者:phinecos(洞庭散人) Blog:http://phinecos.cnblogs.com/ Email:phinecos@163.com Preface 本文缘起于最近在读的一本书-- Tom M.Mitchell的《机器学习》,书中第6章详细讲解了贝叶斯学习的理论知识,为了将其应用到实际中来,参考了网上许多资料,从而得此文。文章将分为两个部分,第一部分将介绍贝叶斯学习的相关理论(如... 阅读全文
posted @ 2010-04-27 21:44 searchDM 阅读(337) 评论(0) 推荐(0) 编辑
摘要: HtmlParser设计解析(1) - 解析器模式(Interpreter) 对于HtmlParser的使用,这方面的介绍很多,而且详细。前段时间我将HtmlParser的源码读了一篇,在此,总结下其HtmlParser的设计,跟大家交流,我们只关注是设计。 一、Filter设计 NodeFilter 是htmlParser主要的提取节点的一种方式,其结构灵活,通过组合解释器查找页面上的任一个... 阅读全文
posted @ 2010-04-27 21:42 searchDM 阅读(421) 评论(0) 推荐(0) 编辑
摘要: http://code.google.com/p/hbase-writer/What is HBase-Writer?HBase-Writer is an extension to the Heritrix open source crawler written by the Internet Archive (http://crawler.archive.org/) that enables i... 阅读全文
posted @ 2010-04-27 21:40 searchDM 阅读(335) 评论(0) 推荐(0) 编辑
摘要: HBase-Writer (http://code.google.com/p/hbase-writer/) is designed to be extensible but as it is, it can be used as a powerful web crawling tool. Out of the box, HBase-Writer is ready to write the cra... 阅读全文
posted @ 2010-04-27 21:39 searchDM 阅读(333) 评论(0) 推荐(0) 编辑
摘要: lucene .NET 搜索图片 功能实现 收藏 关于搜索部分 1想建立索引。构建jpg图片解析器,在索引时将jpg图片的exif信息及其文本信息如名称,存放路径,大小,日期等等加入索引!具体实现代码如下: public void BulidIndex(string path)//创建索引 { DateTime biStart = DateTime.Now;//创建索引开始 Directo... 阅读全文
posted @ 2010-04-27 21:37 searchDM 阅读(666) 评论(0) 推荐(0) 编辑
摘要: Solr data import 中XML/HTTP 数据源的使用参考自:http://wiki.apache.org/solr/DataImportHandler DataImportHandler可以通过datasource数据源索引来自于HTTP的数据。包括REST/XML和RSS/ATOM。 在版本1.4中,推荐使用URLDataSource。 配置示例如下: Xml代码 <da... 阅读全文
posted @ 2010-04-27 21:29 searchDM 阅读(659) 评论(0) 推荐(0) 编辑
摘要: 使用Solr Data Import的delta-import功能 Solr提供了full-import和delta-import两种导入方式,这篇文章主要讲解后者。 所谓delta-import主要是对于数据库(也可能是文件等等)中增加或者被修改的字段进行导入。主要原理是利用率每次我们进行import的时候在solr.home\conf下面生成的dataimport.properties文件,此... 阅读全文
posted @ 2010-04-27 21:28 searchDM 阅读(1131) 评论(0) 推荐(0) 编辑
摘要: 既然是RPC, 自然就有客户端和服务器,当然,org.apache.hadoop.rpc也就有了类Client和类Server。在这里我们来仔细考察 org.apache.hadoop.rpc.Client。下面的图包含了org.apache.hadoop.rpc.Client中的关键类和关键 方法。 由于Client 可能和多个Server通信,典型的一次HDFS读,需要和NameNode打交道... 阅读全文
posted @ 2010-03-20 00:44 searchDM 阅读(390) 评论(0) 推荐(0) 编辑
摘要: 为org.apache.hadoop.io.compress等的分析预留位置 介绍完org.apache.hadoop.io以后,我们开始来分析org.apache.hadoop.rpc。RPC采用客户机/服务器模式。请求程序就是一个客户机,而服务提供程序就是一个服务器。当我们讨论HDFS的,通信可能发生在: Client-NameNode之间,其中NameNode是服务器Client-DataN... 阅读全文
posted @ 2010-03-20 00:43 searchDM 阅读(577) 评论(0) 推荐(0) 编辑
上一页 1 ··· 4 5 6 7 8 9 10 11 12 ··· 22 下一页