searchDM - 博客园

2010年1月5日

摘要：  1 、下载 nutch-1.0.tar.gz. http://apache.etoak.com/lucene/nutch/ 2 、解压缩 nutch-1.0.tar.gz, 放在自己熟悉的目录下面，比如 workspace. 3 、解压完后会有一个目录： webapps. 这个目录是 hadoop 自己所对应的页面。 datanode 、 h... 阅读全文

posted @ 2010-01-05 17:54 searchDM 阅读(292) 评论(0) 推荐(0) 编辑

nutch的基本工作流程理解

摘要：一）：Nutch的工作流程： Crawdb、linkdb 是web link目录，存放url及url的互联关系，作为爬行与重新爬行的依据。 segments 是主目录，存放抓回来的网页。页面内容有bytes[]的raw content 和 parsed text的形式。nutch以广度优先的原则来爬行，因此每爬完一轮会生成一个segment目录。 index 是lucene的索引目录，是indexes目录里所有index合并后的完整索引，注意索引文件只对页面内容进行索引，没有进行存储，因此查询时要去访问segments目录才能获得页面内容。（一）：流程综述：【1】：injec... 阅读全文

posted @ 2010-01-05 15:42 searchDM 阅读(453) 评论(0) 推荐(0) 编辑

2009年10月10日

servlet中的listener

摘要：说说servlet的一些监听器，这些监听器的用于就不用我说了。比如：在很多社区网站中看到的在线用户的统计就是基于此来实现的。入正题：从作用域范围来说,Servlet的作用域有ServletContext,HttpSession,ServletRequest. Context范围: ServletContextListener: 对一个应用进行全局监听.随应用启动而启动,随应用消失而消失主要有两个方法: 1〉contextDestroyed(ServletContextEvent event) 在应用关闭的时候调用 2〉contextInitialized(ServletC... 阅读全文

posted @ 2009-10-10 19:06 searchDM 阅读(382) 评论(0) 推荐(0) 编辑

mysql 备份与还原

摘要：本文讨论 MySQL 的备份和恢复机制，以及如何维护数据表，包括最主要的两种表类型：MyISAM 和 Innodb，文中设计的 MySQL 版本为 5.0.22。目前 MySQL 支持的免费备份工具有：mysqldump、mysqlhotcopy，还可以用 SQL 语法进行备份：BACKUP TABLE 或者 SELECT INTO OUTFILE，又或者备份二进制日志（binlog），还可以是... 阅读全文

posted @ 2009-10-10 19:03 searchDM 阅读(242) 评论(1) 推荐(0) 编辑

基于apache lucene的solr站内搜索引擎搭配手记

摘要：基于apache lucene的solr站内搜索引擎搭配手记 [ 预备警员.10078 @ 2009-03-23 17:15:30 ] 由于工作关系，断断续续的测试了solr的搭建和配置的工作一周，这个企业级的全站搜索工具，应该说是专业搜索引擎的有益补充，之所以存在这样的工具，可能会是，再好的搜索引擎都很难对一个站点的所有有价值的内容进行及时有效全部的索引，并按一定的规则组织和呈现给调用者。 1. 初尝试lucene，lucene在apache的站点可以下载到： http://lucene.apache.org/ 下载到一个最近的包之后，解压，里面带着的一个example，可以很容易的... 阅读全文

posted @ 2009-10-10 18:57 searchDM 阅读(937) 评论(0) 推荐(0) 编辑

基于apache lucene的solr站内搜索引擎搭配手记之2

摘要：基于apache lucene的solr站内搜索引擎搭配手记之2 [ 预备警员.10078 @ 2009-03-23 17:16:37 ] 2.2.2 为solr找个home目录，如果将solr作为web一个子目录，我自己觉得不妥，于是就创建了一个solr的home目录： shell>mkdir -p /opt/bin/solr shell>mkdir -p /opt/webroot/solr 通过对get started的阅读，我发现solr不单单是做一个页面供查询就可以了，后续的会有搜索数据的存储维护和管理，所以在这里，单独成项就是为了相对独立于WEB Serv... 阅读全文

posted @ 2009-10-10 18:56 searchDM 阅读(538) 评论(0) 推荐(0) 编辑

2009年10月8日

19种有效的网站推广方法

摘要：网站的推广要随着互联网格局的变化而变化，不能死守着老一套，无论是传统的网站优化、友情链接、论坛博客等推广方式，还是新兴的SNS、游戏、回帖置顶等推广方式，都要一一去尝试总结，才能收到最好的效果。　　1、SNS网站软文推广法　　现在SNS类型的网站非常流行，老牌的校内，开心这些网站都囤积了非常多的用户。去SNS网站主要是去几个有人气的SNS网站有针对性的加几百上千个用户。然后选择合适的软文... 阅读全文

posted @ 2009-10-08 19:32 searchDM 阅读(521) 评论(0) 推荐(0) 编辑

Lucene.Net进行多字段搜索

摘要： Lucene.Net进行多字段搜索Lucene.Net进行多字段搜索的关键代码：Lucene.Net.Search.IndexSearcher iSearcher = new Lucene.Net.Search.IndexSearcher(path); //多字段进行搜索 string[] fields = { "Title", "KeyWords", "Content" }; Lucene.Net.QueryParsers.QueryParser qp = new Lucene.Net.QueryParsers.MultiField 阅读全文

posted @ 2009-10-08 19:25 searchDM 阅读(467) 评论(0) 推荐(0) 编辑

浏览器20年图说简史

摘要：这是 Six Revisions 制作的一幅浏览器近20年来的发展简史图，从最早的 WorldWideWeb Browser 到现在最新的 Google Chrome，期间包含了 Mosaic， Netscape， IE， Opera， Mozilla， Safari， Firefox。'600')this.width='600';"1991年，WorldWideWeb 浏览器发布这款由 Web... 阅读全文

posted @ 2009-10-08 19:06 searchDM 阅读(179) 评论(0) 推荐(0) 编辑

Lucene.net索引合并

摘要： Lucene.net索引合并 Lucene.Net.Store.Directory directory1 = FSDirectory.GetDirectory("e:""Index1", false);Lucene.Net.Store.Directory directory2 = FSDirectory.GetDirectory("e:""Index2", false); IndexWriter writer = new IndexWriter(directory1, new ChineseAnalyzer(), 阅读全文

posted @ 2009-10-08 19:03 searchDM 阅读(280) 评论(0) 推荐(0) 编辑

wycg1984

公告