eagleGeek - 博客园

2014年5月23日

摘要：部分内容参考《这就是搜索引擎》通用搜索引擎的处理对象是互联网网页，目前网页数量以百亿计，搜索引擎的网络爬虫能够高效地将海量的网页数据传下载到本地，在本地形成互联网网页的镜像备份。它是搜索引擎系统中很关键也很基础的构件。（一）网络爬虫本质就是浏览器http请求浏览器和网络爬虫是两种不同的网络客户端，... 阅读全文

posted @ 2014-05-23 14:44 eagleGeek 阅读(249) 评论(0) 推荐(0) 编辑

【搜索引擎Jediael开发笔记1】搜索引擎初步介绍及网络爬虫

摘要：详细可参考（1）书箱：《这就是搜索引擎》《自己动手写网络爬虫》《解密搜索引擎打桩实践》（2）【搜索引擎基础知识1】搜索引擎的技术架构（3）【搜索引擎基础知识2】网络爬虫的介绍（一）搜索引擎的开发一般可分为以下三大部分1、数据采集层：一般使用爬虫获取互联网的数据，重要的开源项目有Heritrxi2、数... 阅读全文

posted @ 2014-05-23 14:07 eagleGeek 阅读(188) 评论(0) 推荐(0) 编辑

【搜索引擎基础知识3】搜索引擎相关开源项目及网站

摘要：部分内容转自：http://blog.csdn.net/hguisu/article/details/8024799一、开源项目apache lucene是apache下一个著名的开源搜索引擎内核，基于Java技术，处理索引，拼写检查，点击高亮和其他分析，分词等技术。nutch和solr原来都是l... 阅读全文

posted @ 2014-05-23 11:44 eagleGeek 阅读(273) 评论(0) 推荐(0) 编辑

2014年5月22日

HtmlParser基础教程

摘要： 1、相关资料官方文档：http://htmlparser.sourceforge.net/samples.htmlAPI：http://htmlparser.sourceforge.net/javadoc/index.html其它HTML 解释器：jsoup等。由于HtmlParser自2006年以... 阅读全文

posted @ 2014-05-22 11:33 eagleGeek 阅读(183) 评论(0) 推荐(0) 编辑

2014年5月21日

【搜索引擎Jediael开发4】V0.01完整代码

摘要：截止目前，已完成如下功能：1、指定某个地址，使用HttpClient下载该网页至本地文件2、使用HtmlParser解释第1步下载的网页，抽取其中包含的链接信息3、下载第2步的所有链接指向的网页至本地文件下一步需要完成的功能：1、创建用于保存种子URL的配置文件及其数据结构2、创建用于保存Todo信... 阅读全文

posted @ 2014-05-21 21:35 eagleGeek 阅读(175) 评论(0) 推荐(0) 编辑

学习金字塔

摘要：学习金字塔是美国缅因州的国家训练实验室研究成果，它用数字形式形象显示了：采用不同的学习方式，学习者在两周以后还能记住内容（平均学习保持率）的多少。它是一种现代学习方式的理论。最早它是由美国学者、著名的学习专家爱德加·戴尔1946年首先发现并提出的。内容编辑在塔尖，第一种学习方式——“听讲”，也就是老... 阅读全文

posted @ 2014-05-21 09:25 eagleGeek 阅读(229) 评论(0) 推荐(0) 编辑

2014年5月20日

【搜索引擎Jediael开发笔记3】使用HtmlParser提取网页中的链接

摘要：关于HtmpParser的基本内容请见 HtmlParser基础教程本文示例用于提取HTML文件中的链接package org.ljh.search.html;import java.util.HashSet;import java.util.Set;import org.htmlparser.No... 阅读全文

posted @ 2014-05-20 20:50 eagleGeek 阅读(223) 评论(0) 推荐(0) 编辑

2014年5月19日

Java解析HTML之HTMLParser使用与详解

摘要：转自：http://free0007.iteye.com/blog/1131163HTMLParser具有小巧，快速的优点，缺点是相关文档比较少（英文的也少），很多功能需要自己摸索。对于初学者还是要费一些功夫的，而一旦上手以后，会发现HTMLParser的结构设计很巧妙，非常实用，基本你的各种需求都... 阅读全文

posted @ 2014-05-19 21:46 eagleGeek 阅读(1819) 评论(0) 推荐(0) 编辑

【搜索引擎Jediael开发笔记2】使用HttpClient下载网页至本地文件

摘要：本文使用HttpClient根据url进行网页下载。其中（1）HttpClient的相关知识请参见 HttpClient基础教程（2）package org.ljh.search.downloadpage;import java.io.FileNotFoundException;import jav... 阅读全文

posted @ 2014-05-19 15:07 eagleGeek 阅读(158) 评论(0) 推荐(0) 编辑

2014年5月18日

HttpClient基础教程

摘要： 1、HttpClient相关的重要资料官方网站：http://hc.apache.org/API：http://hc.apache.org/httpcomponents-client-4.3.x/httpclient/apidocs/index.htmltutorial:http://hc.apac... 阅读全文

posted @ 2014-05-18 23:23 eagleGeek 阅读(208) 评论(0) 推荐(0) 编辑

公告