2014 年 5月 23 日随笔档案 - eagleGeek

2014年5月23日

摘要：（一）搜索引擎的开发一般可分为以下三大部分1、数据采集层：一般使用爬虫获取互联网的数据，重要的开源项目有Heritrxi2、数据分析处理层：将从互联网上获取到的数据进行提取归类、分词、语义分析得出索引得内容，等待用户查询使用，重要的开源项目有Lucene3、视图层：也用户的交互界面，如一个网站的首页... 阅读全文

posted @ 2014-05-23 16:00 eagleGeek 阅读(339) 评论(0) 推荐(0) 编辑

【搜索引擎基础知识2】网络爬虫

摘要：部分内容参考《这就是搜索引擎》通用搜索引擎的处理对象是互联网网页，目前网页数量以百亿计，搜索引擎的网络爬虫能够高效地将海量的网页数据传下载到本地，在本地形成互联网网页的镜像备份。它是搜索引擎系统中很关键也很基础的构件。（一）网络爬虫本质就是浏览器http请求浏览器和网络爬虫是两种不同的网络客户端，... 阅读全文

posted @ 2014-05-23 14:44 eagleGeek 阅读(249) 评论(0) 推荐(0) 编辑

【搜索引擎Jediael开发笔记1】搜索引擎初步介绍及网络爬虫

摘要：详细可参考（1）书箱：《这就是搜索引擎》《自己动手写网络爬虫》《解密搜索引擎打桩实践》（2）【搜索引擎基础知识1】搜索引擎的技术架构（3）【搜索引擎基础知识2】网络爬虫的介绍（一）搜索引擎的开发一般可分为以下三大部分1、数据采集层：一般使用爬虫获取互联网的数据，重要的开源项目有Heritrxi2、数... 阅读全文

posted @ 2014-05-23 14:07 eagleGeek 阅读(188) 评论(0) 推荐(0) 编辑

【搜索引擎基础知识3】搜索引擎相关开源项目及网站

摘要：部分内容转自：http://blog.csdn.net/hguisu/article/details/8024799一、开源项目apache lucene是apache下一个著名的开源搜索引擎内核，基于Java技术，处理索引，拼写检查，点击高亮和其他分析，分词等技术。nutch和solr原来都是l... 阅读全文

posted @ 2014-05-23 11:44 eagleGeek 阅读(273) 评论(0) 推荐(0) 编辑

公告