摘要: (一)搜索引擎的开发一般可分为以下三大部分1、数据采集层:一般使用爬虫获取互联网的数据,重要的开源项目有Heritrxi2、数据分析处理层:将从互联网上获取到的数据进行提取归类、分词、语义分析得出索引得内容,等待用户查询使用,重要的开源项目有Lucene3、视图层:也用户的交互界面,如一个网站的首页其基本架构可参考下图:版权声明:本文为博主原创文章,未经博主允许不得转载。 阅读全文
posted @ 2014-05-23 16:00 lujinhong2 阅读(122) 评论(0) 推荐(0) 编辑
摘要: 部分内容参考《这就是搜索引擎》通用搜索引擎的处理对象是互联网网页,目前网页数量以百亿计,搜索引擎的网络爬虫能够高效地将海量的网页数据传下载到本地,在本地 形成互联网网页的镜像备份。它是搜索引擎系统中很关键也很基础的构件。(一)网络爬虫本质就是浏览器http请求浏览器和网络爬虫是两种不同的网络客户端,都以相同的方式来获取网页: 1、首先, 客户端程序连接到域名系统(DNS)服务器上,D... 阅读全文
posted @ 2014-05-23 14:44 lujinhong2 阅读(132) 评论(0) 推荐(0) 编辑
摘要: 详细可参考(1)书箱:《这就是搜索引擎》《自己动手写网络爬虫》《解密搜索引擎打桩实践》(2)【搜索引擎基础知识1】搜索引擎的技术架构(3)【搜索引擎基础知识2】网络爬虫的介绍(一)搜索引擎的开发一般可分为以下三大部分1、数据采集层:一般使用爬虫获取互联网的数据,重要的开源项目有Heritrxi2、数据分析处理层:将从互联网上获取到的数据进行提取归类、分词、语义分析得出索引得内容,等待用户查询... 阅读全文
posted @ 2014-05-23 14:07 lujinhong2 阅读(165) 评论(0) 推荐(0) 编辑
摘要: 部分内容转自:http://blog.csdn.net/hguisu/article/details/8024799一、 开源项目apache lucene是apache下一个著名的开源搜索引擎内核,基于Java技术,处理索引,拼写检查,点击高亮和其他分析,分词等技术。nutch和solr原来都是l... 阅读全文
posted @ 2014-05-23 11:44 lujinhong2 阅读(172) 评论(0) 推荐(0) 编辑