Lucene 个人领悟（一）

在上学的时候就对搜索有着极大地兴趣，图书馆也借了好多的书看过，也用过Python写过爬虫。

有好多人在初步学习Lucene的时候都以为他是一个搜索引擎，或者搜索工具。

在此我要特别强调一下，Lucene绝对不是一个搜索引擎或者是搜索工具，他就是一个jar包（一系列），一个工具，一个API，而且他是一个检索工具，也不是搜索工具。

所谓搜索引擎，比如：百度，搜狗，猎兔，恕我愚昧只知道国内的。这才是搜索引擎，搜索引擎，大概（非常宏观的哦）分为两部分：

1、爬虫。也是非常重要的一部分，需要对互联网上的信息非常全面的下载到本地服务器，比如百度服务器，那数据量真的就海了去了，用爬虫爬遍互联网的每一个角落，每一个页面，将内容下载到服务器本地。

2、检索。这才是我们Lucene需要干的活，下载到本地之后，我们就需要类似Lucene将海量的数据进行扫描、分词，根据一定的分词规则，建立索引，然后，有需要搜索的时候再去本地索引检索。

当然啊，百度那肯定是一个非常复杂的系统，比如爬虫什么时候爬？怎么爬？怎么做到实时更新？爬到的信息权重怎么算？索引按照什么区分词？等等等等。都是非常复杂的，我肯定不知道，这里只是作为一个引子，引出我们需要讨论的Lucene。

还有一个问题就是，Lucene.nutch.solr.这三个东西经常一起出现，而且特别容易搞混，刚开始的时候我就比较混。

所以，我也想写一下，全篇都是个人理解啊，有问题请您一定指出来（虽然也不一定有人看，手动尴尬。。。自娱自乐。。。）

Lucene，正如前文所说，是一个工具！工具！工具！重要的事情说三遍，他就是一个API，没有什么复杂的应用。但是nutch,solr都是从Lucene开发出来的，或者说进一步封装了一些应用在里面。

solr 在Lucene的基础上封装了一些功能，或者你就可以理解成为，有人基于Lucene这个jar包开发出来了一个可用的web工程，有页面，有接口，有一些高亮了其他功能。（暴龙兽进化）

nutch 这个就叼了，这是完全的一个搜索引擎，你可以叫做“小百度”，搜索引擎的很多功能基本都有了，爬虫，我们刚说的，对不对，索引，分词，查询对不对，都有了。搞懂了之后你就可以自己搭一个搜索引擎了，叼不。呵呵。（暴龙兽超进化）

究极进化，我也不知道在哪。

这几天太闲了，继续研究，具体怎么玩儿，明天再写吧，一会儿三篇好嘞呀，浪一会儿可以回家了。

posted @ 2017-06-07 17:28 每天进步一丶阅读(1351) 评论(0) 编辑收藏举报

刷新页面返回顶部

每天进步一丶