自己动手写搜索引擎(常搜吧项目展示)(Java、Lucene、hadoop)

学习了两星期的Lucene,对它的基础知识有了一定的掌握,并开发了自己的常搜吧项目。下面展示下我的项目,其实用到的都是很Lucene中很基础的知识,以及第三方工具,例如XPDF,Htmlparser,paoding分词器 .etc 。


本项目采用Struts2 + Mybatis + spring框架搭建,数据库用的Oracle。(博主只是到了灵活应用的程度,对于源码还是小白)。前端采用了国外的开源框架(Bootstrap)非常的强大和美观。为了良好的资源,搜图片部分利用了Flickr的API完成。


项目完成后的感受是:对于学习Java的朋友,希望大家能够快速学习,坚持学习。先学到混饭的水平,然后慢慢再深入吧。总之:保持一直在学习的态度就好。


1、主页面:(简单、漂亮、o(∩_∩)o )


2、搜文档(支持pdf和word,Pdf格式利用了Xpdf转换txt、Word采用POI解析)


3、搜索CSDN(利用了heritrix网络爬虫爬取CSDN全站,然后递归文件利用Htmlparser解析建立索引)


4、搜MP3(主要利用了jquery,以及HTML5里的<audio>标签,兼容性比较差,考虑只是练习,不再去完善,兼容Firefox、chrom .etc)


5、搜图片(利用Flickr的官方API借口,比较容易实现)


6、管理员界面(同样是利用国外的Bootstrap框架的第三方Demo改写)


7、音乐功能管理页面


后来想想,其实实现这些功能,完全用不到数据库的 。 流程就是 :资源 - 解析 - 分词 - 索引 - 检索 。

对于Lucene的学习先到此为止,Java编程真的很庞大,希望以后能够深入学习,理解源码才是真正的大神。


计划只对lucene有所了解,目地是为了学习hadoop,为自己加油 ~


 

posted @ 2013-04-06 17:31  xinyuyuanm  阅读(407)  评论(0编辑  收藏  举报