2012年11月5日

写一个自己的搜索引擎(1)

摘要: 本人大三学生一枚,最近突发奇想,想写一个搜索引擎。git地址:git@github.com:liuxiaohao/cqusearch.git先从爬虫开始写吧。初步决定使用java+mysql完成。初步完成数据库设计完成hibernate配置。完成页面的抓取,这里借助了java的htmlparser工具。完成 宽度优先的抓取网页界面,url表储存在java的hashset里面(便于查找)。开始网页正文提取,依旧借助htmlparser。网页正文提取有进展,开始完成爬虫的多线程。多线程完成,开始尝试线程池。 阅读全文

posted @ 2012-11-05 17:38 宝宝乖 阅读(270) 评论(0) 推荐(0) 编辑

导航