Fork me on GitHub
摘要: 由于当当网上的图书信息很丰富,全部抓取下来工作量很大。只抓取其中的一类 在Main()方法里面 首先用户输入种子URL 构建数据库上下文对象 获取图书类的URL 使用多线程爬取图书信息 每个图书种类都开一个线程来爬取图书信息 封装一个process类 接下来要在这个类实现爬取图书信息 实现翻页 图书 阅读全文
posted @ 2016-11-27 14:45 王起帆 阅读(702) 评论(0) 推荐(3) 编辑
摘要: 把这个类名取为Tool 封装一个下载网页的方法GetHtml 查看网页的源代码 图书类名就在这里 接着我们使用正则把它抓取到 接下来我们要抓取每个图书类别共有多少页 处理好BookClass接下来处理Book了 获取图书详细页面的URL 封装一个方法,待爬虫获取图书详细页来抓取图书信息 以如何抓取价 阅读全文
posted @ 2016-11-27 12:03 王起帆 阅读(822) 评论(0) 推荐(3) 编辑
摘要: 首先新建一个控制台应用程序WebSpider 这里我选用控制台应用程序,使用控制台非常简单,为了方便监控把抓取到的一些信息给打印出来。 实体设计 BookClass Book 这两个实体是一对多的关系,一个BookClass有很多的Book,一个Book只有一个BookClass 安装Entity 阅读全文
posted @ 2016-11-27 11:36 王起帆 阅读(513) 评论(0) 推荐(3) 编辑
摘要: 前往http://book.dangdang.com/我们可以看到当当网上面的图书种类非常丰富 我们是计算机类图书为例子,那么计算机类图书页面的URL http://book.dangdang.com/01.54.htm?ref=book-01-A是我们的种子URL 当我们进入这个页面可以看到很多计 阅读全文
posted @ 2016-11-27 00:54 王起帆 阅读(802) 评论(0) 推荐(3) 编辑
摘要: 什么是爬虫 爬虫是用来抓取互联网上信息的程序。程序员可以利用爬虫来干很多事,有些挺酷炫,这里贴出知乎相关问题的网址https://www.zhihu.com/question/29372574 爬虫的工作流程 主要的分三步走,第一步把网页下载下来,第二步抽取认为有用的信息,第三步将相关信息保存下来。 阅读全文
posted @ 2016-11-27 00:10 王起帆 阅读(917) 评论(0) 推荐(3) 编辑