2016 年 11月 27 日随笔档案 - 王起帆

2016年11月27日

摘要：由于当当网上的图书信息很丰富，全部抓取下来工作量很大。只抓取其中的一类在Main()方法里面首先用户输入种子URL 构建数据库上下文对象获取图书类的URL 使用多线程爬取图书信息每个图书种类都开一个线程来爬取图书信息封装一个process类接下来要在这个类实现爬取图书信息实现翻页图书阅读全文

posted @ 2016-11-27 14:45 王起帆阅读(702) 评论(0) 推荐(3) 编辑

爬取当当网的图书信息之封装一个工具类

摘要：把这个类名取为Tool 封装一个下载网页的方法GetHtml 查看网页的源代码图书类名就在这里接着我们使用正则把它抓取到接下来我们要抓取每个图书类别共有多少页处理好BookClass接下来处理Book了获取图书详细页面的URL 封装一个方法，待爬虫获取图书详细页来抓取图书信息以如何抓取价阅读全文

posted @ 2016-11-27 12:03 王起帆阅读(822) 评论(0) 推荐(3) 编辑

爬取当当网的图书信息之实体设计

摘要：首先新建一个控制台应用程序WebSpider 这里我选用控制台应用程序，使用控制台非常简单，为了方便监控把抓取到的一些信息给打印出来。实体设计 BookClass Book 这两个实体是一对多的关系，一个BookClass有很多的Book,一个Book只有一个BookClass 安装Entity 阅读全文

posted @ 2016-11-27 11:36 王起帆阅读(513) 评论(0) 推荐(3) 编辑

爬取当当网的图书信息之工作流程介绍

摘要：前往http://book.dangdang.com/我们可以看到当当网上面的图书种类非常丰富我们是计算机类图书为例子，那么计算机类图书页面的URL http://book.dangdang.com/01.54.htm?ref=book-01-A是我们的种子URL 当我们进入这个页面可以看到很多计阅读全文

posted @ 2016-11-27 00:54 王起帆阅读(802) 评论(0) 推荐(3) 编辑

爬取当当网的图书信息之导读

摘要：什么是爬虫爬虫是用来抓取互联网上信息的程序。程序员可以利用爬虫来干很多事，有些挺酷炫，这里贴出知乎相关问题的网址https://www.zhihu.com/question/29372574 爬虫的工作流程主要的分三步走，第一步把网页下载下来，第二步抽取认为有用的信息，第三步将相关信息保存下来。阅读全文

posted @ 2016-11-27 00:10 王起帆阅读(917) 评论(0) 推荐(3) 编辑

王起帆

公告