豆瓣图书接口API
摘要:所有数据均来源于豆瓣图书,数据量并不完整,仅供学习爬虫对照结果使用,大概每天新增几百条。 接口地址: http://api.xiaomafeixiang.com/api/bookinfo?isbn=9787544270878 把上述示例中的"9787544270878"替换为实际需要查询图书的isb
阅读全文
posted @
2020-04-08 10:55
麦克煎蛋
阅读(6894)
推荐(0) 编辑
爬虫方面的进展
摘要:经过几个月的摸索、实践、调试,对Scrapy的使用掌握的比较熟练了。并且结合Selenium的使用,目前已经完成了当当图书数据的抓取,大概260多万条吧,并且每隔几天会自动抓取新增图书数据。 这几个月无论对于Scrapy还是Selenium的使用,都有了不少的收获。 美中不足的是当当的数据比较杂乱,
阅读全文
posted @
2019-09-25 08:49
麦克煎蛋
阅读(174)
推荐(0) 编辑
图书信息库完整解决方案(七)补充说明
摘要:1、当当的数据远远比豆瓣的数据丰富,所以图书基础数据应该以当当的为基准,豆瓣的为完善补充。 2、当当每个分类下只能获取前100页数据,100之后的数据无法用技术手段进行抓取。 3、无法抓取到的当当数据,当有需要的时候可以模拟当当的搜索接口,然后从搜索结果中分析对应的图书数据。 4、第一次抓取当当的全
阅读全文
posted @
2018-08-13 15:42
麦克煎蛋
阅读(226)
推荐(0) 编辑
图书信息库完整解决方案(六)豆瓣接口
摘要:为了综合当当和豆瓣的图书详情数据,这里在图书信息从当当抓取成功后,根据isbn信息再从豆瓣获取一次图书详情数据。 相关豆瓣图书的接口地址为: https://developers.douban.com/wiki/?title=book_v2#get_isbn_book 然后将豆瓣与当当的图书详情进行
阅读全文
posted @
2018-08-13 15:33
麦克煎蛋
阅读(1461)
推荐(0) 编辑
图书信息库完整解决方案(五)网络代理
摘要:频繁的爬取网站数据,很容易导致ip被封锁,所以在具体爬取网页的过程中一定要使用代理ip。 代理ip的来源一般就两种: 1、免费代理ip(可自行搜索,一般免费ip的质量不会太高,并且时好时坏,有很多根本无法使用)。 2、付费代理ip(有不少网站提供收费的代理ip,质量高并且访问速度稳定)。 我在这里采
阅读全文
posted @
2018-08-13 15:26
麦克煎蛋
阅读(247)
推荐(0) 编辑
图书信息库完整解决方案(四)解析图书详情
摘要:详情页面涉及到图书的标题、出版社、作者、摘要等等具体信息,所以是整个网页解析中的难点,也是核心数据部分。 首先找到涉及到的一级节点: 然后找到需要的二级节点: 接下来就可以进行具体解析了,以图片节点为例: 基础信息的节点查找方式如下: 这样基础信息的各个节点基本就找到了,接下来模仿图片节点的解析方式
阅读全文
posted @
2018-08-13 15:11
麦克煎蛋
阅读(300)
推荐(0) 编辑
图书信息库完整解决方案(三)解析图书分类
摘要:经过综合对比分析(此处省略几千字),最终选定了HtmlUnit作为网页解析的工具。 通过maven来引入HtmlUnit资源包: <groupId>net.sourceforge.htmlunit</groupId> <artifactId>htmlunit</artifactId> <versio
阅读全文
posted @
2018-08-13 14:55
麦克煎蛋
阅读(624)
推荐(0) 编辑
图书信息库完整解决方案(二)方案设计
摘要:面临的第一个问题是图书数据源从哪来,调研了一圈大概是以下几种方式: 1、当当或京东的官方图书api(查了一圈一无所获,收费或免费的都没找到) 2、豆瓣图书 https://developers.douban.com/wiki/?title=book_v2 豆瓣的主要问题一个是访问次数有限制,另一个是
阅读全文
posted @
2018-07-09 11:12
麦克煎蛋
阅读(507)
推荐(0) 编辑
图书信息库完整解决方案(一)概述
摘要:去年因为忙一个图书漂流的项目,大概花了三个月的时间,完成了图书信息库的建立。 截止目前为止,已经收录了200多万条的图书数据,并且每周还在自动更新中,打算将这个项目完整的整理出来,算阶段性工作的一个总结吧。 方案主要功能如下: 1、实现了按照当当图书分类, 抓取每个分类下前100页图书数据的功能。
阅读全文
posted @
2018-07-09 10:48
麦克煎蛋
阅读(447)
推荐(0) 编辑