图书 - 随笔分类 - 麦克煎蛋

豆瓣图书接口API

摘要：所有数据均来源于豆瓣图书，数据量并不完整，仅供学习爬虫对照结果使用，大概每天新增几百条。接口地址： http://api.xiaomafeixiang.com/api/bookinfo?isbn=9787544270878 把上述示例中的"9787544270878"替换为实际需要查询图书的isb 阅读全文

posted @ 2020-04-08 10:55 麦克煎蛋阅读(6984) 评论(1) 推荐(0)

爬虫方面的进展

摘要：经过几个月的摸索、实践、调试，对Scrapy的使用掌握的比较熟练了。并且结合Selenium的使用，目前已经完成了当当图书数据的抓取，大概260多万条吧，并且每隔几天会自动抓取新增图书数据。这几个月无论对于Scrapy还是Selenium的使用，都有了不少的收获。美中不足的是当当的数据比较杂乱，阅读全文

posted @ 2019-09-25 08:49 麦克煎蛋阅读(175) 评论(0) 推荐(0)

图书信息库完整解决方案（七）补充说明

摘要：1、当当的数据远远比豆瓣的数据丰富，所以图书基础数据应该以当当的为基准，豆瓣的为完善补充。 2、当当每个分类下只能获取前100页数据，100之后的数据无法用技术手段进行抓取。 3、无法抓取到的当当数据，当有需要的时候可以模拟当当的搜索接口，然后从搜索结果中分析对应的图书数据。 4、第一次抓取当当的全阅读全文

posted @ 2018-08-13 15:42 麦克煎蛋阅读(228) 评论(0) 推荐(0)

图书信息库完整解决方案（六）豆瓣接口

摘要：为了综合当当和豆瓣的图书详情数据，这里在图书信息从当当抓取成功后，根据isbn信息再从豆瓣获取一次图书详情数据。相关豆瓣图书的接口地址为： https://developers.douban.com/wiki/?title=book_v2#get_isbn_book 然后将豆瓣与当当的图书详情进行阅读全文

posted @ 2018-08-13 15:33 麦克煎蛋阅读(1475) 评论(0) 推荐(0)

图书信息库完整解决方案（五）网络代理

摘要：频繁的爬取网站数据，很容易导致ip被封锁，所以在具体爬取网页的过程中一定要使用代理ip。代理ip的来源一般就两种： 1、免费代理ip（可自行搜索，一般免费ip的质量不会太高，并且时好时坏，有很多根本无法使用）。 2、付费代理ip（有不少网站提供收费的代理ip，质量高并且访问速度稳定）。我在这里采阅读全文

posted @ 2018-08-13 15:26 麦克煎蛋阅读(249) 评论(0) 推荐(0)

图书信息库完整解决方案（四）解析图书详情

摘要：详情页面涉及到图书的标题、出版社、作者、摘要等等具体信息，所以是整个网页解析中的难点，也是核心数据部分。首先找到涉及到的一级节点：然后找到需要的二级节点：接下来就可以进行具体解析了，以图片节点为例：基础信息的节点查找方式如下：这样基础信息的各个节点基本就找到了，接下来模仿图片节点的解析方式阅读全文

posted @ 2018-08-13 15:11 麦克煎蛋阅读(302) 评论(0) 推荐(0)

图书信息库完整解决方案（三）解析图书分类

摘要：经过综合对比分析（此处省略几千字），最终选定了HtmlUnit作为网页解析的工具。通过maven来引入HtmlUnit资源包： <groupId>net.sourceforge.htmlunit</groupId> <artifactId>htmlunit</artifactId> <versio 阅读全文

posted @ 2018-08-13 14:55 麦克煎蛋阅读(660) 评论(0) 推荐(0)

图书信息库完整解决方案（二）方案设计

摘要：面临的第一个问题是图书数据源从哪来，调研了一圈大概是以下几种方式： 1、当当或京东的官方图书api（查了一圈一无所获，收费或免费的都没找到） 2、豆瓣图书 https://developers.douban.com/wiki/?title=book_v2 豆瓣的主要问题一个是访问次数有限制，另一个是阅读全文

posted @ 2018-07-09 11:12 麦克煎蛋阅读(513) 评论(0) 推荐(0)

图书信息库完整解决方案（一）概述

摘要：去年因为忙一个图书漂流的项目，大概花了三个月的时间，完成了图书信息库的建立。截止目前为止，已经收录了200多万条的图书数据，并且每周还在自动更新中，打算将这个项目完整的整理出来，算阶段性工作的一个总结吧。方案主要功能如下： 1、实现了按照当当图书分类，抓取每个分类下前100页图书数据的功能。阅读全文

posted @ 2018-07-09 10:48 麦克煎蛋阅读(459) 评论(0) 推荐(0)

随笔分类 - 图书