2018年8月13日
摘要: 1、当当的数据远远比豆瓣的数据丰富,所以图书基础数据应该以当当的为基准,豆瓣的为完善补充。 2、当当每个分类下只能获取前100页数据,100之后的数据无法用技术手段进行抓取。 3、无法抓取到的当当数据,当有需要的时候可以模拟当当的搜索接口,然后从搜索结果中分析对应的图书数据。 4、第一次抓取当当的全 阅读全文
posted @ 2018-08-13 15:42 麦克煎蛋 阅读(223) 评论(0) 推荐(0) 编辑
摘要: 为了综合当当和豆瓣的图书详情数据,这里在图书信息从当当抓取成功后,根据isbn信息再从豆瓣获取一次图书详情数据。 相关豆瓣图书的接口地址为: https://developers.douban.com/wiki/?title=book_v2#get_isbn_book 然后将豆瓣与当当的图书详情进行 阅读全文
posted @ 2018-08-13 15:33 麦克煎蛋 阅读(1435) 评论(0) 推荐(0) 编辑
摘要: 频繁的爬取网站数据,很容易导致ip被封锁,所以在具体爬取网页的过程中一定要使用代理ip。 代理ip的来源一般就两种: 1、免费代理ip(可自行搜索,一般免费ip的质量不会太高,并且时好时坏,有很多根本无法使用)。 2、付费代理ip(有不少网站提供收费的代理ip,质量高并且访问速度稳定)。 我在这里采 阅读全文
posted @ 2018-08-13 15:26 麦克煎蛋 阅读(247) 评论(0) 推荐(0) 编辑
摘要: 详情页面涉及到图书的标题、出版社、作者、摘要等等具体信息,所以是整个网页解析中的难点,也是核心数据部分。 首先找到涉及到的一级节点: 然后找到需要的二级节点: 接下来就可以进行具体解析了,以图片节点为例: 基础信息的节点查找方式如下: 这样基础信息的各个节点基本就找到了,接下来模仿图片节点的解析方式 阅读全文
posted @ 2018-08-13 15:11 麦克煎蛋 阅读(295) 评论(0) 推荐(0) 编辑
摘要: 经过综合对比分析(此处省略几千字),最终选定了HtmlUnit作为网页解析的工具。 通过maven来引入HtmlUnit资源包: <groupId>net.sourceforge.htmlunit</groupId> <artifactId>htmlunit</artifactId> <versio 阅读全文
posted @ 2018-08-13 14:55 麦克煎蛋 阅读(603) 评论(0) 推荐(0) 编辑
摘要: 一、源代码编译 这里要为仅支持 CPU 的 TensorFlow 构建一个 pip 软件包,需要调用以下命令: $ bazel build --cxxopt="-D_GLIBCXX_USE_CXX11_ABI=0" --config=opt --verbose_failures //tensorfl 阅读全文
posted @ 2018-08-13 11:24 麦克煎蛋 阅读(1137) 评论(0) 推荐(1) 编辑
摘要: 源代码树的根目录中包含了一个名为 configure 的 bash 脚本。 $ ./configure 接下来,配置系统会给出各种询问,以确认编译时的配置参数。 一、重要参数解释 Do you wish to build TensorFlow with jemalloc as malloc supp 阅读全文
posted @ 2018-08-13 11:23 麦克煎蛋 阅读(768) 评论(0) 推荐(0) 编辑
摘要: 参考: https://blog.csdn.net/yhily2008/article/details/79967118 https://tensorflow.google.cn/install/install_sources https://docs.python-guide.org/starti 阅读全文
posted @ 2018-08-13 11:21 麦克煎蛋 阅读(702) 评论(0) 推荐(1) 编辑
摘要: 这里要为仅支持 CPU 的 TensorFlow 构建一个 pip 软件包,需要调用以下命令: $ bazel build --cxxopt="-D_GLIBCXX_USE_CXX11_ABI=0" --config=opt --verbose_failures //tensorflow/tools 阅读全文
posted @ 2018-08-13 11:19 麦克煎蛋 阅读(1808) 评论(0) 推荐(0) 编辑
摘要: 源代码树的根目录中包含了一个名为 configure 的 bash 脚本。 $ ./configure 接下来,配置系统会给出各种询问,以确认编译时的配置参数。 一、重要参数解释 Please specify the location of python. [Default is /usr/bin/ 阅读全文
posted @ 2018-08-13 11:18 麦克煎蛋 阅读(4519) 评论(0) 推荐(1) 编辑
摘要: 参考: https://blog.csdn.net/yhily2008/article/details/79967118 https://tensorflow.google.cn/install/install_sources 代码获取: $ git clone https://github.com 阅读全文
posted @ 2018-08-13 11:14 麦克煎蛋 阅读(2023) 评论(0) 推荐(0) 编辑