2018 年 8月 13 日随笔档案 - 麦克煎蛋

2018年8月13日

摘要： 1、当当的数据远远比豆瓣的数据丰富，所以图书基础数据应该以当当的为基准，豆瓣的为完善补充。 2、当当每个分类下只能获取前100页数据，100之后的数据无法用技术手段进行抓取。 3、无法抓取到的当当数据，当有需要的时候可以模拟当当的搜索接口，然后从搜索结果中分析对应的图书数据。 4、第一次抓取当当的全阅读全文

posted @ 2018-08-13 15:42 麦克煎蛋阅读(223) 评论(0) 推荐(0) 编辑

图书信息库完整解决方案（六）豆瓣接口

摘要：为了综合当当和豆瓣的图书详情数据，这里在图书信息从当当抓取成功后，根据isbn信息再从豆瓣获取一次图书详情数据。相关豆瓣图书的接口地址为： https://developers.douban.com/wiki/?title=book_v2#get_isbn_book 然后将豆瓣与当当的图书详情进行阅读全文

posted @ 2018-08-13 15:33 麦克煎蛋阅读(1443) 评论(0) 推荐(0) 编辑

图书信息库完整解决方案（五）网络代理

摘要：频繁的爬取网站数据，很容易导致ip被封锁，所以在具体爬取网页的过程中一定要使用代理ip。代理ip的来源一般就两种： 1、免费代理ip（可自行搜索，一般免费ip的质量不会太高，并且时好时坏，有很多根本无法使用）。 2、付费代理ip（有不少网站提供收费的代理ip，质量高并且访问速度稳定）。我在这里采阅读全文

posted @ 2018-08-13 15:26 麦克煎蛋阅读(247) 评论(0) 推荐(0) 编辑

图书信息库完整解决方案（四）解析图书详情

摘要：详情页面涉及到图书的标题、出版社、作者、摘要等等具体信息，所以是整个网页解析中的难点，也是核心数据部分。首先找到涉及到的一级节点：然后找到需要的二级节点：接下来就可以进行具体解析了，以图片节点为例：基础信息的节点查找方式如下：这样基础信息的各个节点基本就找到了，接下来模仿图片节点的解析方式阅读全文

posted @ 2018-08-13 15:11 麦克煎蛋阅读(299) 评论(0) 推荐(0) 编辑

图书信息库完整解决方案（三）解析图书分类

摘要：经过综合对比分析（此处省略几千字），最终选定了HtmlUnit作为网页解析的工具。通过maven来引入HtmlUnit资源包： <groupId>net.sourceforge.htmlunit</groupId> <artifactId>htmlunit</artifactId> <versio 阅读全文

posted @ 2018-08-13 14:55 麦克煎蛋阅读(613) 评论(0) 推荐(0) 编辑

TensorFlow Python2.7环境下的源码编译(三)编译

摘要：一、源代码编译这里要为仅支持 CPU 的 TensorFlow 构建一个 pip 软件包，需要调用以下命令： $ bazel build --cxxopt="-D_GLIBCXX_USE_CXX11_ABI=0" --config=opt --verbose_failures //tensorfl 阅读全文

posted @ 2018-08-13 11:24 麦克煎蛋阅读(1149) 评论(0) 推荐(1) 编辑

TensorFlow Python2.7环境下的源码编译(二)安装配置

摘要：源代码树的根目录中包含了一个名为 configure 的 bash 脚本。 $ ./configure 接下来，配置系统会给出各种询问，以确认编译时的配置参数。一、重要参数解释 Do you wish to build TensorFlow with jemalloc as malloc supp 阅读全文

posted @ 2018-08-13 11:23 麦克煎蛋阅读(777) 评论(0) 推荐(0) 编辑

TensorFlow Python2.7环境下的源码编译(一)环境准备

摘要：参考： https://blog.csdn.net/yhily2008/article/details/79967118 https://tensorflow.google.cn/install/install_sources https://docs.python-guide.org/starti 阅读全文

posted @ 2018-08-13 11:21 麦克煎蛋阅读(705) 评论(0) 推荐(1) 编辑

TensorFlow Python3.7环境下的源码编译(三)编译

摘要：这里要为仅支持 CPU 的 TensorFlow 构建一个 pip 软件包，需要调用以下命令： $ bazel build --cxxopt="-D_GLIBCXX_USE_CXX11_ABI=0" --config=opt --verbose_failures //tensorflow/tools 阅读全文

posted @ 2018-08-13 11:19 麦克煎蛋阅读(1827) 评论(0) 推荐(0) 编辑

TensorFlow Python3.7环境下的源码编译(二)安装配置

摘要：源代码树的根目录中包含了一个名为 configure 的 bash 脚本。 $ ./configure 接下来，配置系统会给出各种询问，以确认编译时的配置参数。一、重要参数解释 Please specify the location of python. [Default is /usr/bin/ 阅读全文

posted @ 2018-08-13 11:18 麦克煎蛋阅读(4552) 评论(0) 推荐(1) 编辑

TensorFlow Python3.7环境下的源码编译(一)环境准备

摘要：参考： https://blog.csdn.net/yhily2008/article/details/79967118 https://tensorflow.google.cn/install/install_sources 代码获取： $ git clone https://github.com 阅读全文

posted @ 2018-08-13 11:14 麦克煎蛋阅读(2027) 评论(0) 推荐(0) 编辑