2020年3月5日
摘要: 列表在Python中的应用相当广泛,前面我们的示例也大量地使用了列表。 这里我们主要了解下列表不同于元组和字符串的地方 列表是可变的,即可修改其内容。 一、函数list 通过list(实际上是一个类)可以使用字符串来创建一个列表。 >>> list('Hello') ['H', 'e', 'l', 阅读全文
posted @ 2020-03-05 16:00 麦克煎蛋 阅读(208) 评论(0) 推荐(0) 编辑
  2020年3月4日
摘要: 在Python中,最基本的数据结构为序列(sequence)。 序列中的每个元素都有编号,即其位置或索引,其中第一个元素的索引为0,第二个元素的索引为1,依此类推。 用负索引表示序列末尾位置的位置。如-1表示最后一个元素,-2表示倒数第二个元素。 我们先了解下序列的概述,然后再了解下适用于所有序列( 阅读全文
posted @ 2020-03-04 16:39 麦克煎蛋 阅读(266) 评论(0) 推荐(0) 编辑
  2020年3月3日
摘要: 一、变量 变量是表示(或指向)特定值的名称。 例如,使用名称x来表示3,为此执行如下代码: x = 3 这称为赋值。给变量赋值后,就可在表达式中使用它。 注意以下几点: 1、Python的变量不需要声明,可直接使用。 2、使用Python变量前必须给它赋值,因为Python变量没有默认值。 3、在P 阅读全文
posted @ 2020-03-03 20:37 麦克煎蛋 阅读(236) 评论(0) 推荐(0) 编辑
摘要: 提示 1、教程基于Python 3.7,测试环境为Mac。 2、Mac命令行将以➜开始,比如 ➜ ~ python3,其中~表示当前工作目录。 3、Python命令行将以>>>开始,比如 >>> print('Hello Python!') 4、在一般场景下,无论使用双引号还是单引号的作用都是相同的 阅读全文
posted @ 2020-03-03 14:09 麦克煎蛋 阅读(787) 评论(0) 推荐(0) 编辑
摘要: 打开 WEB 浏览器访问 https://www.python.org/downloads/windows/ ,一般就下载 executable installer,x86 表示是 32 位机子的,x86 64 表示 64 位机子的。 记得勾选 Add Python 3.X to PATH。 按 W 阅读全文
posted @ 2020-03-03 10:20 麦克煎蛋 阅读(286) 评论(0) 推荐(0) 编辑
  2020年3月2日
摘要: 初学者可以采用命令行的方式来学习,这样上手比较快一些。 一、首先需要安装HomeBrew Homebrew是一款Mac OS平台下的软件包管理工具,拥有安装、卸载、更新、查看、搜索等很多实用的功能。简单的一条指令,就可以实现包管理,而不用你关心各种依赖和文件路径的情况,十分方便快捷。 1、安装 /u 阅读全文
posted @ 2020-03-02 15:47 麦克煎蛋 阅读(840) 评论(0) 推荐(0) 编辑
摘要: Python崇尚优美、清晰、简单,是一个优秀并广泛使用的语言 (TIOBE语言排行第三,Google的第三大开发语言)。这个世界并不缺乏优秀的语言,但Python的发展史作为一个代表,带给我们许多启示。 在Python的开发过程中,社区起到了重要的作用。Guido自认为自己不是全能型的程序员,所以他 阅读全文
posted @ 2020-03-02 14:49 麦克煎蛋 阅读(285) 评论(0) 推荐(0) 编辑
摘要: 1991年,第一个Python编译器(同时也是解释器)诞生。它是用C语言实现的,并能够调用C库(.so文件)。从一出生,Python已经具有了:类(class),函数(function),异常处理(exception),包括表(list)和词典(dictionary)在内的核心数据类型,以及模块(m 阅读全文
posted @ 2020-03-02 14:48 麦克煎蛋 阅读(680) 评论(0) 推荐(0) 编辑
摘要: Python,由荷兰人Guido van Rossum(龟叔)于1989年发明,第一个公开发行版发行于1991年。 1982年,Guido从阿姆斯特丹大学(University of Amsterdam)获得了数学和计算机硕士学位。尽管拥有数学和计算机双料资质,他总趋向于做计算机相关的工作,并热衷于 阅读全文
posted @ 2020-03-02 14:47 麦克煎蛋 阅读(1959) 评论(0) 推荐(0) 编辑
  2019年11月5日
摘要: 豆瓣的数据抓取中,豆瓣的反扒措施比较严谨,这里不得已采用了芝麻代理的ip,豆瓣的数据整理的比较好。 另外也对比过京东和当当的数据,发现当当的图书数据是最乱的。 阅读全文
posted @ 2019-11-05 15:27 麦克煎蛋 阅读(181) 评论(0) 推荐(0) 编辑
  2019年9月25日
摘要: 经过几个月的摸索、实践、调试,对Scrapy的使用掌握的比较熟练了。并且结合Selenium的使用,目前已经完成了当当图书数据的抓取,大概260多万条吧,并且每隔几天会自动抓取新增图书数据。 这几个月无论对于Scrapy还是Selenium的使用,都有了不少的收获。 美中不足的是当当的数据比较杂乱, 阅读全文
posted @ 2019-09-25 08:49 麦克煎蛋 阅读(171) 评论(0) 推荐(0) 编辑
  2019年3月29日
摘要: 年前花了几个月的时间,在团队中引入了Python以及Vue的新技术,新的项目已经完全基于Python + Vue(Nuxt)进行开发了,这是一个新的开始。 同时也在努力提高团队的前端开发水平, 包括本人的前端开发短板也在努力的学习中。 阅读全文
posted @ 2019-03-29 15:40 麦克煎蛋 阅读(225) 评论(0) 推荐(0) 编辑
  2018年8月23日
摘要: https://www.sohu.com/a/164042813_737973 挺有意思的 经过一周的Django学习,以及对比,最终选定了以Flask入手来学习Python web开发。 阅读全文
posted @ 2018-08-23 11:01 麦克煎蛋 阅读(368) 评论(0) 推荐(0) 编辑
  2018年8月13日
摘要: 1、当当的数据远远比豆瓣的数据丰富,所以图书基础数据应该以当当的为基准,豆瓣的为完善补充。 2、当当每个分类下只能获取前100页数据,100之后的数据无法用技术手段进行抓取。 3、无法抓取到的当当数据,当有需要的时候可以模拟当当的搜索接口,然后从搜索结果中分析对应的图书数据。 4、第一次抓取当当的全 阅读全文
posted @ 2018-08-13 15:42 麦克煎蛋 阅读(223) 评论(0) 推荐(0) 编辑
摘要: 为了综合当当和豆瓣的图书详情数据,这里在图书信息从当当抓取成功后,根据isbn信息再从豆瓣获取一次图书详情数据。 相关豆瓣图书的接口地址为: https://developers.douban.com/wiki/?title=book_v2#get_isbn_book 然后将豆瓣与当当的图书详情进行 阅读全文
posted @ 2018-08-13 15:33 麦克煎蛋 阅读(1435) 评论(0) 推荐(0) 编辑
摘要: 频繁的爬取网站数据,很容易导致ip被封锁,所以在具体爬取网页的过程中一定要使用代理ip。 代理ip的来源一般就两种: 1、免费代理ip(可自行搜索,一般免费ip的质量不会太高,并且时好时坏,有很多根本无法使用)。 2、付费代理ip(有不少网站提供收费的代理ip,质量高并且访问速度稳定)。 我在这里采 阅读全文
posted @ 2018-08-13 15:26 麦克煎蛋 阅读(247) 评论(0) 推荐(0) 编辑
摘要: 详情页面涉及到图书的标题、出版社、作者、摘要等等具体信息,所以是整个网页解析中的难点,也是核心数据部分。 首先找到涉及到的一级节点: 然后找到需要的二级节点: 接下来就可以进行具体解析了,以图片节点为例: 基础信息的节点查找方式如下: 这样基础信息的各个节点基本就找到了,接下来模仿图片节点的解析方式 阅读全文
posted @ 2018-08-13 15:11 麦克煎蛋 阅读(295) 评论(0) 推荐(0) 编辑
摘要: 经过综合对比分析(此处省略几千字),最终选定了HtmlUnit作为网页解析的工具。 通过maven来引入HtmlUnit资源包: <groupId>net.sourceforge.htmlunit</groupId> <artifactId>htmlunit</artifactId> <versio 阅读全文
posted @ 2018-08-13 14:55 麦克煎蛋 阅读(603) 评论(0) 推荐(0) 编辑
摘要: 一、源代码编译 这里要为仅支持 CPU 的 TensorFlow 构建一个 pip 软件包,需要调用以下命令: $ bazel build --cxxopt="-D_GLIBCXX_USE_CXX11_ABI=0" --config=opt --verbose_failures //tensorfl 阅读全文
posted @ 2018-08-13 11:24 麦克煎蛋 阅读(1137) 评论(0) 推荐(1) 编辑
摘要: 源代码树的根目录中包含了一个名为 configure 的 bash 脚本。 $ ./configure 接下来,配置系统会给出各种询问,以确认编译时的配置参数。 一、重要参数解释 Do you wish to build TensorFlow with jemalloc as malloc supp 阅读全文
posted @ 2018-08-13 11:23 麦克煎蛋 阅读(768) 评论(0) 推荐(0) 编辑
摘要: 参考: https://blog.csdn.net/yhily2008/article/details/79967118 https://tensorflow.google.cn/install/install_sources https://docs.python-guide.org/starti 阅读全文
posted @ 2018-08-13 11:21 麦克煎蛋 阅读(702) 评论(0) 推荐(1) 编辑
摘要: 这里要为仅支持 CPU 的 TensorFlow 构建一个 pip 软件包,需要调用以下命令: $ bazel build --cxxopt="-D_GLIBCXX_USE_CXX11_ABI=0" --config=opt --verbose_failures //tensorflow/tools 阅读全文
posted @ 2018-08-13 11:19 麦克煎蛋 阅读(1808) 评论(0) 推荐(0) 编辑
摘要: 源代码树的根目录中包含了一个名为 configure 的 bash 脚本。 $ ./configure 接下来,配置系统会给出各种询问,以确认编译时的配置参数。 一、重要参数解释 Please specify the location of python. [Default is /usr/bin/ 阅读全文
posted @ 2018-08-13 11:18 麦克煎蛋 阅读(4519) 评论(0) 推荐(1) 编辑
摘要: 参考: https://blog.csdn.net/yhily2008/article/details/79967118 https://tensorflow.google.cn/install/install_sources 代码获取: $ git clone https://github.com 阅读全文
posted @ 2018-08-13 11:14 麦克煎蛋 阅读(2023) 评论(0) 推荐(0) 编辑
  2018年8月1日
摘要: 安装Eclipse Photon版本的时候选择了Java开发,导致最后需要本地tomcat调试的时候找不到Server配置选项。 ①在软件eclipse下的Help->InstallNew Software->中,在Work with中点击Add, Name——Photon Location——ht 阅读全文
posted @ 2018-08-01 14:27 麦克煎蛋 阅读(3300) 评论(0) 推荐(2) 编辑
摘要: Eclipse -> Help -> Install New Software... 在出现的窗口点击Manage管理Available Software Sites 将所有URL中的"download.eclipse.org",都替换为"http://mirror.bit.edu.cn/eclip 阅读全文
posted @ 2018-08-01 14:23 麦克煎蛋 阅读(8290) 评论(0) 推荐(1) 编辑
  2018年7月9日
摘要: 虽然以前有多年的Fortran、C、C++以及Java开发经验,但真的开始熟悉Python还是被惊艳到了,太舒服了,看起来有如沐春风的感觉,简洁和优美,这个才是代码艺术。 阅读全文
posted @ 2018-07-09 11:17 麦克煎蛋 阅读(192) 评论(0) 推荐(0) 编辑
摘要: 面临的第一个问题是图书数据源从哪来,调研了一圈大概是以下几种方式: 1、当当或京东的官方图书api(查了一圈一无所获,收费或免费的都没找到) 2、豆瓣图书 https://developers.douban.com/wiki/?title=book_v2 豆瓣的主要问题一个是访问次数有限制,另一个是 阅读全文
posted @ 2018-07-09 11:12 麦克煎蛋 阅读(498) 评论(0) 推荐(0) 编辑
摘要: 去年因为忙一个图书漂流的项目,大概花了三个月的时间,完成了图书信息库的建立。 截止目前为止,已经收录了200多万条的图书数据,并且每周还在自动更新中,打算将这个项目完整的整理出来,算阶段性工作的一个总结吧。 方案主要功能如下: 1、实现了按照当当图书分类, 抓取每个分类下前100页图书数据的功能。 阅读全文
posted @ 2018-07-09 10:48 麦克煎蛋 阅读(435) 评论(0) 推荐(0) 编辑
  2018年2月9日
摘要: 一、首先在Github上fork比特币源码,就会在自己的项目库里创建一份比特币代码的拷贝。 打开https://github.com/bitcoin/bitcoin,点击右上角的“Fok”图标,稍候即可完成。(前提是先注册一个Github的账号) 你可以对这份新代码进行任何修改,而且和原来的项目结构 阅读全文
posted @ 2018-02-09 15:04 麦克煎蛋 阅读(469) 评论(0) 推荐(0) 编辑