OLIVER_QIN - 博客园

2018年4月4日

【Python3 爬虫】11_报错No module named 'requests'

摘要：从网上下载了一段源码，执行过程中报错：No module named 'requests'一看英文就明白是咋回事了~ 是由于：没有模块requests解决方案打开cmd,在窗口运行命令：pip install requests安装成功以后再次运行，无错误了！阅读全文

posted @ 2018-04-04 14:04 OLIVER_QIN 阅读(310) 评论(0) 推荐(0) 编辑

2018年3月28日

【Python3 爬虫】10_Beautiful Soup库的使用

摘要：之前学习了正则表达式，但是发现如果用正则表达式写网络爬虫，那是相当的复杂啊！于是就有了Beautiful Soup 简单来说，Beautiful Soup是python的一个库，最主要的功能是从网页抓取数据。 Beautiful Soup提供一些简单的、python式的函数用来处理导航、搜索、修改分阅读全文

posted @ 2018-03-28 18:13 OLIVER_QIN 阅读(888) 评论(0) 推荐(0) 编辑

【DB2】国标行业分类存储，通过SQL查询出层级关系

摘要：新建表DROP TABLE Industry;CREATE TABLE Industry(IndustryCode VARCHAR(40),IndustryName VARCHAR(100),ParentID VARCHAR(40))点击下载插入语句数据截图：现在数据是这个样子的，我们需要找出对应的层级关系,例如：实现SQL如下：SELECTA.IndustryCode AS CLASS01,A.... 阅读全文

posted @ 2018-03-28 11:25 OLIVER_QIN 阅读(732) 评论(0) 推荐(0) 编辑

2018年3月27日

【Python3 爬虫】09_正则表达式（re.math()、re.search()、re.sub()、全局匹配函数）

摘要： re.math()函数从源字符串的起始位置匹配一个模式语法：re.match(pattern, string, flag)第一个参数代表对应的正则表达式，第二个参数代表对应的源字符，第三个参数是可选参数，代表对应的标志位，可以放模式修正符等信息#-*- codingn:utf-8 -*-import restring = "ipythonajsoasaoso"pattern = ".python.... 阅读全文

posted @ 2018-03-27 15:07 OLIVER_QIN 阅读(1111) 评论(0) 推荐(0) 编辑

【Python3 爬虫】08_正则表达式（元字符与语法）

摘要：元字符表符号说明示例.表示任意字符'abc' >>>'a.c' >>>结果为:'abc' ^表示字符开头'abc' >>>'^abc' >>>结果为:'abc'$表示字符串结尾'abc' >>>'abc$' >>>结果为:'abc'*, +, ?'*'表示匹配前一个字符重复 0 次到无限次，'+'表示匹配前一个字符阅读全文

posted @ 2018-03-27 13:48 OLIVER_QIN 阅读(311) 评论(0) 推荐(0) 编辑

【Python3 爬虫】07_正则表达式（原子）

摘要：原子是正则表达式的最基本的组成单位，而且在每个模式中最少包含一个原子。原子是由所有那些未显示指定为元字符的打印和非打印字符组成。原子分类 1.普通字符作为原子普通字符是编写正则表达式时最常见的原子了，包括所有的大写和小写字母字符、所有数字等。例如，a——z、A——Z、0——9。运行结果 2.一阅读全文

posted @ 2018-03-27 13:28 OLIVER_QIN 阅读(326) 评论(0) 推荐(0) 编辑

【Python3 爬虫】06_robots.txt查看网站爬取限制情况

摘要：大多数网站都会定义robots.txt文件来限制爬虫爬去信息，我们在爬去网站之前可以使用robots.txt来查看的相关限制信息例如：我们以【CSDN博客】的限制信息为例子在浏览器输入：https://blog.csdn.net/robots.txt获取到信息如下：从上图我们可以看出：①该网站无论用户使用哪种代理都允许爬取②但是当爬取/css,/images…等链接的时候是禁止的③我们可以看到还存... 阅读全文

posted @ 2018-03-27 10:57 OLIVER_QIN 阅读(683) 评论(0) 推荐(0) 编辑

2018年3月26日

【Python3 爬虫】05_安装Scrapy

摘要： Scrapy简介Scrapy是用纯Python实现一个为了爬取网站数据、提取结构性数据而编写的应用框架，用途非常广泛。框架的力量，用户只需要定制开发几个模块就可以轻松的实现一个爬虫，用来抓取网页内容以及各种图片，非常之方便。Scrapy Engine(引擎) : 负责 Spider 、 ItemPipeline 、 Downloader 、 Scheduler 中间的通讯，信号、数据传递等。Sch... 阅读全文

posted @ 2018-03-26 18:00 OLIVER_QIN 阅读(458) 评论(0) 推荐(0) 编辑

【基尼系数】基尼系数的计算方法与计算案例

摘要：洛伦茨曲线和基尼系数 1905年，统计学家洛伦茨提出了洛伦茨曲线，如图一。将社会总人口按收入由低到高的顺序平均分为10个等级组，每个等级组均占10％的人口，再计算每个组的收入占总收入的比重。然后以人口累计百分比为横轴，以收入累计百分比为纵轴，绘出一条反映居民收入分配差距状况的曲线，即为洛伦茨曲线。为了用指数来更好的反映社会收入分配的平等状况，1912年，意大利经济学家基尼根据洛伦茨曲线计算出一... 阅读全文

posted @ 2018-03-26 11:05 OLIVER_QIN 阅读(104780) 评论(3) 推荐(6) 编辑

2018年3月24日

【Python3 爬虫】04_urllib.request.urlretrieve

摘要： urllib模块提供的urlretrieve()函数,urlretrieve()方法直接将远程的数据下载到本地 urllib语法参数url:传入的网址，网址必须得是个字符串参数filename:指定了保存本地路径（如果参数未指定，urllib会生成一个临时文件保存数据。) 参数reporthook:是一个回调函数，当连接上服务器、以及相应的数据块传输完毕时会触发该回调，我们可以利用这个回调函... 阅读全文

posted @ 2018-03-24 21:57 OLIVER_QIN 阅读(5867) 评论(0) 推荐(0) 编辑

公告