上一页 1 ··· 42 43 44 45 46 47 48 49 50 ··· 83 下一页
摘要: 从网上下载了一段源码,执行过程中报错:No module named 'requests'一看英文就明白是咋回事了~ 是由于:没有模块requests解决方案打开cmd,在窗口运行命令:pip install requests安装成功以后再次运行,无错误了! 阅读全文
posted @ 2018-04-04 14:04 OLIVER_QIN 阅读(310) 评论(0) 推荐(0) 编辑
摘要: 之前学习了正则表达式,但是发现如果用正则表达式写网络爬虫,那是相当的复杂啊!于是就有了Beautiful Soup 简单来说,Beautiful Soup是python的一个库,最主要的功能是从网页抓取数据。 Beautiful Soup提供一些简单的、python式的函数用来处理导航、搜索、修改分 阅读全文
posted @ 2018-03-28 18:13 OLIVER_QIN 阅读(888) 评论(0) 推荐(0) 编辑
摘要: 新建表DROP TABLE Industry;CREATE TABLE Industry(IndustryCode VARCHAR(40),IndustryName VARCHAR(100),ParentID VARCHAR(40))点击下载插入语句数据截图:现在数据是这个样子的,我们需要找出对应的层级关系,例如:实现SQL如下:SELECTA.IndustryCode AS CLASS01,A.... 阅读全文
posted @ 2018-03-28 11:25 OLIVER_QIN 阅读(732) 评论(0) 推荐(0) 编辑
摘要: re.math()函数从源字符串的起始位置匹配一个模式语法:re.match(pattern, string, flag)第一个参数代表对应的正则表达式,第二个参数代表对应的源字符,第三个参数是可选参数,代表对应的标志位,可以放模式修正符等信息#-*- codingn:utf-8 -*-import restring = "ipythonajsoasaoso"pattern = ".python.... 阅读全文
posted @ 2018-03-27 15:07 OLIVER_QIN 阅读(1111) 评论(0) 推荐(0) 编辑
摘要: 元字符表符号说明示例.表示任意字符'abc' >>>'a.c' >>>结果为:'abc' ^表示字符开头'abc' >>>'^abc' >>>结果为:'abc'$表示字符串结尾'abc' >>>'abc$' >>>结果为:'abc'*, +, ?'*'表示匹配前一个字符重复 0 次到无限次,'+'表示匹配前一个字符 阅读全文
posted @ 2018-03-27 13:48 OLIVER_QIN 阅读(311) 评论(0) 推荐(0) 编辑
摘要: 原子是正则表达式的最基本的组成单位,而且在每个模式中最少包含一个原子。原子是由所有那些未显示指定为元字符的打印和非打印字符组成。 原子分类 1.普通字符作为原子 普通字符是编写正则表达式时最常见的原子了,包括所有的大写和小写字母字符、所有数字等。例如,a——z、A——Z、0——9。 运行结果 2.一 阅读全文
posted @ 2018-03-27 13:28 OLIVER_QIN 阅读(326) 评论(0) 推荐(0) 编辑
摘要: 大多数网站都会定义robots.txt文件来限制爬虫爬去信息,我们在爬去网站之前可以使用robots.txt来查看的相关限制信息例如:我们以【CSDN博客】的限制信息为例子在浏览器输入:https://blog.csdn.net/robots.txt获取到信息如下:从上图我们可以看出:①该网站无论用户使用哪种代理都允许爬取②但是当爬取/css,/images…等链接的时候是禁止的③我们可以看到还存... 阅读全文
posted @ 2018-03-27 10:57 OLIVER_QIN 阅读(683) 评论(0) 推荐(0) 编辑
摘要: Scrapy简介Scrapy是用纯Python实现一个为了爬取网站数据、提取结构性数据而编写的应用框架,用途非常广泛。框架的力量,用户只需要定制开发几个模块就可以轻松的实现一个爬虫,用来抓取网页内容以及各种图片,非常之方便。Scrapy Engine(引擎) : 负责 Spider 、 ItemPipeline 、 Downloader 、 Scheduler 中间的通讯,信号、数据传递等。Sch... 阅读全文
posted @ 2018-03-26 18:00 OLIVER_QIN 阅读(458) 评论(0) 推荐(0) 编辑
摘要: 洛伦茨曲线和基尼系数 1905年,统计学家洛伦茨提出了洛伦茨曲线,如图一。将社会总人口按收入由低到高的顺序平均分为10个等级组,每个等级组均占10%的人口,再计算每个组的收入占总收入的比重。然后以人口累计百分比为横轴,以收入累计百分比为纵轴,绘出一条反映居民收入分配差距状况的曲线,即为洛伦茨曲线。 为了用指数来更好的反映社会收入分配的平等状况,1912年,意大利经济学家基尼根据洛伦茨曲线计算出一... 阅读全文
posted @ 2018-03-26 11:05 OLIVER_QIN 阅读(104780) 评论(3) 推荐(6) 编辑
摘要: urllib模块提供的urlretrieve()函数,urlretrieve()方法直接将远程的数据下载到本地 urllib语法 参数url:传入的网址,网址必须得是个字符串 参数filename:指定了保存本地路径(如果参数未指定,urllib会生成一个临时文件保存数据。) 参数reporthook:是一个回调函数,当连接上服务器、以及相应的数据块传输完毕时会触发该回调,我们可以利用这个回调函... 阅读全文
posted @ 2018-03-24 21:57 OLIVER_QIN 阅读(5867) 评论(0) 推荐(0) 编辑
上一页 1 ··· 42 43 44 45 46 47 48 49 50 ··· 83 下一页