摘要:
从网上下载了一段源码,执行过程中报错:No module named 'requests'一看英文就明白是咋回事了~ 是由于:没有模块requests解决方案打开cmd,在窗口运行命令:pip install requests安装成功以后再次运行,无错误了! 阅读全文
摘要:
之前学习了正则表达式,但是发现如果用正则表达式写网络爬虫,那是相当的复杂啊!于是就有了Beautiful Soup 简单来说,Beautiful Soup是python的一个库,最主要的功能是从网页抓取数据。 Beautiful Soup提供一些简单的、python式的函数用来处理导航、搜索、修改分 阅读全文
摘要:
新建表DROP TABLE Industry;CREATE TABLE Industry(IndustryCode VARCHAR(40),IndustryName VARCHAR(100),ParentID VARCHAR(40))点击下载插入语句数据截图:现在数据是这个样子的,我们需要找出对应的层级关系,例如:实现SQL如下:SELECTA.IndustryCode AS CLASS01,A.... 阅读全文
摘要:
re.math()函数从源字符串的起始位置匹配一个模式语法:re.match(pattern, string, flag)第一个参数代表对应的正则表达式,第二个参数代表对应的源字符,第三个参数是可选参数,代表对应的标志位,可以放模式修正符等信息#-*- codingn:utf-8 -*-import restring = "ipythonajsoasaoso"pattern = ".python.... 阅读全文
摘要:
元字符表符号说明示例.表示任意字符'abc' >>>'a.c' >>>结果为:'abc' ^表示字符开头'abc' >>>'^abc' >>>结果为:'abc'$表示字符串结尾'abc' >>>'abc$' >>>结果为:'abc'*, +, ?'*'表示匹配前一个字符重复 0 次到无限次,'+'表示匹配前一个字符 阅读全文
摘要:
原子是正则表达式的最基本的组成单位,而且在每个模式中最少包含一个原子。原子是由所有那些未显示指定为元字符的打印和非打印字符组成。 原子分类 1.普通字符作为原子 普通字符是编写正则表达式时最常见的原子了,包括所有的大写和小写字母字符、所有数字等。例如,a——z、A——Z、0——9。 运行结果 2.一 阅读全文
摘要:
大多数网站都会定义robots.txt文件来限制爬虫爬去信息,我们在爬去网站之前可以使用robots.txt来查看的相关限制信息例如:我们以【CSDN博客】的限制信息为例子在浏览器输入:https://blog.csdn.net/robots.txt获取到信息如下:从上图我们可以看出:①该网站无论用户使用哪种代理都允许爬取②但是当爬取/css,/images…等链接的时候是禁止的③我们可以看到还存... 阅读全文
摘要:
Scrapy简介Scrapy是用纯Python实现一个为了爬取网站数据、提取结构性数据而编写的应用框架,用途非常广泛。框架的力量,用户只需要定制开发几个模块就可以轻松的实现一个爬虫,用来抓取网页内容以及各种图片,非常之方便。Scrapy Engine(引擎) : 负责 Spider 、 ItemPipeline 、 Downloader 、 Scheduler 中间的通讯,信号、数据传递等。Sch... 阅读全文
摘要:
洛伦茨曲线和基尼系数 1905年,统计学家洛伦茨提出了洛伦茨曲线,如图一。将社会总人口按收入由低到高的顺序平均分为10个等级组,每个等级组均占10%的人口,再计算每个组的收入占总收入的比重。然后以人口累计百分比为横轴,以收入累计百分比为纵轴,绘出一条反映居民收入分配差距状况的曲线,即为洛伦茨曲线。 为了用指数来更好的反映社会收入分配的平等状况,1912年,意大利经济学家基尼根据洛伦茨曲线计算出一... 阅读全文
摘要:
urllib模块提供的urlretrieve()函数,urlretrieve()方法直接将远程的数据下载到本地 urllib语法 参数url:传入的网址,网址必须得是个字符串 参数filename:指定了保存本地路径(如果参数未指定,urllib会生成一个临时文件保存数据。) 参数reporthook:是一个回调函数,当连接上服务器、以及相应的数据块传输完毕时会触发该回调,我们可以利用这个回调函... 阅读全文