02 2019 档案
摘要:Flask依赖两个外部库:Werkzeug和Jinja2。Werkzeug是一个WSGI(在Web应用和多种服务器之间的标准Python接口)工具集;Jinja2负责渲染模板。所以在安装Flask之前,需要安装这两个外部库。 安装虚拟环境 1、安装Virtualenv 最好在命令行中安装 virtu
阅读全文
摘要:yield关键字 python中有一个非常有用的语法叫做生成器,所利用到的关键字就是yield。有效利用生成器这个工具可以有效地节约系统资源,避免不必要的内存占用。 for..in调用生成器算是生成器的基础用法,不过只会用for..in意义是不大的。生成器中最重要的函数是sent和__next__这
阅读全文
摘要:一、HTTP概述 超文本传输协议。这个协议详细规定了浏览器和万维网服务器之间互相通信的规则。 客户端发送给服务器的格式叫“请求协议”;服务器发送给客户端的格式叫“响应协议”。 HTTP是无状态协议,FTP是有状态
阅读全文
摘要:爬虫框架就是一些爬虫项目的半成品,可以将一些爬虫常用的功能写好。然后留下一些接口,在不同的爬虫项目中,调用适合自己项目的接口,再编写少量的代码实现自己需要的功能。因为框架已经实现了爬虫常用的功能,所以为开发人员节省了很多精力与时间。 1、Scrapy爬虫框架 这是一套比较成熟的python爬虫框架,
阅读全文
摘要:BeautifulSoup是一个用于从HTML和XML文件中提取数据的Python库。BeautifulSoup提供一些简单的、函数用来处理导航、搜索、修改分析树等功能。BeautifulSoup模块中的查找提取功能非常强大,而且非常便捷,它通常可以节省程序员数小时或数天的工作时间。 Beautif
阅读全文
摘要:在爬取网页的过程中,经常会出现不久前可以爬取的网页现在无法爬取了,这是因为您的IP被爬取网站的服务器所屏蔽了。此时代理服务可以为您解决这一麻烦,设置代理时,首先需要找到代理地址,例如“122.114.31.177”,对应的端口号为“808”,完整的格式为“122.114.31.177:808”,如下
阅读全文
摘要:在访问一个网页时,如果该网页长时间未响应,系统会判断该网页超时,所以无法打开网页。下面通过代码来模拟一个网络超时的现象,如下: 说起网络异常信息,requsets模块提供了三种常见的网络异常类,如下:
阅读全文
摘要:有时在请求一个网页内容时,发现无论通过GET或者是POST以及其他请求方式,都会出现403错误。这种现象多数是由于服务器拒绝了您的访问,那是因为这些网页为了防止恶意采集信息,所使用的反爬虫设置。此时可通过模拟浏览器头部信息来进行访问,这样就解决了以上反爬虫设置的问题。下面以requests模块为例介
阅读全文
摘要:requests是python中实现http请求的一种方式,requests是第三方模块,该模块在实现http请求时要比urllib模块简化很多,操作更加人性化。特性如下: Keep-Alive&连接池 Unicode响应体 国际化域名和URL HTTP(S)代理支持 带持久Cookie的会话 文件
阅读全文
摘要:urllib3是一个功能强大、条理清晰、用于http客户端的python库,相对于urllib它所有的特点如下: 线程安全 连接池 客户端SSL/TLS验证 使用多部分编码上传文件 Helpers用于重试请求并处理HTTP重定向 支持gzip和deflate编码 支持HTTP和SOCKS代理 100
阅读全文
摘要:什么是urllib Urllib是python内置的HTTP请求库包括以下模块urllib.request 请求模块urllib.error 异常处理模块urllib.parse url解析模块urllib.robotparser robots.txt解析模块 urlopen 关于urllib.re
阅读全文
摘要:一、高效文本处理1 1、提取所有 11 位数字电话号码 \d{11} 1、提取所有 11 位数字电话号码 \d{11} \d{11} \d{11} 2、提取所有 18 或 13 开头的电话号码 (18|13)\d{9} #我不明白这里为什么是9而不是10 2、提取所有 18 或 13 开头的电话号码
阅读全文
摘要:一、爬虫协议 与其它爬虫不同,全站爬虫意图爬取网站所有页面,由于爬虫对网页的爬取速度比人工浏览快几百倍,对网站服务器来说压力山大,很容易造成网站崩溃。 为了避免双输的场面,大家约定,如果网站建设者不愿意爬虫访问某些页面,他就按照约定的格式,把这些页面添加到 robots.txt 文件中,爬虫应该主动
阅读全文
摘要:一、颜色属性 二、字体属性三、背景属性四、文本属性五、边框属性六、列表属性七、display属性八、内外边距九、float属性十、定位 十一、margin定位 一、颜色属性 (1)英文单词 (2)十六进制数 (3)三原色 (4)三原色+透明度。透明度为0到1,0完全透明,1完全不透明 二、字体属性
阅读全文
摘要:一、获取页面上的所有链接。 二、获取页面上的所有标题及其链接 三、通过css选择器选取一个Element对象 四、获取一个Element对象内的文本内容 五、获取一个Element对象的所有属性attributes 六、渲染出一个Element对象的HTML内容
阅读全文
摘要:一、确定新闻来源 二、有头条新闻的提取头条新闻 三、定时 每两分钟执行一次 在 2019-01-01 09:30:00 2019-02-01 11:00:00 的时间范围内,每 2 小时执行一次 my_print: 在 2019-01-01 09:30:00 执行一次 my_print: 每个整点执
阅读全文
摘要:链接分析 1、不同的搜索关键字 的搜索链接分析: 搜索python工程师:https://sou.zhaopin.com/?jl=538&kw=python工程师&kt=3 搜索java工程师:https://sou.zhaopin.com/?jl=538&kw=java工程师&kt=3 对比结果:
阅读全文
摘要:0 怎么学习CSS 1 CSS的四种引入方式 2 CSS的四种基本选择器 3 属性选择器 4 CSS伪类 5 CSS选择器优先级 6 CSS的继承性 0 怎么学习CSS 1 CSS的四种引入方式 2 CSS的四种基本选择器 3 属性选择器 4 CSS伪类 5 CSS选择器优先级 6 CSS的继承性
阅读全文
摘要:一、使用python下载网页代码 二、提取网页中所需的内容 2.1使用使用CSS 选择器 来提取网页中有价值的信息--例:爬取单个豆瓣网页 先查看一段内容的代码,在代码上点击右键,选择 Copy -> Copy Selector (或者 Copy CSS Selector、复制 CSS 选择器),就
阅读全文
摘要:1、form标签 1.1 input标签中的text类型、password类型、checkbox类型、radio类型、file类型、submit类型、button类型 以及textarea标签 1、form标签 1.1 input标签中的text类型、password类型、checkbox类型、ra
阅读全文
摘要:索引的本质:通过不断地缩小想要获取数据的范围来筛选出最终想要的结果,同时把随机的事件变成顺序的事件。 太难了...暂放一段时间
阅读全文
摘要:事务是一组sql语句批量执行,要么全部执行成功,要么全部执行失败 原子性:对其数据的修改,要么全都执行,要么全都不执行 一致性:原来怎样,现在还怎样 隔离性:一个事务不能知道另一个事务的执行情况 持久性 只有Innodb数据库引擎的数据库或表才支持事务; 事务控制语句 BEGIN或START TRA
阅读全文
摘要:一、数学函数 二、聚合函数 三、字符串函数 四、时间和日期函数 五、加密函数 六、控制流函数 自定义函数 使用函数 删除函数
阅读全文
摘要:创建封装 使用封装 传参创建带有参数的封装 使用带有参数的封装,出参传参必须先赋个值 将查询到的值赋值给其他,INTO关键字可以将前面字段的查询结果执行给INTO后面的变量 控制--创建带有参数和条件的封装 使用 循环--创建一个计算1到100的和的封装 运行此封装
阅读全文
摘要:触发器:监视某种情况,并触发某种操作 触发器创建语法四要素:1、监视地点(TABLE) 2、监视事件(INSERT/UPDATE/DELETE) 3、触发时间(AFTER/BEFORE) 4、触发事件(INSERT/UPDATE/DELETE) 触发器--INSERT事件 触发器--UPDATE事件
阅读全文
摘要:视图解决了临时表不能永久存储的问题 特点: 视图的列可以来自不同的表 视图是由基本表(实表)产生的虚表 视图的建立和删除不影响基本表 对视图内容的更新(添加、删除和修改)直接影响基本表 当视图来自多个基本表时,不允许添加和删除数据,但是允许修改数据 当视图来自单个基本表时,允许添加、删除和修改数据
阅读全文
摘要:第一范式(确保每列保持原子性) 第二范式(确保表中的每列都和主键相关)
阅读全文
摘要:1、表关系分类: 总体可以分为三类:一对一、一对多(多对一)、多对多 2、 (1)一对多 创建一 创建多,并使用外键关联一 (2)一对一 创建一,确保唯一 创建一,确保唯一,并关联上一 (3)多对多,请看代码
阅读全文
摘要:1、外键约束 1.1添加外键 什么是约束:约束是一种限制,它通过对表的行或列的数据做出限制,来确保表的数据的完整性、唯一性. 定义外键的条件: (1)外键对应的字段数据类型保持一致,且被关联的字段(即references指定的另外一个表的字段),必须保证唯一 (2)所有tables的存储引擎必须是I
阅读全文