02 2019 档案

摘要:一、选择服务器 二、购买域名和备案 三、部署网站 四、解析域名 阅读全文
posted @ 2019-02-28 12:23 余火灬 阅读(136) 评论(0) 推荐(0)
摘要:Flask依赖两个外部库:Werkzeug和Jinja2。Werkzeug是一个WSGI(在Web应用和多种服务器之间的标准Python接口)工具集;Jinja2负责渲染模板。所以在安装Flask之前,需要安装这两个外部库。 安装虚拟环境 1、安装Virtualenv 最好在命令行中安装 virtu 阅读全文
posted @ 2019-02-28 11:42 余火灬 阅读(142) 评论(0) 推荐(0)
摘要:yield关键字 python中有一个非常有用的语法叫做生成器,所利用到的关键字就是yield。有效利用生成器这个工具可以有效地节约系统资源,避免不必要的内存占用。 for..in调用生成器算是生成器的基础用法,不过只会用for..in意义是不大的。生成器中最重要的函数是sent和__next__这 阅读全文
posted @ 2019-02-28 09:04 余火灬 阅读(107) 评论(0) 推荐(0)
摘要:一、HTTP概述 超文本传输协议。这个协议详细规定了浏览器和万维网服务器之间互相通信的规则。 客户端发送给服务器的格式叫“请求协议”;服务器发送给客户端的格式叫“响应协议”。 HTTP是无状态协议,FTP是有状态 阅读全文
posted @ 2019-02-27 22:32 余火灬 阅读(112) 评论(0) 推荐(0)
摘要:爬虫框架就是一些爬虫项目的半成品,可以将一些爬虫常用的功能写好。然后留下一些接口,在不同的爬虫项目中,调用适合自己项目的接口,再编写少量的代码实现自己需要的功能。因为框架已经实现了爬虫常用的功能,所以为开发人员节省了很多精力与时间。 1、Scrapy爬虫框架 这是一套比较成熟的python爬虫框架, 阅读全文
posted @ 2019-02-27 11:32 余火灬 阅读(733) 评论(0) 推荐(0)
摘要:BeautifulSoup是一个用于从HTML和XML文件中提取数据的Python库。BeautifulSoup提供一些简单的、函数用来处理导航、搜索、修改分析树等功能。BeautifulSoup模块中的查找提取功能非常强大,而且非常便捷,它通常可以节省程序员数小时或数天的工作时间。 Beautif 阅读全文
posted @ 2019-02-27 11:11 余火灬 阅读(316) 评论(0) 推荐(0)
摘要:在爬取网页的过程中,经常会出现不久前可以爬取的网页现在无法爬取了,这是因为您的IP被爬取网站的服务器所屏蔽了。此时代理服务可以为您解决这一麻烦,设置代理时,首先需要找到代理地址,例如“122.114.31.177”,对应的端口号为“808”,完整的格式为“122.114.31.177:808”,如下 阅读全文
posted @ 2019-02-27 10:39 余火灬 阅读(317) 评论(0) 推荐(0)
摘要:在访问一个网页时,如果该网页长时间未响应,系统会判断该网页超时,所以无法打开网页。下面通过代码来模拟一个网络超时的现象,如下: 说起网络异常信息,requsets模块提供了三种常见的网络异常类,如下: 阅读全文
posted @ 2019-02-27 10:32 余火灬 阅读(283) 评论(0) 推荐(0)
摘要:有时在请求一个网页内容时,发现无论通过GET或者是POST以及其他请求方式,都会出现403错误。这种现象多数是由于服务器拒绝了您的访问,那是因为这些网页为了防止恶意采集信息,所使用的反爬虫设置。此时可通过模拟浏览器头部信息来进行访问,这样就解决了以上反爬虫设置的问题。下面以requests模块为例介 阅读全文
posted @ 2019-02-27 10:05 余火灬 阅读(425) 评论(0) 推荐(0)
摘要:requests是python中实现http请求的一种方式,requests是第三方模块,该模块在实现http请求时要比urllib模块简化很多,操作更加人性化。特性如下: Keep-Alive&连接池 Unicode响应体 国际化域名和URL HTTP(S)代理支持 带持久Cookie的会话 文件 阅读全文
posted @ 2019-02-27 09:26 余火灬 阅读(140) 评论(0) 推荐(0)
摘要:urllib3是一个功能强大、条理清晰、用于http客户端的python库,相对于urllib它所有的特点如下: 线程安全 连接池 客户端SSL/TLS验证 使用多部分编码上传文件 Helpers用于重试请求并处理HTTP重定向 支持gzip和deflate编码 支持HTTP和SOCKS代理 100 阅读全文
posted @ 2019-02-27 08:49 余火灬 阅读(549) 评论(0) 推荐(0)
摘要:什么是urllib Urllib是python内置的HTTP请求库包括以下模块urllib.request 请求模块urllib.error 异常处理模块urllib.parse url解析模块urllib.robotparser robots.txt解析模块 urlopen 关于urllib.re 阅读全文
posted @ 2019-02-22 11:43 余火灬 阅读(155) 评论(0) 推荐(0)
摘要:一、高效文本处理1 1、提取所有 11 位数字电话号码 \d{11} 1、提取所有 11 位数字电话号码 \d{11} \d{11} \d{11} 2、提取所有 18 或 13 开头的电话号码 (18|13)\d{9} #我不明白这里为什么是9而不是10 2、提取所有 18 或 13 开头的电话号码 阅读全文
posted @ 2019-02-20 09:27 余火灬 阅读(362) 评论(0) 推荐(0)
摘要:一、爬虫协议 与其它爬虫不同,全站爬虫意图爬取网站所有页面,由于爬虫对网页的爬取速度比人工浏览快几百倍,对网站服务器来说压力山大,很容易造成网站崩溃。 为了避免双输的场面,大家约定,如果网站建设者不愿意爬虫访问某些页面,他就按照约定的格式,把这些页面添加到 robots.txt 文件中,爬虫应该主动 阅读全文
posted @ 2019-02-18 16:53 余火灬 阅读(661) 评论(0) 推荐(0)
摘要:一、颜色属性 二、字体属性三、背景属性四、文本属性五、边框属性六、列表属性七、display属性八、内外边距九、float属性十、定位 十一、margin定位 一、颜色属性 (1)英文单词 (2)十六进制数 (3)三原色 (4)三原色+透明度。透明度为0到1,0完全透明,1完全不透明 二、字体属性 阅读全文
posted @ 2019-02-13 20:15 余火灬 阅读(405) 评论(0) 推荐(0)
摘要:一、获取页面上的所有链接。 二、获取页面上的所有标题及其链接 三、通过css选择器选取一个Element对象 四、获取一个Element对象内的文本内容 五、获取一个Element对象的所有属性attributes 六、渲染出一个Element对象的HTML内容 阅读全文
posted @ 2019-02-13 15:09 余火灬 阅读(231) 评论(0) 推荐(0)
摘要:一、确定新闻来源 二、有头条新闻的提取头条新闻 三、定时 每两分钟执行一次 在 2019-01-01 09:30:00 2019-02-01 11:00:00 的时间范围内,每 2 小时执行一次 my_print: 在 2019-01-01 09:30:00 执行一次 my_print: 每个整点执 阅读全文
posted @ 2019-02-13 11:39 余火灬 阅读(397) 评论(0) 推荐(0)
摘要:链接分析 1、不同的搜索关键字 的搜索链接分析: 搜索python工程师:https://sou.zhaopin.com/?jl=538&kw=python工程师&kt=3 搜索java工程师:https://sou.zhaopin.com/?jl=538&kw=java工程师&kt=3 对比结果: 阅读全文
posted @ 2019-02-12 15:55 余火灬 阅读(1036) 评论(0) 推荐(0)
摘要:0 怎么学习CSS 1 CSS的四种引入方式 2 CSS的四种基本选择器 3 属性选择器 4 CSS伪类 5 CSS选择器优先级 6 CSS的继承性 0 怎么学习CSS 1 CSS的四种引入方式 2 CSS的四种基本选择器 3 属性选择器 4 CSS伪类 5 CSS选择器优先级 6 CSS的继承性 阅读全文
posted @ 2019-02-11 22:09 余火灬 阅读(383) 评论(0) 推荐(0)
摘要:一、使用python下载网页代码 二、提取网页中所需的内容 2.1使用使用CSS 选择器 来提取网页中有价值的信息--例:爬取单个豆瓣网页 先查看一段内容的代码,在代码上点击右键,选择 Copy -> Copy Selector (或者 Copy CSS Selector、复制 CSS 选择器),就 阅读全文
posted @ 2019-02-11 15:44 余火灬 阅读(886) 评论(0) 推荐(0)
摘要:1、form标签 1.1 input标签中的text类型、password类型、checkbox类型、radio类型、file类型、submit类型、button类型 以及textarea标签 1、form标签 1.1 input标签中的text类型、password类型、checkbox类型、ra 阅读全文
posted @ 2019-02-09 14:37 余火灬 阅读(290) 评论(0) 推荐(0)
摘要:索引的本质:通过不断地缩小想要获取数据的范围来筛选出最终想要的结果,同时把随机的事件变成顺序的事件。 太难了...暂放一段时间 阅读全文
posted @ 2019-02-07 19:42 余火灬 阅读(137) 评论(0) 推荐(0)
摘要:事务是一组sql语句批量执行,要么全部执行成功,要么全部执行失败 原子性:对其数据的修改,要么全都执行,要么全都不执行 一致性:原来怎样,现在还怎样 隔离性:一个事务不能知道另一个事务的执行情况 持久性 只有Innodb数据库引擎的数据库或表才支持事务; 事务控制语句 BEGIN或START TRA 阅读全文
posted @ 2019-02-07 08:45 余火灬 阅读(182) 评论(0) 推荐(0)
摘要:一、数学函数 二、聚合函数 三、字符串函数 四、时间和日期函数 五、加密函数 六、控制流函数 自定义函数 使用函数 删除函数 阅读全文
posted @ 2019-02-06 18:06 余火灬 阅读(170) 评论(0) 推荐(0)
摘要:创建封装 使用封装 传参创建带有参数的封装 使用带有参数的封装,出参传参必须先赋个值 将查询到的值赋值给其他,INTO关键字可以将前面字段的查询结果执行给INTO后面的变量 控制--创建带有参数和条件的封装 使用 循环--创建一个计算1到100的和的封装 运行此封装 阅读全文
posted @ 2019-02-06 16:45 余火灬 阅读(124) 评论(0) 推荐(0)
摘要:触发器:监视某种情况,并触发某种操作 触发器创建语法四要素:1、监视地点(TABLE) 2、监视事件(INSERT/UPDATE/DELETE) 3、触发时间(AFTER/BEFORE) 4、触发事件(INSERT/UPDATE/DELETE) 触发器--INSERT事件 触发器--UPDATE事件 阅读全文
posted @ 2019-02-05 20:58 余火灬 阅读(138) 评论(0) 推荐(0)
摘要:视图解决了临时表不能永久存储的问题 特点: 视图的列可以来自不同的表 视图是由基本表(实表)产生的虚表 视图的建立和删除不影响基本表 对视图内容的更新(添加、删除和修改)直接影响基本表 当视图来自多个基本表时,不允许添加和删除数据,但是允许修改数据 当视图来自单个基本表时,允许添加、删除和修改数据 阅读全文
posted @ 2019-02-05 19:31 余火灬 阅读(133) 评论(0) 推荐(0)
摘要:第一范式(确保每列保持原子性) 第二范式(确保表中的每列都和主键相关) 阅读全文
posted @ 2019-02-05 16:57 余火灬 阅读(82) 评论(0) 推荐(0)
摘要:1、表关系分类: 总体可以分为三类:一对一、一对多(多对一)、多对多 2、 (1)一对多 创建一 创建多,并使用外键关联一 (2)一对一 创建一,确保唯一 创建一,确保唯一,并关联上一 (3)多对多,请看代码 阅读全文
posted @ 2019-02-05 16:43 余火灬 阅读(175) 评论(0) 推荐(0)
摘要:1、外键约束 1.1添加外键 什么是约束:约束是一种限制,它通过对表的行或列的数据做出限制,来确保表的数据的完整性、唯一性. 定义外键的条件: (1)外键对应的字段数据类型保持一致,且被关联的字段(即references指定的另外一个表的字段),必须保证唯一 (2)所有tables的存储引擎必须是I 阅读全文
posted @ 2019-02-05 13:10 余火灬 阅读(141) 评论(0) 推荐(0)