07 2019 档案

摘要:对于政府网站下发的文件进行爬取,减少人去下载的过程 阅读全文
posted @ 2019-07-31 21:42 小小咸鱼YwY 阅读(735) 评论(0) 推荐(0) 编辑
摘要:写了个爬虫代理ip的脚本给大家使用 一.代码 这个ip代理网站不错哈 阅读全文
posted @ 2019-07-31 20:29 小小咸鱼YwY 阅读(1406) 评论(0) 推荐(0) 编辑
摘要:07.31自我总结 一.文本属性 大小:font size. 颜色:color 字重:font weight 可选属性 | | |`bolder 细`| |`粗 更粗` 100 900之间整百的数字 字族:font family ​ 可以选择多个用 隔开,匹配原则从左往右哪个能用就用哪个 字体样式: 阅读全文
posted @ 2019-07-31 19:48 小小咸鱼YwY 阅读(565) 评论(1) 推荐(0) 编辑
摘要:07.31自我总结 一.a标签的四大伪类 a:link{样式} 未访问时的状态(鼠标点击前显示的状态) a:hover{样式} 鼠标悬停时的状态 a:visited{样式} 已访问过的状态(鼠标点击后的状态) a:active{样式} 鼠标点击时的状态 补充 input:focus{样式} 点击后鼠 阅读全文
posted @ 2019-07-31 19:00 小小咸鱼YwY 阅读(1416) 评论(1) 推荐(0) 编辑
摘要:07.31自我总结 CSS高级选择器 一.伪类选择器 对于之前的类选择器的补充类再定义一个别名 举例 常用的两个伪类选择器 伪类选择器都是用:连接的 类名:nth child(N):先确定位置,再筛选选择器 在同一结构下都是相同选择器时使用 类名:nth of type(N):先确定选择器,在匹配位 阅读全文
posted @ 2019-07-31 15:18 小小咸鱼YwY 阅读(750) 评论(0) 推荐(0) 编辑
摘要:一.概念 "数据库的基础概念" 二.MYSQL "MYSQL数据库的安装,配置文件,登入" "数据库用户管理" "数据库数据类型" "MYSQL数据库约束类型" "MYSQL数据库的增删改查" "数据库,单表查询,多表查询,子查询" "数据库(视图,事件,触发器,函数,存储,变量)" "数据库索引" 阅读全文
posted @ 2019-07-30 12:14 小小咸鱼YwY 阅读(2709) 评论(0) 推荐(0) 编辑
摘要:07.29自我总结 css基础 一.什么是CSS CSS是级联样式表 CSS术语标记语言,没有逻辑 CSS作用 完成网页内容的样式与布局 二.CSS的三种引入方式 1. 内联式 书写位置:在 head标签内定义一个stype标签内 CSS语法:css选择器{样式1;样式2} 优缺点:可读性强,有复用 阅读全文
posted @ 2019-07-29 20:14 小小咸鱼YwY 阅读(666) 评论(4) 推荐(0) 编辑
摘要:07.29自我总结 HTML(页面架构) 一.什么是HTML HTML是一种超文本标记语言 超文本:文本,图片,音频,视频,超链接等 标记:符号,标签 组成: 指令 转义字符 标签 目的:完成页面的搭建 HTML页面大致的组成部分 :必须出现在页面的最上方,规定该文档采用的html版本类型 页面标签 阅读全文
posted @ 2019-07-29 17:36 小小咸鱼YwY 阅读(775) 评论(1) 推荐(1) 编辑
摘要:对于房天下租房信息进行爬取 代码 后续接着对于分区进行爬取 阅读全文
posted @ 2019-07-28 16:57 小小咸鱼YwY 阅读(890) 评论(0) 推荐(0) 编辑
摘要:selenium模块的基本操作 一.模拟浏览器 ​ 谷歌、Firefox、Safari等浏览器 browser=webdriver.Chrome() browser=webdriver.Firefox() browser=webdriver.Safari() browser=webdriver.Ed 阅读全文
posted @ 2019-07-24 20:57 小小咸鱼YwY 阅读(779) 评论(2) 推荐(1) 编辑
摘要:申请GitHub账户 "https://github.com/" 创建本地Git环境 Windows windows系统需要自己下载一个安装包 "https://git scm.com/downloads" mac mac本机自带git环境 本地git链接github 执行以上命令会在本地生成一个. 阅读全文
posted @ 2019-07-24 19:35 小小咸鱼YwY 阅读(625) 评论(0) 推荐(0) 编辑
摘要:Selenium模块 1.安装selenium python2:pip install selenium python3:pip install selenium 2.设置浏览器驱动 浏览器| 驱动 | Chrome:| https://sites.google.com/a/chromium.org 阅读全文
posted @ 2019-07-23 20:14 小小咸鱼YwY 阅读(1990) 评论(0) 推荐(1) 编辑
摘要:关于\_\_new_\_和\_\_init\_\_ 例如一个类 new会优先int执行 其实就相当于子类的里面的new方法覆盖的obj里面的new方法当子类里面没有返回值的时候,将不执行init方法 当返回值不是object类时候也不会执行int方法 当返回值是个object类时候,会执行int方法 阅读全文
posted @ 2019-07-22 20:57 小小咸鱼YwY 阅读(371) 评论(0) 推荐(0) 编辑
摘要:说明 老师博客:https://home.cnblogs.com/u/nickchen121/ 项目连接 1.码云:https://gitee.com/pythonywy/html_to_md (码云由于上传文件大小限制现在exe不是最新的,最新的再github上) 2.github:https:/ 阅读全文
posted @ 2019-07-22 19:14 小小咸鱼YwY 阅读(571) 评论(0) 推荐(0) 编辑
摘要:07.21自我总结 数据库索引 1.什么是索引? 即搜索引导,索引是一个特殊的数据结构,其存储的关键信息与详细信息的位置对应关系,加速索引 索引的影响: 1. 正确使用索引才能加速查询; 2. 索引需要额外的占用数据空间; 3. 索引的加入,使数据的crud变慢 索引的应用场景: ​ 查询操作较多, 阅读全文
posted @ 2019-07-21 16:45 小小咸鱼YwY 阅读(673) 评论(0) 推荐(0) 编辑
摘要:07.21自我总结 pymysql模块 一.创建连接库 二.建立游标 游标的属性 三.提交sql语句 四.查看内容 五.移动游标 相对位置 cursor.scroll(1, "relative") cursor.scroll() 默认是相对位置 绝对位置 cursor.scroll(0, "abso 阅读全文
posted @ 2019-07-21 15:51 小小咸鱼YwY 阅读(731) 评论(0) 推荐(1) 编辑
摘要:07.21自我总结 数据库用户管理 一.用户创建语法 语法: create user 用户名@"ip地址" "identified" by 密码; 举例: create user tom@"192.168.101" identified by "123"; 创建除本机以外其他ip第能登入 creat 阅读全文
posted @ 2019-07-21 15:16 小小咸鱼YwY 阅读(896) 评论(0) 推荐(0) 编辑
摘要:07.21自我总结 一.视图 1.什么是是视图 ​ 本质上是一个虚拟的表,即看得见但是不实际存在 视图内修改了内容,原表的内容也会受到影响 原表修改了内容视图同样也会受到影响 :简化sql语句 2.视图的增删改查 增 create view 视图名称 as select语句 删 drop view 阅读全文
posted @ 2019-07-21 15:03 小小咸鱼YwY 阅读(1117) 评论(0) 推荐(0) 编辑
摘要:我的博客即将同步至腾讯云+社区,邀请大家一同入驻:https://cloud.tencent.com/developer/support plan?invite_code=3cp8ng15g94wc 阅读全文
posted @ 2019-07-19 19:37 小小咸鱼YwY 阅读(1125) 评论(0) 推荐(0) 编辑
摘要:爬虫之ssh证书警告错误 1.错误信息 2.分析 ssh证书是美国网景公司发放的一个安全认证证书,有了这个证书即可证明网站是安全的,但是认证是需要收费的, 所以一些网站就会自己仿造证书,这个时候浏览器就会给予警告,而我们爬虫就爬不到想要的信息 3.解决办法 方法一: 加上一个参数:verify=证书 阅读全文
posted @ 2019-07-19 18:20 小小咸鱼YwY 阅读(725) 评论(0) 推荐(0) 编辑
摘要:Python3 安装urllib2包之小坑 Python3.6.6或者说python3.x找不到urllib2语法问题修改之后,会报一个没有安装urllib2的包的错误。 通过pip install urllib2也会提示找不到包。 通过pip3 install urllib2也会提示找不到包。 这 阅读全文
posted @ 2019-07-19 18:20 小小咸鱼YwY 阅读(7699) 评论(0) 推荐(0) 编辑
摘要:随机点名可视化界面,记录迟到人员,转exe文件 一.介绍 对于人员采取随机点名 二.代码 三.EXE程序 压缩文件下载链接:https://github.com/a568972484/Random_roll_call exe程序在压缩文件中dist文件中 四.相关实用文档 阅读全文
posted @ 2019-07-19 15:59 小小咸鱼YwY 阅读(604) 评论(0) 推荐(1) 编辑
摘要:07.16自我总结 数据库查找方式进阶 一.单表查询 1.查看表单选择段落 1.disinct 所有内容去重:select disinct * from 表名称; 指定字段去重:select disinct 字段 from 表名称; 注意点 disinct 必须写在开头 2.查看多个字段内容 查看多 阅读全文
posted @ 2019-07-16 19:05 小小咸鱼YwY 阅读(1988) 评论(0) 推荐(0) 编辑
摘要:07.14自我总结 MYSQL数据库数据类型 一.整数类型和浮点数典型 1.有符号/没符号 对于整数和负整数来说,默认情况下是有符号范围的 是`有符号` 设置成无符号: alter table 表名 变量名 数据类型 unsigned; | | 严格模式 | 非严格模式 | | : : | : : 阅读全文
posted @ 2019-07-14 18:42 小小咸鱼YwY 阅读(749) 评论(0) 推荐(0) 编辑
摘要:07.14自我总结 MYSQL数据库约束类型 一.主键约束(primary key) 主键约束要求主键列的数据唯一,并且不能为空。主键分为两种类型:单字段主键和多字段联合主键。 1.单字段主键 写法 创建列表数据时 create table a( ​ name char(9) primary key 阅读全文
posted @ 2019-07-14 17:02 小小咸鱼YwY 阅读(1095) 评论(0) 推荐(0) 编辑
摘要:07.13自我总结 数据库的相关概念 一.什么是数据库 ​ 存储数据的仓库 ​ 1.列表 字典....等等 都是内存中的 缺点:断电丢失 优点:速度快 ​ 2.文件存储 缺点:速度慢 优点:可以实现永久保存 ​ 本质就是一套基于CS结构的 客户端和服务器程序,最终的数据存储在服务器端的磁盘中 二.为 阅读全文
posted @ 2019-07-13 17:04 小小咸鱼YwY 阅读(664) 评论(0) 推荐(0) 编辑
摘要:07.13自我总结 MYSQL数据库的增删改查 一.对于库的增删改查 增 create database 库名称; create database 数据库名称 charset 编码方式; 删 drop database 库名称; 改 修改编码方式:alter database 库名称 charset 阅读全文
posted @ 2019-07-13 16:54 小小咸鱼YwY 阅读(9523) 评论(0) 推荐(0) 编辑
摘要:07.13自我总结 MYSQL数据库 一.MYQL数据库的安装 可以去mysql官网下载mysql压缩包 运行程序:在bin文件夹中,其中客户端运行文件是 ,服务端运行文件为 库的位置:在data文件中 配置文件:配置文件模板为my default,int文件中,你如果要手动配置信息要在文件目录下新 阅读全文
posted @ 2019-07-13 15:47 小小咸鱼YwY 阅读(1314) 评论(0) 推荐(0) 编辑
摘要:英文字母和中文汉字在不同字符集编码下的字节数 1.英文字母 字节数 : 1;编码:GB2312 字节数 : 1;编码:GBK 字节数 : 1;编码:GB18030 字节数 : 1;编码:ISO 8859 1 字节数 : 1;编码:UTF 8 字节数 : 4;编码:UTF 16 字节数 : 2;编码: 阅读全文
posted @ 2019-07-11 16:41 小小咸鱼YwY 阅读(391) 评论(0) 推荐(0) 编辑
摘要:0709自我总结 select模块 一.介绍 Python中的select模块专注于I/O多路复用,提供了select poll epoll三个方法(其中后两个在Linux中可用,windows仅支持select),另外也提供了kqueue方法(freeBSD系统) 二.select方法 三个参数 阅读全文
posted @ 2019-07-09 16:09 小小咸鱼YwY 阅读(493) 评论(0) 推荐(0) 编辑
摘要:爬取千千音乐动态传输内容 1.首先千千音乐的robots协议 2.项目目的 对于千千音乐的首页的歌单进行爬取,创建以歌单为名字的文件夹并且下载歌单内的所有歌曲保存至本地 3.项目介绍功能介绍 难点:千千音乐他音频是由JS生成的难点就是找到他的js链接 不要加 与`多线程`进去增加千千音乐的负担,只做 阅读全文
posted @ 2019-07-09 11:39 小小咸鱼YwY 阅读(1039) 评论(0) 推荐(0) 编辑
摘要:07.08自我总结 一.Scrapy爬虫框架 大体框架 2个桥梁 二.常用命令 全局命令 startproject 语法: 这个命令是scrapy最为常用的命令之一,它将会在当前目录下创建一个名为 scrapy settings [options] scrapy runspider scrapy s 阅读全文
posted @ 2019-07-08 20:38 小小咸鱼YwY 阅读(2856) 评论(0) 推荐(0) 编辑
摘要:07.08自我总结 一.协程的概念 协程:是单线程下的并发,又称微线程,纤程。英文名Coroutine。是一种用户态的轻量级线程,即协程是由用户程序自己控制调度的。 需要强调的是: 对比操作系统控制线程的切换,用户在单线程内控制协程的切换 优点如下: 缺点如下: 二.协程的应用 1.greenlet 阅读全文
posted @ 2019-07-08 20:18 小小咸鱼YwY 阅读(257) 评论(0) 推荐(0) 编辑
摘要:爬虫练手,爬取新浪双色彩,信息并进行分析 阅读全文
posted @ 2019-07-08 18:23 小小咸鱼YwY 阅读(846) 评论(0) 推荐(0) 编辑
摘要:客户端与服务端多功能传输小程序 server.py 阅读全文
posted @ 2019-07-07 21:11 小小咸鱼YwY 阅读(289) 评论(0) 推荐(0) 编辑
摘要:07.07自我总结 一.GIL 1.概念 在CPython中,这个全局解释器锁,也称为GIL,是一个互斥锁 2.带来的问题 首先必须明确执行一个py文件,分为三个步骤 1. 从硬盘加载Python解释器到内存 2. 从硬盘加载py文件到内存 3. 解释器解析py文件内容,交给CPU执行 当进程中仅存 阅读全文
posted @ 2019-07-07 17:31 小小咸鱼YwY 阅读(357) 评论(0) 推荐(0) 编辑
摘要:07.07自我总结 Event事件 一.导入模块 二.概念 线程间状态同步:即将一个任务丢到子进程中,这个任务将异步执行,如何获取到这个任务的 执行状态 注意: 执行状态和执行结果不是同一个概念,异步回调拿到的是任务的执行结果 假设 一个线程 负责启动服务器 启动服务器需要花一定的时间 另一个线程作 阅读全文
posted @ 2019-07-07 17:10 小小咸鱼YwY 阅读(413) 评论(0) 推荐(0) 编辑
摘要:07.07自我总结 进程池与线程池 一.进程池与线程池的函数的导入 进程池: 线程池: 二.进程池与线程池的定义 1.进程池的定义 pool = ProcessPoolExecutor(3) 设置最大进程为3 创建进程池,指定最大进程数为3,此时不会创建进程,不指定数量时,默认为CPU和核数 poo 阅读全文
posted @ 2019-07-07 16:44 小小咸鱼YwY 阅读(360) 评论(0) 推荐(2) 编辑
摘要:0707自我总结 队列 1.queue 模块 常用的两种方法 :先放什么参数先获取什么参数 :将放进去的所有参数进行排序,再按照顺序取出 :构造一个Lifo队列,会从最后开始往前取 2.queue 创建对象的方法 qsize() :返回queue的近似值。注意:qsize 0 不保证(get)取元素 阅读全文
posted @ 2019-07-07 16:11 小小咸鱼YwY 阅读(311) 评论(0) 推荐(1) 编辑
摘要:07.07自我总结 一.多进程的应用 1.多进程模块 其中常用到的几个功能 用于定义进程 :用于定义一个互斥锁 定义锁 :查看当前还在运行的自进程信息 :查看cpu进程 2.进程的方法 is_alive():返回进程是否在运行。 join([timeout]):阻塞当前上下文环境的进程程,直到调用此 阅读全文
posted @ 2019-07-07 15:32 小小咸鱼YwY 阅读(674) 评论(0) 推荐(1) 编辑
摘要:07.07自我总结 一.程序任务处理的三种方式 串行:程序自上而下的运行 并发:是一种伪并行,是将程序进行来回切换且切换程序时候保存程序切换前的运行状态 并行:基于cpu的基础上,有几个cpu就能进行几个程序同时进行 并发:当有多个线程在操作时,如果系统只有一个CPU,操作系统只能把CPU运行时间划 阅读全文
posted @ 2019-07-07 14:29 小小咸鱼YwY 阅读(336) 评论(0) 推荐(1) 编辑
摘要:将博客园随笔保存至本地并转md格式 1.首先博客园的robots协议 2.项目目的 方便博主将以上传的md随笔重新根据输入url进行下载,方便博主修改随笔 3.项目介绍功能介绍 功能一:批量爬取博客园首页的所有随笔字典并保存JSON文件,且随笔全部转成MD格式文件 功能二:输入指定随笔网址把随笔内容 阅读全文
posted @ 2019-07-05 17:11 小小咸鱼YwY 阅读(1258) 评论(0) 推荐(0) 编辑
摘要:BeautifulSoup库 一.BeautifulSoup库的下载以及使用 1.下载 2.使用 二.BeautifulSoup库解析器 解析器 |使用方法|优势|劣势 : :|: :|: |: bs4的HTML解析器|BeautifulSoup(mk,'html.parser')|Python 的 阅读全文
posted @ 2019-07-04 19:32 小小咸鱼YwY 阅读(1988) 评论(0) 推荐(1) 编辑
摘要:TCP协议传输大文件读取时候的问题 我们在定义的时候定义服务端每次文件读取大小为 , 客户端每次接受大小为 我们想当然的认为客户端每次读取大小就是10240而把客户端的读下来的文件想当然大小每一次都加上 而实际上服务端发送文件send每次发送不一定是一次性把10240的文件传送完,可能分了好几次进行 阅读全文
posted @ 2019-07-02 20:44 小小咸鱼YwY 阅读(822) 评论(0) 推荐(0) 编辑
摘要:TCP端口复用引发的异常,用setsockopt来解决 我们在并发连接一个服务端时候他会出现这种情况 假如端口被 ,并且利用socket.close()来关闭连接,但此时 ,要经过一个TIME_WAIT的过程之后才能使用,这是TNN的相当烦银的,为了 ,可以选择setsockopt()函数来达到. 阅读全文
posted @ 2019-07-02 20:36 小小咸鱼YwY 阅读(913) 评论(0) 推荐(0) 编辑
摘要:爬虫的规定 Robots协议 网站开发者对于网络爬虫的规范的公告,你可以不遵守可能存在法律风险,但尽量去遵守 Robots协议:在网页的根目录+robots.txt Robots协议的基本语法: #注释,*代表所有,/代表根目录 User-agent:* #user-agent代表来源 Allow: 阅读全文
posted @ 2019-07-01 15:40 小小咸鱼YwY 阅读(2137) 评论(2) 推荐(0) 编辑
摘要:Requests库 ` 1.Response对象的属性 属性|说明 : :|: : r.status_code|HTTP请求返回的状态,200表示成功,404表示失败,还有其他的也代表失败 r.text|HTTP响应内容转换成字符串格式 r.content|HTTP响应内容转换成二进制格式 r.en 阅读全文
posted @ 2019-07-01 15:10 小小咸鱼YwY 阅读(1881) 评论(0) 推荐(1) 编辑
摘要:07.01自我总结 常用的re模块的正则匹配的表达式 一、校验数字的表达式 1.数字 2.n位的数字 3.至少n位的数字 4.m n位的数字 5.零和非零开头的数字 6.非零开头的最多带两位小数的数字 7.带1 2位小数的正数或负数 8.正数、负数、和小数 9.有两位小数的正实数 10.有1~3位小 阅读全文
posted @ 2019-07-01 12:11 小小咸鱼YwY 阅读(1377) 评论(0) 推荐(1) 编辑

点击右上角即可分享
微信分享提示