2019年12月22日

摘要: fiddler 抓包工具 一、HTTP代理 所谓的http代理,其实就是代理客户机的http访问,主要代理浏览器访问页面。 代理服务器是介于浏览器和web服务器之间的一台服务器,有了它之后,浏览器不是直接到Web服务器去取回网页而是向代理服务器发出请求,Request信号会先送到代理服务器,由代理服 阅读全文
posted @ 2019-12-22 16:58 夜阑i 阅读(583) 评论(0) 推荐(0) 编辑
 
摘要: requests第三方库 简介: requests是一个优雅而简单的Python 第三方HTTP请求库,专为人类而构建。 requests的官方文档同样也非常的完善详尽,而且少见的有中文官方文档:http://cn.python-requests.org/zh_CN/latest/。 英文文档:ht 阅读全文
posted @ 2019-12-22 16:56 夜阑i 阅读(787) 评论(0) 推荐(0) 编辑
 
摘要: urllib库 HTTP请求库 urllib 是一个用来处理网络请求的python标准库,它包含4个模块。 urllib.requests 请求模块,用于发起网络请求 urllib.parse 解析模块,用于解析URL urllib.error 异常处理模块,用于处理request引起的异常 url 阅读全文
posted @ 2019-12-22 16:54 夜阑i 阅读(646) 评论(0) 推荐(0) 编辑
 
摘要: 正则表达式 简介: 正则表达式:用来匹配特定规则的字符串。 正则表达式是处理字符串的强大工具,有特定的语法结构;实现字符串的检索、替换、匹配验证等。 元字符 模式描述 . 匹配除换行符之外的任意字符 ^ 匹配开头 $ 匹配结尾 * 匹配任意多个(0个或多个) + 匹配1个或多个(至少一个) ? 匹配 阅读全文
posted @ 2019-12-22 16:53 夜阑i 阅读(421) 评论(0) 推荐(0) 编辑
 
摘要: 一 、爬虫的认识与http 互联网应用架构 一般采用c/s架构,b/s架构或者m/s架构 c/s 即 client server 客户端 服务端 b/s 即 browser server 浏览器 服务端 m/s 即 moblie server 移动端 服务端 爬虫的概念 网络爬虫也叫网络蜘蛛,它特指 阅读全文
posted @ 2019-12-22 16:51 夜阑i 阅读(398) 评论(0) 推荐(0) 编辑
 
摘要: linux补充 apt 是在我们Linux系统安装软件 pip 用来安装python3的模块(第三方库) ps # 查看运行进程(pid) ps aux # 查看全部任务进程 top # 也可以查看进程 htop 美化查看cpu进程 kill pid_id # 结束进程。 python -V 查看版 阅读全文
posted @ 2019-12-22 16:50 夜阑i 阅读(220) 评论(0) 推荐(0) 编辑
 
摘要: Linux 系统常用命令 1.查看目录 ls 查看当前目录的内容 ls -lsh 查看当前目录的详细信息 ls -alh 查看当前目录的所有文件信息,包括隐藏文件 ls -als | more 分页查看,空格翻。回车下一行。 (ls -l ls -a ls -all ll sl小火车) 2.目录跳转 阅读全文
posted @ 2019-12-22 16:48 夜阑i 阅读(153) 评论(0) 推荐(0) 编辑