摘要:
![字符串](https://img2020.cnblogs.com/blog/1736534/202004/1736534-20200420123400146-180585826.jpg) 阅读全文
摘要:
![Python基础2](https://img2020.cnblogs.com/blog/1736534/202004/1736534-20200420123128545-1850016728.jpg) 阅读全文
摘要:
01. 查找文件 find 命令功能非常强大,通常用来在 特定的目录下 搜索 符合条件的文件 | 序号 | 命令 | 作用 | | : | : | : | | 01 | find [路径] name " .py" | 查找指定路径下拓展名是 .py 的文件,包括子目录 | 如果省略路径,表示在当前文 阅读全文
摘要:
01. 时间和日期 | 序号 | 命令 | 作用 | | : | : | : | | 01 | date | 查看系统时间 | | 02 | cal | calendar 查看日历, y 选项可以查看一年的日历 | 02. 磁盘信息 | 序号 | 命令 | 作用 | | : | : | : | | 阅读全文
摘要:
![python基础1](https://img2020.cnblogs.com/blog/1736534/202004/1736534-20200420105143363-701293666.jpg) 阅读全文
摘要:
正则表达式 P = re.compile(regex, re.S) P.findall("str") P.sub("_", "str") re.findall(regex, "str") re.sub(regex,"_", str) 原始字符串r 在正则中忽略转义带来的影响 re.findall(" 阅读全文
摘要:
定位js 使用chrome eventlistener search all file中所有关键词 分析js 添加断点的方式,浏览器会在断点处暂停 console中尝试js的执行结果 requests小技巧 requests.utils.dict_from_cookiejar cookie转化为字典 阅读全文
摘要:
headers 形式 字典 User Agent,Cookies 使用User Agent能够模拟浏览器 如果因为参数问题爬取不到数据,添加更多参数 params 形式 字典 键是=前面的内容,值是=后面的内容 字符串格式化:'wenshao{}'.format('dashuabi') post 发 阅读全文
摘要:
html 爬虫基础 概念 模拟浏览器发送网络请求,获取响应 分类 通用爬虫 搜索引擎的爬虫,面对整个互联网上所有的网站 聚焦爬虫 针对特定网站的爬虫 分类标准:爬虫爬取的范围 流程 1.url 2.发送请求,获取响应 (提取url地址,发送下一次请求) 3.提取数据 保存 rebots协议 道德层面 阅读全文