2021年1月19日
摘要: import requests import re res = requests.get('https://www.pearvideo.com/popular_9') # print(res.text) #拿到的是一个页面的所有视频html页面 re_video = '<a href="(.*?)" 阅读全文
posted @ 2021-01-19 17:10 輪滑少年 阅读(92) 评论(0) 推荐(0) 编辑
摘要: 一、爬虫的基本原理 1.百度是个大爬虫.2.模拟浏览器发送http请求--(请求库)(频率,cookie,浏览器头。js反扒,app逆向)(抓包工具) >从服务器取回数据 >解析数据--(解析库)(反扒) >入库(存储库,)3.爬虫协议(详情见网站:https://www.cnblogs.com/s 阅读全文
posted @ 2021-01-19 17:07 輪滑少年 阅读(63) 评论(0) 推荐(0) 编辑