随笔分类 -  爬虫入门

爬虫基础
摘要:内容详细 1 scrapy架构和目录介绍 # pip3 install scrapy # 创建项目:scrapy startproject cnblogs_spider 等同于django创建项目 # 创建爬虫:scrapy genspider cnblogs www.cnblogs.com 等同于 阅读全文 »
posted @ 2022-05-22 23:02 风花雪月* 阅读(88) 评论(0) 推荐(0) 编辑
摘要:今日内容 1 selenium的使用 # 之前咱们学requests,可以发送http请求,但是有的页面是由render+ajax渲染完的,如果只使用requestes,它只能执行render的请求,拿回数据,执行ajax的请求,需要你再去分析,再去发请求 # 使用selenium,控制浏览器,操作 阅读全文 »
posted @ 2022-05-22 23:00 风花雪月* 阅读(120) 评论(0) 推荐(0) 编辑
摘要:内容详细 1 使用requests爬取视频 # 模拟发送http请求的库:requests 》只能发送http请求 》没有解析库--》re、bs4、lxml # requests-html:发送请求+解析xml # 视频m3u8格式,分段 》会员试看6分钟 》之加载了6分钟 # 收费视频:视频解析 阅读全文 »
posted @ 2022-05-22 22:55 风花雪月* 阅读(165) 评论(0) 推荐(0) 编辑
摘要:今日内容 1 进程,线程,协程 # -进程是资源分配的最小单位 -不是程序--》qq,迅雷程序 》运行一个程序,分配内存运行程序 -一个py文件不一定是一个进程 》py运行在解释器之上 》一个解释器是一个进程 -python中Process类开进程 》又拉起了一个解释器,再执行代码 -只有在pyth 阅读全文 »
posted @ 2022-05-22 22:51 风花雪月* 阅读(59) 评论(0) 推荐(0) 编辑
摘要:内容详细 1 爬虫介绍 # 写后台 >前端展示数据 》浏览器发送http请求,从后端服务器获取的--》只能从浏览器中看 》看到好看的东西 》保存到本地 》存到我们自己库中 》爬虫 # 百度本质就是一个大爬虫(搜索),在输入框中输入搜索内容,实际是从百度的数据库搜索出来的 》 # 百度数据库的数据是从 阅读全文 »
posted @ 2022-05-22 22:47 风花雪月* 阅读(108) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示