05 2021 档案
摘要:1、本次项目为获取梨视频中的视频,再使用异步线程池下载视频到本地 2、获取视频时,其地址中的Url是会动态变化,不播放时src值为图片的地址,播放时src值为mp4格式 3、查看视频链接是否存在ajax,果然是存在的,但是返回的Url与真实的MP4地址存在部分不一致,此时需要使用字符串替换 4、获取
阅读全文
摘要:1、古诗文网直接登录时,用浏览器F12抓取登录接口的入参,我们可以看到框起来的key对应的value是动态参数生成的,需获取到; 2、登录接口入参的值一般是登录接口返回的原数据值,若刷新后接口与对应源码(element)的值存在一个为空一个有值,那么久看下是否存在ajax请求,再获取动态参数的值 3
阅读全文
摘要:1、环境安装 pip install lxml 2、解析原理 使用通用爬虫爬取网页数据 实例化etree对象,且将页面数据加载到该对象中 使用xpath函数结合xpath表达式进行标签定位和指定数据提取 3、实战案例 - 项目需求:解析房天下新房的相关数据 import requestsimport
阅读全文
摘要:1、环境安装 - 需要将pip源设置为国内源,阿里源、豆瓣源、网易源等 - windows (1)打开文件资源管理器(文件夹地址栏中) (2)地址栏上面输入 %appdata% (3)在这里面新建一个文件夹 pip (4)在pip文件夹里面新建一个文件叫做 pip.ini ,内容写如下即可 [glo
阅读全文
摘要:1、博客目前在学习爬虫课程,使用正则表达式来爬取网页的图片信息 2、下面我们一起来回归下Python中的正则使用方式/方法 3、糗事百科图片爬取源码如下: import requestsimport reimport osif __name__ == '__main__': # headers请求头
阅读全文