随笔分类 -  python爬虫

摘要:在爬虫爬取网页数据时有时会遇到中文 此时不要用requests的text方法,用content方法 #print(ret.text) print(ret.content) 此时中文转变成了16进制,我们用decode("gbk")方法将其转化为中文 ret.content.decode("gbk") 阅读全文
posted @ 2023-03-14 19:37 腹肌猿 阅读(372) 评论(0) 推荐(0) 编辑
摘要:在做手机爬虫时,当手机设置好代理,安装好证书后,总有些APP无法联网,但是有些APP却可以联网? 网上找了很多资料,都没用,感觉还是这个最有用 随着安装系统的升级,也为软件防护做了升级 1.MT管理器修改.apk(apk内可以用MT管理器修改选择用 授信系统的证书 或 用户的证书 ) 2.安装Xpo 阅读全文
posted @ 2023-03-11 16:23 腹肌猿 阅读(954) 评论(0) 推荐(0) 编辑
摘要:我们现在很多视频网站的电影都是由很多ts文件片段组成的,要想下载电影,就需要把这些ts文件片段全部下载下来, 然后合成一 部完整的电影 这个程序配置好以下三个地方就可以下载这类电影 url preurl packageName 就是我们保存ts文件片段和最终文件的文件夹名称 import reque 阅读全文
posted @ 2023-01-04 21:18 腹肌猿 阅读(522) 评论(0) 推荐(0) 编辑
摘要:xpath helper下载 链接: https://pan.baidu.com/s/1uhWs_CxVTfU25VI5Md-CAg 提取码: wstj 不要将下载后的.crx直接拖入chrome://extensions/安装,会提示无效 下载后得到xpath-helper.crx,将其改变扩展名 阅读全文
posted @ 2020-08-11 20:55 腹肌猿 阅读(5716) 评论(0) 推荐(2) 编辑
摘要:本节抓取手机app视频,charles抓包部分就不演示了,抓包内容如下: 可以直接抓取到.ts视频文件,但全都是视频片段,如果要抓全部的视频,就要找m3u8文件,里边有所有的视频路径,在拼接url前缀,就可以拿到正确的视频url了。 以下是代码部分: import requests import o 阅读全文
posted @ 2020-03-08 19:04 腹肌猿 阅读(5432) 评论(0) 推荐(0) 编辑
摘要:之前有个一直困扰我的问题,再用charles抓包时遇到connect方法的,什么都抓不到,不知道该如何解决 1.情景:抓包的域名下 全部是unknown,右侧出现了乱码 2.查看unknown的notes里面:SSL Proxying not enabled for this host:enable 阅读全文
posted @ 2020-02-14 15:44 腹肌猿 阅读(4277) 评论(0) 推荐(0) 编辑
摘要:一、介绍说明 mitmproxy是一个支持HTTP和HTTPS的抓包程序,有类似Fiddler、Charles的功能,只不过它是一个控制台的形式操作。 mitmproxy还有两个关联组件。一个是mitmdump,它是mitmproxy的命令行接口,利用它我们可以对接Python脚本,用Python实 阅读全文
posted @ 2020-02-14 00:41 腹肌猿 阅读(3313) 评论(0) 推荐(0) 编辑
摘要:库安装 安装selenium库 pip3 install selenium 驱动安装 运行python代码时报错:selenium.common.exceptions.WebDriverException: Message: 'chromedriver' executable needs to be 阅读全文
posted @ 2020-02-07 23:59 腹肌猿 阅读(510) 评论(0) 推荐(0) 编辑
摘要:文章来源:https://github.com/rmax/scrapy-redis Scrapy-Redis Documentation: https://scrapy-redis.readthedocs.org. Python versions: 2.7, 3.4+ Requirements Py 阅读全文
posted @ 2019-11-23 13:06 腹肌猿 阅读(265) 评论(0) 推荐(0) 编辑
摘要:今天闲着没事,用selenium抓取视频保存到本地,只爬取了第一页,只要小于等于5分钟的视频。。。 为什么不用requests,没有为什么,就因为有些网站正则和xpath都提取不出来想要的东西,要么就是接口出来的数据加密,要么就因为真正的视频url规律难找! selenium几行代码轻轻松松就搞定! 阅读全文
posted @ 2019-11-23 00:19 腹肌猿 阅读(1164) 评论(0) 推荐(0) 编辑
摘要:本文链接:https://github.com/soimort/you-get/wiki/%E4%B8%AD%E6%96%87%E8%AF%B4%E6%98%8E You-Get 乃一小小哒命令行程序,提供便利的方式来下载网络上的媒体信息。 利用you-get下载这个网页的视频: $ you-get 阅读全文
posted @ 2019-11-21 19:13 腹肌猿 阅读(1236) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示