随笔分类 -  网络爬虫

摘要:一般的的静态HTML页面可以使用requests等库直接抓取,但还有一部分比较复杂的动态页面,这些页面的DOM是动态生成的,有些还需要用户与其点击互动,这些页面只能使用真实的浏览器引擎动态解析,Selenium和Chrome Headless可以很好的达到这种目的。 Headless Chrome 阅读全文
posted @ 2019-01-04 17:16 再见紫罗兰 阅读(12788) 评论(1) 推荐(2) 编辑
摘要:窗外下着小雨,作为单身程序员的我逛着逛着发现一篇好东西,来自知乎 你都用 Python 来做什么?的第一个高亮答案。 到上面去看了看,地址都是明文的,得,赶紧开始吧。 下载流式文件,requests库中请求的stream设为True就可以啦,文档在此。 先找一个视频地址试验一下: 遭遇当头一棒: 这 阅读全文
posted @ 2018-01-09 00:14 再见紫罗兰 阅读(69425) 评论(13) 推荐(12) 编辑

点击右上角即可分享
微信分享提示