随笔分类 - 网络爬虫

Selenium及Headless Chrome抓取动态HTML页面

摘要：一般的的静态HTML页面可以使用requests等库直接抓取，但还有一部分比较复杂的动态页面，这些页面的DOM是动态生成的，有些还需要用户与其点击互动，这些页面只能使用真实的浏览器引擎动态解析，Selenium和Chrome Headless可以很好的达到这种目的。 Headless Chrome 阅读全文

posted @ 2019-01-04 17:16 再见紫罗兰阅读(12788) 评论(1) 推荐(2) 编辑

Python爬取视频(其实是一篇福利)

摘要：窗外下着小雨，作为单身程序员的我逛着逛着发现一篇好东西，来自知乎你都用 Python 来做什么？的第一个高亮答案。到上面去看了看，地址都是明文的，得，赶紧开始吧。下载流式文件，requests库中请求的stream设为True就可以啦，文档在此。先找一个视频地址试验一下：遭遇当头一棒：这阅读全文

posted @ 2018-01-09 00:14 再见紫罗兰阅读(69425) 评论(13) 推荐(12) 编辑

随笔分类 - 网络爬虫

公告

搜索

随笔分类 (131)

随笔档案 (111)

阅读排行榜

评论排行榜

推荐排行榜

最新评论