摘要: selenium 模拟chrome浏览器,此时就是一个真实的浏览器,一个浏览器该加载的该渲染的它都加载都渲染,所以爬取网页的速度很慢。如果可以不加载图片等操作,网页加载速度就会快不少,代码中列出了了禁用图片,禁用JS,切换UA的方法。 from selenium import webdriver f 阅读全文
posted @ 2018-01-31 08:45 outback123 阅读(4241) 评论(0) 推荐(0) 编辑
摘要: phantomjs是一个没有界面的浏览器,支持各种web标准,提供DOM 处理, CSS 选择器, JSON, Canvas, 和 SVG,对于爬取一些经过js渲染的页面非常有用。但是phantomjs默认的user-agent一般都被那些防采集的网站屏蔽了,鬼都知道用这个浏览器,都是来爬取网页的, 阅读全文
posted @ 2018-01-31 08:43 outback123 阅读(812) 评论(0) 推荐(0) 编辑