python网页爬虫开发之六-Selenium使用

Posted on 2018-10-25 16:44 昕阅读(242) 评论(0) 收藏举报

chromedriver禁用图片，禁用js，切换UA

selenium 模拟chrome浏览器，此时就是一个真实的浏览器，一个浏览器该加载的该渲染的它都加载都渲染，所以爬取网页的速度很慢。如果可以不加载图片等操作，网页加载速度就会快不少，代码中列出了了禁用图片，禁用JS，切换UA的方法。

from selenium import webdriver

from fake_useragent import UserAgent

ua = UserAgent().random

print(ua)

chrome_options = webdriver.ChromeOptions()

prefs = {

'profile.default_content_setting_values': {

# 也可以这样写，两种都正确

# 'profile.default_content_settings': {

'images': 2, # 不加载图片

'javascript': 2, # 不加载JS

"User-Agent": ua, # 更换UA

}

chrome_options.add_experimental_option("prefs", prefs)

browser = webdriver.Chrome(executable_path="C:/codeapp/seleniumDriver/chrome/chromedriver.exe", chrome_options=chrome_options)

#这个网页可以显示浏览器的信息，这样我们就可以看到我们的UA信息，

url = "https://httpbin.org/get?show_env=1"

browser.get(url)

刷新页面返回顶部

joxin