一、selenium是什么?
selenium最初是一个自动化测试工具,而爬虫中使用它主要是为了解决requests无法执行javaScript代码的问题。
二、为什么要用selenium?
selenium可以驱动浏览器自动执行自定义好的逻辑代码,也就是可以通过代码完全模拟成人类使用浏览器自动访问目标站点并操作,那我们也可以拿它来做爬虫。
selenium本质上是通过驱动浏览器,完全模拟浏览器的操作,比如跳转、输入、点击、下拉等...进而拿到网页渲染之后的结果,可支持多种浏览器。
那么对于爬虫来说,用它有没有好处?有,好处就是可以帮我们避开一系列复杂的通信流程,例如在我们之前学习的requests模块,那么requests模块在模拟请求的时候是不是需要把素有的通信流程都分析完成后才能通过请求,然后返回响应。假如目标站点有一系列复杂的通信流程,例如的登录时的滑动验证等...那么你使用requests模块的时候是不是就特别麻烦了。不过你也不需要担心,因为网站的反爬策略越高,那么用户的体验效果就越差,所以网站都需要在用户的淫威之下降低安全策略。
再看一点requests请求库能不能执行js?是不是不能呀!那么如果你的网站需要发送ajax请求,异步获取数据渲染到页面上,是不是就需要使用js发送请求了。那浏览器的特点是什么?是不是可以直接访问目标站点,然后获取对方的数据,从而渲染到页面上。那这些就是使用selenium的好处!
那用它有没有坏处?使用selenium本质上是驱动浏览器对目标站点发送请求,那浏览器在访问目标站点的时候,是不是都需要把静态资源都加载完毕。html、css、js这些文件是不是都要等待它加载完成。是不是速度特别慢。那用它的坏处就是效率极低!所以我们一般用它来做登录验证。
from selenium import webdriver from selenium.webdriver.common.keys import Keys import time driver = webdriver.Chrome() try: driver.implicitly_wait(10) driver.get('https://www.jd.com/') input_tag = driver.find_element_by_id('key') input_tag.send_keys('哈利波特') input_tag.send_keys(Keys.ENTER) time.sleep(10) except Exception as e: print(e) finally: driver.close()
from selenium import webdriver # 导入键盘Keys from selenium.webdriver.common.keys import Keys import time driver = webdriver.Chrome() # 检测代码块 try: # 隐式等待,等待标签加载 driver.implicitly_wait(10) # 往京东主页发送请求 driver.get('https://www.jd.com/') # 通过id查找input输入框 input_tag = driver.find_element_by_id('key') # send_keys为当前标签传值 input_tag.send_keys('中华字典') # 按键盘的回车键 input_tag.send_keys(Keys.ENTER) time.sleep(3) ''' 爬取京东商品信息: 公仔 名称 url 价格 评价 ''' # element 找一个 # elements 找多个 # 查找所有的商品列表 good_list = driver.find_elements_by_class_name('gl-item') # print(good_list) # 循环遍历每一个商品 for good in good_list: # 通过属性选择器查找商品详情页url # url good_url = good.find_element_by_css_selector('.p-img a').get_attribute('href') print(good_url) # 名称 good_name = good.find_element_by_css_selector('.p-name em').text print(good_name) # 价格 good_price = good.find_element_by_class_name('p-price').text print(good_price) # 评价数 good_commit = good.find_element_by_class_name('p-commit').text print(good_commit) str1 = f''' url: {good_url} 名称: {good_name} 价格: {good_price} 评价: {good_commit} \n ''' # 把商品信息写入文本中 with open('jd.txt', 'a', encoding='utf-8') as f: f.write(str1) time.sleep(10) # 捕获异常 except Exception as e: print(e) # 最后都会把驱动浏览器关闭掉 finally: driver.close()