03 爬虫之selenium模块

selenium模块

1.概念,了解selenium

　　什么是selenium？selenium是Python的一个第三方库，对外提供的接口可以操作浏览器，然后让浏览器完成自动化的操作。　
　　selenium最初是一个自动化测试工具,而爬虫中使用它主要是为了解决requests无法直接执行JavaScript代码的问题 selenium本质是通过驱动浏览器，完全模拟浏览器的操作，比如跳转、输入、点击、下拉等，来拿到网页渲染之后的结果，可支持多种浏览器

2.下载安装selenium

2.1下载驱动

http://npm.taobao.org/mirrors/chromedriver/2.35/　　

if mac系统：

然后将解压后的chromedriver移动到/usr/local/bin目录下

if window系统：

下载chromdriver.exe放到python安装路径的scripts目录中即可，注意最新版本是2.38，并非2.9

2.2 安装pip包

pip3 install -i https://pypi.tuna.tsinghua.edu.cn/simple selenium

3.selenium的基本使用

3.1简单实用示例:

 1 ################################## 1 简单使用 # ##################################
 2 用get打开百度页面
 3 driver = webdriver.Chrome()
 4 driver.get("http://www.baidu.com")
 5 input=driver.find_element_by_id("kw")
 6 input.send_keys("美女")
 7 sleep(2)
 8 
 9 法一:
10 input.send_keys(Keys.ENTER)   #按回车确定
11 
12 法二:模拟点击
13 search=driver.find_element_by_id("su")
14 search.click()
15 sleep(5)
16 driver.close()

3.2 元素定位

################################## 2 元素定位方法 # ##################################
search.find_element_by_class_name()
search.find_element_by_name()
search.find_element_by_link_text()
search.find_element_by_partial_link_text()
search.find_element_by_css_selector(".c1 p")
search.find_element_by_xpath("//*[@id=i1]/a")

#结果是一个列表
search.find_elements_by_class_name()

3.3节点信息的查看

1 #################  节点信息
2 print(content_left.tag_name) # div
3 print(content_left.get_attribute("id"))
4 print(content_left.size) # {'height': 1453, 'width': 661}
5 print(content_left.location) # {'x': 0, 'y': 133}
6 driver.close()

3.4 节点交互

######################################## 3节点交互 ###########################
driver = webdriver.Chrome()
driver.get("https://www.jd.com/")

# 节点定位:搜索框标签
input=driver.find_element_by_id("key")
input.send_keys("MAC")   #向标签内输入内容
sleep(2)
input.clear()   #清空标签内容
input.send_keys("书")
sleep(1)
input.send_keys(Keys.ENTER)  #模仿回车键
sleep(10)
driver.close()

3.5 动作链

################################ 4 动作链 #####################################

from selenium.webdriver import ActionChains
Driver = webdriver.Chrome()
url = 'http://www.runoob.com/try/try.php?filename=jqueryui-api-droppable'
Driver.get(url)
Driver.switch_to.frame('iframeResult')   ##因为该页面中有两个HTML文件,需要选择其中一个
source = Driver.find_element_by_css_selector('#draggable')
target = Driver.find_element_by_css_selector('#droppable')
actions = ActionChains(Driver)
# actions.drag_and_drop(source, target)
actions.click_and_hold(source).perform()
sleep(2)
actions.move_to_element(target).perform()
sleep(2)
actions.move_by_offset(xoffset=50,yoffset=0).perform()

actions.release()
Driver.close()

3.6 JS代码的使用(重点很重要)

1 ################################### 5 执行JavaScript ##########################
2 
3 
4 from selenium import webdriver
5 #
6 browser = webdriver.Chrome()
7 browser.get('https://www.jd.com/')
8 browser.execute_script('window.scrollTo(0, document.body.scrollHeight)')  #模仿鼠标将下拉条拉到底部
9 browser.execute_script('alert("123")')

3.7 Cookie

 1 #####################################  cookie ##############################
 2 from selenium import webdriver
 3 #
 4 browser = webdriver.Chrome()
 5 browser.get('https://www.zhihu.com/explore')
 6 print(browser.get_cookies()) #获取Cookie
 7 browser.add_cookie({'name': 'alex', 'domain': 'www.zhihu.com', 'value': '123'})  #增加写入COOKIE
 8 print(browser.get_cookies())
 9 browser.delete_all_cookies()  #清除所有Cookie
10 print(browser.get_cookies())

3.8 隐式等待和显式等待

 1 ################  隐式等待:在查找所有元素时，如果尚未被加载，则等10秒
 2 # driver.implicitly_wait(10)
 3 
 4 ###############   显示等待
 5 # from selenium.webdriver.common.by import By #按照什么方式查找，By.ID,By.CSS_SELECTOR
 6 # from selenium.webdriver.support import expected_conditions as EC
 7 # from selenium.webdriver.support.wait import WebDriverWait
 8 #显式等待：显式地等待某个元素被加载
 9 # wait=WebDriverWait(driver,10)
10 # wait.until(EC.presence_of_element_located((By.ID,'content_left')))
11 #
12 # content_left=driver.find_element_by_id("content_left")

phantomJs

　　PhantomJS是一款无界面的浏览器，其自动化操作流程和上述操作谷歌浏览器是一致的。由于是无界面的，为了能够展示自动化操作流程，PhantomJS为用户提供了一个截屏的功能，使用save_screenshot函数实现。

简单用法示例:

from selenium import webdriver
import time

# # phantomjs路径
path = r'C:\Users\Administrator\AppData\Local\Postman\app-6.7.3\Postman.exe'
browser = webdriver.PhantomJS(path)

# # 打开百度
url = 'http://www.baidu.com/'
browser.get(url)

time.sleep(1)

browser.save_screenshot(r'baidu.png')

# 查找input输入框
my_input = browser.find_element_by_id('kw')

# 往框里面写文字
my_input.send_keys('美女')
time.sleep(3)

#截屏
browser.save_screenshot(r'meinv.png')

# 查找搜索按钮
button = browser.find_elements_by_class_name('s_btn')[0]
button.click()
time.sleep(1)
browser.save_screenshot(r'show.png')
time.sleep(1)
browser.quit()



################################################ 案例 ##########################################################

from selenium import webdriver
from time import sleep
import time

if __name__ == '__main__':
    url = 'https://movie.douban.com/typerank?type_name=%E6%81%90%E6%80%96&type=20&interval_id=100:90&action='
    # 发起请求前，可以让url表示的页面动态加载出更多的数据
    path = r'C:\Users\Administrator\AppData\Local\Postman\app-6.7.3\Postman.exe'
    # 创建无界面的浏览器对象
    bro = webdriver.PhantomJS(path)
    # 发起url请求
    bro.get(url)
    time.sleep(2)
    # 截图
    bro.save_screenshot('1.png')

    # 执行js代码（让滚动条向下偏移n个像素（作用：动态加载了更多的电影信息））
    js = 'window.scrollTo(0,document.body.scrollHeight)'
    bro.execute_script(js)  # 该函数可以执行一组字符串形式的js代码
    time.sleep(2)

    bro.execute_script(js)  # 该函数可以执行一组字符串形式的js代码
    time.sleep(2)
    bro.save_screenshot('2.png')
    time.sleep(2)
    # 使用爬虫程序爬去当前url中的内容
    html_source = bro.page_source # 该属性可以获取当前浏览器的当前页的源码（html）
    print(html_source)
    with open('new_source.html', 'w',encoding="utf8") as fp:
        fp.write(html_source)
    bro.quit()

View Code

重点：selenium+phantomjs 就是爬虫终极解决方案:有些网站上的内容信息是通过动态加载js形成的，所以使用普通爬虫程序无法回去动态加载的js内容。例如豆瓣电影中的电影信息是通过下拉操作动态加载更多的电影信息。
综合操作：需求是尽可能多的爬取豆瓣网中的电影信息

滑动验证码简单破解示例:

  1 from selenium import webdriver
  2 from selenium.webdriver.support.ui import WebDriverWait # 等待元素加载的
  3 from selenium.webdriver.common.action_chains import ActionChains  #拖拽
  4 from selenium.webdriver.support import expected_conditions as EC
  5 from selenium.common.exceptions import TimeoutException, NoSuchElementException
  6 from selenium.webdriver.common.by import By
  7 from PIL import Image
  8 import requests
  9 import re
 10 import random
 11 from io import BytesIO
 12 import time
 13 
 14 
 15 def merge_image(image_file,location_list):
 16     """
 17      拼接图片
 18     """
 19     im = Image.open(image_file)
 20     im.save('code.jpg')
 21     new_im = Image.new('RGB',(260,116))
 22     # 把无序的图片 切成52张小图片
 23     im_list_upper = []
 24     im_list_down = []
 25     # print(location_list)
 26     for location in location_list:
 27         # print(location['y'])
 28         if location['y'] == -58: # 上半边
 29             im_list_upper.append(im.crop((abs(location['x']),58,abs(location['x'])+10,116)))
 30         if location['y'] == 0:  # 下半边
 31             im_list_down.append(im.crop((abs(location['x']),0,abs(location['x'])+10,58)))
 32 
 33     x_offset = 0
 34     for im in im_list_upper:
 35         new_im.paste(im,(x_offset,0))  # 把小图片放到 新的空白图片上
 36         x_offset += im.size[0]
 37 
 38     x_offset = 0
 39     for im in im_list_down:
 40         new_im.paste(im,(x_offset,58))
 41         x_offset += im.size[0]
 42     #new_im.show()
 43     return new_im
 44 
 45 def get_image(driver,div_path):
 46     '''
 47     下载无序的图片  然后进行拼接 获得完整的图片
 48     :param driver:
 49     :param div_path:
 50     :return:
 51     '''
 52     background_images = driver.find_elements_by_xpath(div_path)
 53     location_list = []
 54     for background_image in background_images:
 55         location = {}
 56         result = re.findall('background-image: url\("(.*?)"\); background-position: (.*?)px (.*?)px;',background_image.get_attribute('style'))
 57         # print(result)
 58         location['x'] = int(result[0][1])
 59         location['y'] = int(result[0][2])
 60 
 61         image_url = result[0][0]
 62         location_list.append(location)
 63     image_url = image_url.replace('webp','jpg')
 64     # '替换url http://static.geetest.com/pictures/gt/579066de6/579066de6.webp'
 65     image_result = requests.get(image_url).content
 66     image_file = BytesIO(image_result) # 是一张无序的图片
 67     image = merge_image(image_file,location_list)
 68 
 69     return image
 70 
 71 
 72 def get_track(distance):
 73 
 74     # 初速度
 75     v=0
 76     # 单位时间为0.2s来统计轨迹，轨迹即0.2内的位移
 77     t=0.2
 78     # 位移/轨迹列表，列表内的一个元素代表0.2s的位移
 79     tracks=[]
 80     tracks_back=[]
 81     # 当前的位移
 82     current=0
 83     # 到达mid值开始减速
 84     mid=distance * 7/8
 85     print("distance",distance)
 86     global random_int
 87     random_int=8
 88     distance += random_int # 先滑过一点，最后再反着滑动回来
 89 
 90     while current < distance:
 91         if current < mid:
 92             # 加速度越小，单位时间的位移越小,模拟的轨迹就越多越详细
 93             a = random.randint(2,5)  # 加速运动
 94         else:
 95             a = -random.randint(2,5) # 减速运动
 96         # 初速度
 97         v0 = v
 98         # 0.2秒时间内的位移
 99         s = v0*t+0.5*a*(t**2)
100         # 当前的位置
101         current += s
102         # 添加到轨迹列表
103         if round(s)>0:
104             tracks.append(round(s))
105         else:
106             tracks_back.append(round(s))
107 
108 
109         # 速度已经达到v,该速度作为下次的初速度
110         v= v0+a*t
111 
112         print("tracks:",tracks)
113         print("tracks_back:",tracks_back)
114         print("current:",current)
115 
116     # 反着滑动到大概准确位置
117 
118     tracks_back.append(distance-current)
119     tracks_back.extend([-2,-5,-8,])
120 
121     return tracks,tracks_back
122 
123 
124 def get_distance(image1,image2):
125     '''
126        拿到滑动验证码需要移动的距离
127       :param image1:没有缺口的图片对象
128       :param image2:带缺口的图片对象
129       :return:需要移动的距离
130       '''
131     # print('size', image1.size)
132 
133     threshold = 50
134     for i in range(0,image1.size[0]):  # 260
135         for j in range(0,image1.size[1]):  # 160
136             pixel1 = image1.getpixel((i,j))
137             pixel2 = image2.getpixel((i,j))
138             res_R = abs(pixel1[0]-pixel2[0]) # 计算RGB差
139             res_G = abs(pixel1[1] - pixel2[1])  # 计算RGB差
140             res_B = abs(pixel1[2] - pixel2[2])  # 计算RGB差
141             if res_R > threshold and res_G > threshold and res_B > threshold:
142                 return i  # 需要移动的距离
143 
144 
145 def main_check_code(driver,element):
146     """
147     拖动识别验证码
148     :param driver:
149     :param element:
150     :return:
151     """
152 
153     login_btn = driver.find_element_by_class_name('js-login')
154     login_btn.click()
155 
156     element = WebDriverWait(driver, 30, 0.5).until(EC.element_to_be_clickable((By.CLASS_NAME, 'gt_guide_tip')))
157     slide_btn = driver.find_element_by_class_name('gt_guide_tip')
158     slide_btn.click()
159 
160 
161 
162     image1 = get_image(driver, '//div[@class="gt_cut_bg gt_show"]/div')
163     image2 = get_image(driver, '//div[@class="gt_cut_fullbg gt_show"]/div')
164     # 图片上 缺口的位置的x坐标
165 
166     # 2 对比两张图片的所有RBG像素点，得到不一样像素点的x值，即要移动的距离
167     l = get_distance(image1, image2)
168     print('l=',l)
169 
170     # 3 获得移动轨迹
171     track_list = get_track(l)
172     print('第一步,点击滑动按钮')
173     element = WebDriverWait(driver, 30, 0.5).until(EC.element_to_be_clickable((By.CLASS_NAME, 'gt_slider_knob')))
174     ActionChains(driver).click_and_hold(on_element=element).perform()  # 点击鼠标左键，按住不放
175     import time
176     time.sleep(0.4)
177     print('第二步,拖动元素')
178     for track in track_list[0]:
179          ActionChains(driver).move_by_offset(xoffset=track, yoffset=0).perform()  # 鼠标移动到距离当前位置（x,y）
180     #time.sleep(0.4)
181     for track in track_list[1]:
182           ActionChains(driver).move_by_offset(xoffset=track, yoffset=0).perform()  # 鼠标移动到距离当前位置（x,y）
183           time.sleep(0.1)
184     import time
185     time.sleep(0.6)
186     # ActionChains(driver).move_by_offset(xoffset=2, yoffset=0).perform()  # 鼠标移动到距离当前位置（x,y）
187     # ActionChains(driver).move_by_offset(xoffset=8, yoffset=0).perform()  # 鼠标移动到距离当前位置（x,y）
188     # ActionChains(driver).move_by_offset(xoffset=2, yoffset=0).perform()  # 鼠标移动到距离当前位置（x,y）
189     print('第三步,释放鼠标')
190     ActionChains(driver).release(on_element=element).perform()
191     time.sleep(1)
192 
193 def main_check_slider(driver):
194     """
195     检查滑动按钮是否加载
196     :param driver:
197     :return:
198     """
199     while True:
200         try :
201             driver.get('https://www.huxiu.com/')
202             element = WebDriverWait(driver, 30, 0.5).until(EC.element_to_be_clickable((By.CLASS_NAME, 'js-login')))
203             if element:
204                 return element
205         except TimeoutException as e:
206             print('超时错误，继续')
207             time.sleep(5)
208 
209 if __name__ == '__main__':
210 
211     try:
212         count = 3  # 最多识别3次
213         driver = webdriver.Chrome()
214         while count > 0:
215             # 等待滑动按钮加载完成
216             element = main_check_slider(driver)
217             main_check_code(driver,element)
218             try:
219                 success_element = (By.CSS_SELECTOR, '.gt_success')
220                 # 得到成功标志
221                 success_images = WebDriverWait(driver,3).until(EC.presence_of_element_located(success_element))
222                 if success_images:
223                     print('成功识别！！！！！！')
224                     count = 0
225                     import sys
226                     sys.exit()
227             except Exception as e:
228                 print('识别错误，继续')
229                 count -= 1
230                 time.sleep(1)
231         else:
232             print('too many attempt check code ')
233             exit('退出程序')
234     finally:
235         driver.close()