爬虫之协程,selenium
1.什么是代理?代理和爬虫之间的关联是什么? 2.在requests的get和post方法常用的参数有哪些?分别有什么作用?(四个参数) - url headers parmas/data proxies 3.在爬虫中如何处理cookie相关的操作?(两种方式) - 手动 - 自动 4.什么是动态请求参数?通常情况下如何捕获动态请求参数呢? - 每次请求都会发生变化的请求参数 - 通常情况下会被隐藏在前台页面 5.代理中的匿名度都有哪些?分别表示什么意思 6.什么是代理的类型?不同类型代理的区别是什么? - http - https 7.简述线程池中map方法的使用方式和其作用 func_return = map(func,list) 单线程+多任务异步协程 v3.6 - 意义:提升爬取数据的效率 - 实现异步爬虫的方式 - 多线程/多进程(不建议) - 池(适当) - 单线程+多任务异步协程(推荐) - 概念 - 协程:协程对象。可以使用async关键字修饰一个函数的定义(特殊的函数),当该特殊的函数被调用后,就可以返回一个协程对象。当函数调用后,函数内部的实现语句不会被立即执行。 - 协程 == 特殊函数 - 任务对象: - 本质上就是对协程对象进一步封装。 - 任务对象 == 特殊函数 - 给任务对象绑定一个回调 - add_done_callback(callback) - 事件循环(EventLoop):无限的循环对象 - 我们必须将任务对象注册到事件循环对象中,然后开启事件循环对象。 - 事件循环对象在执行任务对象的时候是基于异步 - await async - 注意事项: - 保证特殊函数内部不可以出现不支持异步模块对应的代码 - 在特殊函数内部遇到阻塞操作必须使用await关键字对其进行手动挂起 - 如果想要将多个任务对象注册到事件循环中,必须将多个任务对象封装到一个列表中,然后将列表注册(必须使用wait方法将列表中的任务对象进行挂起)到事件循环中 - aiohttp模块:是一个支持异步的网络请求模块 - pip install aiohttp selenium模块的使用 - 概念:就是一个基于浏览器自动化的模块。 - selenium和爬虫之间的关联 - 很便捷的捕获动态加载的数据 - 可见即可得 - 实现模拟登陆 - 使用 - 环境的安装: - pip install selenium - 下载一个浏览器的驱动程序 - 谷歌驱动下载:http://chromedriver.storage.googleapis.com/index.html - 驱动程序和浏览器版本的映射关系:http://blog.csdn.net/huilan_same/article/details/51896672 - 创建某一款一个浏览器对象 - 动作链 - 如果想要触发一系列连续的行为动作
- selenium
- 和爬虫之间的关联
- 爬取动态加载的数据(可见及可得)
- 模拟登陆
-
无头浏览器
- phantomJs:无可视化界面的浏览器
- 谷歌无头浏览器:
from selenium.webdriver.chrome.options import Options。
chrome_options = Options()
chrome_options.add_argument('--headless')
chrome_options.add_argument('--disable-gpu')
browser = webdriver.Chrome(executable_path=path, chrome_options=chrome_options)
- 规避监测
- 相关的网站会对selenium发起的请求进行监测
- 网站后台可以根据window.navigator.webdriver返回值进行selenium的监测
- undefinded:不是selenium进行的请求发送
- true:是selenium发起的请求
- 规避监测的方法:
from selenium.webdriver import ChromeOptions
option = ChromeOptions()
option.add_experimental_option('excludeSwitches', ['enable-automation'])
bro = webdriver.Chrome(executable_path='chromedriver.exe',options=option)
协程 : 导入 asyncio 包 步骤:1.创建一个协程对象。 2.根据协程对象封装了一个/一组(用列表表示)任务对象。 3.事件循环:创建一个事件循环对象, 将任务注册该对象中并且启动时间循环。 4.定义一个任务对象的回调函数。(add_done_callback(callback))
5.注意事项:在特殊函数内部不可以出现不支持异步模块相关的代码。(例:time,request) 6.- await async
7.aiohttp模块 :是一个支持一步的网络请求模块。
- 注意事项: - 保证特殊函数内部不可以出现不支持异步模块对应的代码 - 在特殊函数内部遇到阻塞操作必须使用await关键字对其进行手动挂起 - 如果想要将多个任务对象注册到事件循环中,必须将多个任务对象封装到一个列表中,然后将列表注册
(必须使用wait方法将列表中的任务对象进行挂起)到事件循环中
定义了一个特殊的函数 #特殊:调用后会返回一个协程对象,且函数内部的实现语句不会被立即执行 #创建一个协程对象 async def test(num): print(num) c = test(10) print(c)
#单个任务协程
import asyncio import time async def request(url): print('正在请求:',url) time.sleep(2) print('请求完毕!',url) return url #定义一个任务对象的回调函数 #task参数表示的就是该函数被绑定的那个任务对象 def task_callback(task): print('i am task_callback()') print(task.result()) #task.result()返回的就是任务对象对应的特殊函数内部的返回值 c = request('www.xxx.com') task = asyncio.ensure_future(c) task.add_done_callback(task_callback) loop = asyncio.get_event_loop() loop.run_until_complete(task)
多任务协程(由于在特殊函数内部出现了不支持异步模块(time.sleep)对应的代码 利用 asyncio 模块进行替代)
import asyncio import time start = time.time() #在特殊函数内部不可以出现不支持异步模块相关的代码 async def request(url): print('正在请求:',url) # time.sleep(2)#time模块是不支持异步 await asyncio.sleep(2) #阻塞操作必须使用await关键字进行挂起 print('请求完毕!',url) return url urls = [ 'www.1.com', 'www.2.com', 'www.3.com' ] def task_callback(task): print(task.result()) tasks = [] #多任务列表:存放多个任务对象 for url in urls: c = request(url) task = asyncio.ensure_future(c) task.add_done_callback(task_callback) tasks.append(task) #将多个任务对象装在到一个任务列表中 loop = asyncio.get_event_loop() #多任务注册 #wait就是将任务列表中的任务对象进行挂起 loop.run_until_complete(asyncio.wait(tasks)) print(time.time()-start)
aiohttp (由于requests 模块不支持异步 所以 用aiohttp 模块)
import asyncio import time import aiohttp start = time.time() #细节1:在每一个with前加上async关键字 #细节2:在get方法前和response.text()前加上await关键字进行手动挂起操作 async def request(url): async with aiohttp.ClientSession() as s: #s.get/post和requests中的get/post用法几乎一样:url,headers,data/prames #在s.get中如果使用代理操作:proxy="http://ip:port" async with await s.get(url) as response: #获取字符串形式的响应数据:response.text() #获取byte类型的:response.read() page_text = await response.text() return page_text urls = [] for i in range(500): urls.append('http://127.0.0.1:5000/bobo') def parse(task): #(回调函数) page_text = task.result() print(page_text+',请求到的数据!!!') tasks = [] for url in urls: c = request(url) task = asyncio.ensure_future(c) #(创建任务对象) task.add_done_callback(parse)#(给任务绑定一个回调) tasks.append(task) loop = asyncio.get_event_loop() loop.run_until_complete(asyncio.wait(tasks)) print(time.time()-start)
案例
import aiohttp import asyncio from lxml import etree all_titles = [] headers = { 'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.77 Safari/537.36' } async def request(url): async with aiohttp.ClientSession() as s: async with await s.get(url,headers=headers) as response: page_text = await response.text() return page_text urls = [] url = 'http://wz.sun0769.com/index.php/question/questionType?type=4&page=%d' for page in range(100): u_page = page * 30 new_url = format(url%u_page) urls.append(new_url) tasks = [] def parse(task): page_text = task.result() page_text = page_text.encode('gb2312').decode('gbk') tree = etree.HTML(page_text) tr_list = tree.xpath('//*[@id="morelist"]/div/table[2]//tr/td/table//tr') for tr in tr_list: title = tr.xpath('./td[2]/a[2]/text()')[0] print(title) all_titles.append(title) for url in urls: c = request(url) task = asyncio.ensure_future(c) task.add_done_callback(parse) tasks.append(task) loop = asyncio.get_event_loop() loop.run_until_complete(asyncio.wait(tasks))
selenium
演示
from selenium import webdriver from time import sleep # 后面是你的浏览器驱动位置,记得前面加r'','r'是防止字符转义的 driver = webdriver.Chrome(r'chromedriver.exe') # 用get打开百度页面 driver.get("http://www.baidu.com") # 查找页面的“设置”选项,并进行点击 driver.find_elements_by_link_text('设置')[0].click() sleep(2) # # 打开设置后找到“搜索设置”选项,设置为每页显示50条 driver.find_elements_by_link_text('搜索设置')[0].click() sleep(2) # 选中每页显示50条 m = driver.find_element_by_id('nr') sleep(2) m.find_element_by_xpath('//*[@id="nr"]/option[3]').click() m.find_element_by_xpath('.//option[3]').click() sleep(2) # 点击保存设置 driver.find_elements_by_class_name("prefpanelgo")[0].click() sleep(2) # 处理弹出的警告页面 确定accept() 和 取消dismiss() driver.switch_to_alert().accept() sleep(2) # 找到百度的输入框,并输入 美女 driver.find_element_by_id('kw').send_keys('美女') sleep(2) # 点击搜索按钮 driver.find_element_by_id('su').click() sleep(2) # 在打开的页面中找到“Selenium - 开源中国社区”,并打开这个页面 driver.find_elements_by_link_text('美女_百度图片')[0].click() sleep(3) # 关闭浏览器 driver.quit()
from selenium import webdriver from time import sleep bro = webdriver.Chrome(executable_path='chromedriver.exe') #发起指定url的请求 bro.get('https://www.jd.com/') #在搜索框中搜索商品 #可以使用find系列的方法进行标签定位 search_input = bro.find_element_by_xpath('//*[@id="key"]') #想搜索框中写入商品名称 search_input.send_keys('iphonex') sleep(2) btn = bro.find_element_by_xpath('//*[@id="search"]/div/div[2]/button') btn.click() sleep(2) #执行js让滚轮向下滑动 bro.execute_script('window.scrollTo(0,document.body.scrollHeight)') sleep(2) # bro.execute_script('window.scrollTo(0,-document.body.scrollHeight)') page_text = bro.page_source with open('./jingdong.html','w',encoding='utf-8') as fp: fp.write(page_text) print(page_text) sleep(4) #关闭浏览器 bro.quit()
联动操作
from selenium import webdriver from selenium.webdriver import ActionChains #动作连 from time import sleep bro = webdriver.Chrome(executable_path='chromedriver.exe') bro.get('https://www.runoob.com/try/try.php?filename=jqueryui-api-droppable') #定位要拖动的标签 #定位的标签是存在于iframe的子页面中,如果直接使用find做定位,是定位不到的 # target_ele = bro.find_element_by_id('draggable') #像定位iframe中子页面中的标签必须进行如下操作 bro.switch_to.frame('iframeResult') target_ele = bro.find_element_by_id('draggable') #基于动作连实现滑动操作 action = ActionChains(bro) #点击且长按 action.click_and_hold(target_ele) for i in range(5): #perform()表示立即执行动作连指定好的动作 action.move_by_offset(17,0).perform() sleep(0.5) action.release() sleep(4) bro.quit()
from selenium import webdriver from selenium.webdriver import ActionChains #动作连 from time import sleep bro = webdriver.Chrome(executable_path='chromedriver.exe') bro.get('https://www.runoob.com/try/try.php?filename=jqueryui-api-droppable') #定位要拖动的标签 #定位的标签是存在于iframe的子页面中,如果直接使用find做定位,是定位不到的 # target_ele = bro.find_element_by_id('draggable') #像定位iframe中子页面中的标签必须进行如下操作 bro.switch_to.frame('iframeResult') target_ele = bro.find_element_by_id('draggable') #基于动作连实现滑动操作 action = ActionChains(bro) #点击且长按 action.click_and_hold(target_ele) for i in range(5): #perform()表示立即执行动作连指定好的动作 action.move_by_offset(17,0).perform() sleep(0.5) action.release() sleep(4) bro.quit()
selenium 谷歌无头
from selenium import webdriver from selenium.webdriver.chrome.options import Options from time import sleep chrome_options = Options() chrome_options.add_argument('--headless') chrome_options.add_argument('--disable-gpu') bro = webdriver.Chrome(executable_path='chromedriver.exe', chrome_options=chrome_options) bro.get('https://www.baidu.com') sleep(3) print(bro.page_source) bro.save_screenshot('1.png') bro.quit()
selenium 规避检测 (检测按方法 在网页console 输入 window.navigator.webdriver)
from selenium import webdriver from selenium.webdriver import ChromeOptions option = ChromeOptions() option.add_experimental_option('excludeSwitches', ['enable-automation']) #实现了规避监测 bro = webdriver.Chrome(executable_path='chromedriver.exe',options=option) bro.get('https://www.taobao.com/')
无头和检测可以一起使用
selenium 爬取 案例
from selenium import webdriver from time import sleep from lxml import etree def scoll(): bro.execute_script('window.scrollTo(0,document.body.scrollHeight)') sleep(1) bro.execute_script('window.scrollTo(0,document.body.scrollHeight)') sleep(1) bro.execute_script('window.scrollTo(0,document.body.scrollHeight)') sleep(1) bro = webdriver.Chrome(executable_path='chromedriver.exe') url = 'https://bj.58.com/changping/ershoufang/?utm_source=market&spm=u-2d2yxv86y3v43nkddh1.BDPCPZ_BT&PGTID=0d30000c-0000-1ad9-49a6-09fbce3a62cf&ClickID=1' bro.get(url) #get是一个阻塞的方法 sleep(2) scoll() #每一个页码对应的页面源码数据 page_text_list = [] #第一页的页面源码数据 page_text = bro.page_source page_text_list.append(page_text) for i in range(1,3): scoll() next_page_btn = bro.find_element_by_xpath('/html/body/div[5]/div[5]/div[1]/div[2]/a[6]') next_page_btn.click() sleep(1) page_text = bro.page_source page_text_list.append(page_text) for page_text in page_text_list: tree = etree.HTML(page_text) tree.xpath('')