selenium爬取异步加载的网站
为了便利化使用selenium驱动浏览器进行操作,遇到一个网页,大部分内容都是通过xhr请求后再通过前端js处理显示,
带来的一个问题就是,采用显示等待无法准确的定位到需要的节点。因此,需要考虑采用判断xhr请求是否完成后再进行定
位,或者直接获取xhr请求返回内容的做法。
参考链接:
import json from selenium import webdriver from selenium.webdriver import DesiredCapabilities import os,time
配置浏览器启动参数
def get_log_options(): option = webdriver.ChromeOptions() option.add_argument('--no-sandbox') #option.add_argument('--headless') # 设置无头浏览 option.add_argument("--disable-extensions") option.add_argument('--disable-infobars') # 禁用浏览器正在被自动化程序控制的提示 option.add_argument("--allow-running-insecure-content") option.add_argument("--ignore-certificate-errors") option.add_argument("--disable-single-click-autofill") option.add_argument("--disable-autofill-keyboard-accessory-view[8]") option.add_argument("--disable-full-form-autofill-ios") option.add_argument('user-agent=Mozilla/5.0 (Macintosh; Intel Mac OS X 10.14; rv:55.0) Gecko/20100101 Firefox/55.0') option.add_experimental_option('w3c', False) option.add_experimental_option('perfLoggingPrefs', { 'enableNetwork': True, 'enablePage': False, }) option.add_experimental_option('prefs',{ #不弹出去请求 'profile.default_content_settings.popups':0, #设置默认下载文件目录 'download.default_directory':save_folder, # 禁止提示 'profile.default_content_setting_values':{ 'notifications': 2 } }) return option def get_caps(): caps = DesiredCapabilities.CHROME caps['loggingPrefs'] = { 'browser': 'ALL', 'performance': 'ALL', } caps['perfLoggingPrefs'] = { 'enableNetwork': True, 'enablePage': False, 'enableTimeline': False } return caps
# 获取日志中的xhr结果 def get_xhr_logs(chrome): log_xhr_array = [] for typelog in chrome.log_types: perfs = chrome.get_log(typelog) for row in perfs: log_data = row message_ = log_data['message'] try: log_json = json.loads(message_) log = log_json['message'] if log['method'] == 'Network.responseReceived': # 去掉静态js、css等,仅保留xhr请求 type_ = log['params']['type'] if type_ == "XHR": log_xhr_array.append(log) except: pass return log_xhr_array # 根据id获取返回结果 def get_xhr_body(driver, requestId): response_body = driver.execute_cdp_cmd('Network.getResponseBody', {'requestId': requestId}) return response_body
考虑部分xhr请求较慢,增加一个判断指定请求是否完成的函数来判断执行情况。
# 等待直到某个xhr出现,返回整个异步情况吧 def wait_until_xhr_do(url='',limit = 10): tick = 0 while tick < limit: logs = get_xhr_logs(chrome) if url == '': if len(logs) > 0: return logs else: for log in logs: if url in logs['params']['response']['url']: return logs tick = tick + 1 return []
最终案例参考:
if __name__ == '__main__': # 使用工具类来获取options配置,而不是平时的webdriver.ChromeOptions()方法 options = get_log_options() # 使用工具类来获取caps desired_capabilities = get_caps() # 这里也可以对options和caps加入其他的参数,比如代理参数等 chrome = webdriver.Chrome(options=options, desired_capabilities=desired_capabilities) chrome.get("https://spa6.scrape.center/") # "https://www.baidu.com/" chrome.maximize_window() # 点击下一页 el= chrome.find_element_by_xpath('//button[@class="btn-next"]') el.click() # 执行等待 logs = wait_until_xhr_do() # 输出结果 if len(logs) > 0: print(logs[0]['params']['response']['url']) body = get_xhr_body(chrome, logs[0]['params']['requestId']) # 使用eval转换遇到null会有问题,改为使用Json转换 response = json.loads((body['body'])) print(response)