Python爬虫系统化学习(2)
动态网页爬取
当网页使用Javascript时候,很多内容不会出现在HTML源代码中,所以爬取静态页面的技术可能无法使用。因此我们需要用动态网页抓取的两种技术:通过浏览器审查元素解析网页的真实地址和使用Selenium模拟浏览器的方法。
异步更新技术AJAX(Asynchronous Javascript And XML,异步Javascript 和XML):通过后台与服务器进行少量的数据交互实现异步更新。
Selenium模块
百度解释:Selenium [1] 是一个用于Web应用程序测试的
通俗来说就是Selenium可以模拟浏览器去执行一些操作,虽然操作会慢,但是可以用来爬取动态页面,相较于request有更大的优点。
request与selenium访问页面的比较(防止混淆)
#request访问 #!/usr/bin/python #coding:utf-8 link="http://www.bilibili.com" r=requestss.get(link) print(r.text) #selenium访问 #!/usr/bin/python #coding:utf-8 from selenium import webdriver from selenium.webdriver.common.keys import Keys driver=webdriver.Firefox(executable_path=r'D:\geckodriver.exe') #这里的geckodriver.exe是驱动程序,最新版的selenium不添加是不会执行的 link="http://www.bilibili.com" dirver.get(link)
可以看到除了使用的库不一样,selenium还需要额外使用驱动程序,下载地址如下:
下载地址:https://github.com/mozilla/geckodriver/releases
Selenium的有点在于,它可以根据元素进行具体的选择,整理如下:
方法 | 作用 | 样例 |
---|---|---|
find_element_by_css_selector | 通过class选择 | 比如<div class='bdy-as'>test<div>可以用driver.find_element_by_css_seletor('div.bdy-as') |
find_element_by_xpath | 通过xpath选择 | 比如<form id="loginForm">可以用driver.find_element_by_xpath("//form[@id='loginForm']") |
find_element_by_id | 通过id进行选择 | 比如<div id="bdy-as">textL</div>可以使用driver.find_element_by_id('bdy-as') |
find_element_by_name | 通过元素name选择 | 比如<input name="username" type="text"/> driver.find_element_by_name('username') |
find_element_by_tag_name | 通过元素的名字进行选择 | 比睿<h1>haha</h1>可使用driver.find_element_by_tag_name('h1') |
selenium高级操作:
根据selenium可以对抓取内容进行限制,使用的是FirefoxProfile()这个函数去创建句柄
from selenium import webdriver fp = webdriver.FirefoxProfile() #禁止层叠样式表CSS fp.set_preference("permissions.default.stylesheet",2) #禁止图片加载 fp.set_preference("permissions.default.image",2) #禁止JS的运行 fp.set_preference("javascript.enabled",false)
使用三种限制方法可以加速对网页的访问
Selenium实战:爬取猎聘网渗透测试相关信息
由于猎聘网有反爬以及我选择的class存在缺憾,爬取到的只有岗位和薪资,欠缺了公司和地址,但是通过多次被反爬我大概有了反反爬虫的思路。
将爬取猎聘网的代码列下,仅供参考:
#coding:utf-8 import requests import time from selenium import webdriver from selenium.webdriver.common.keys import Keys driver=webdriver.Firefox(executable_path=r'D:\geckodriver.exe') link="https://www.liepin.com/zhaopin/?sfrom=click-pc_homepage-centre_searchbox-search_new&d_sfrom=search_fp&key=%E6%B8%97%E9%80%8F%E6%B5%8B%E8%AF%95" driver.get(link) #找到文本框,输入渗透测试,输入回车 job_list=driver.find_elements_by_css_selector('div.job-info') for each in job_list: name=each.find_element_by_tag_name('h3').text money=each.find_element_by_css_selector('span.text-warning').text edu=each.find_element_by_css_selector('span.edu').text ALL=name+money+edu+'\n' with open ('a.txt',"a+") as f: f.write(ALL)