day02 request请求库爬取豆瓣电影信息,selenium

请求URL:
https://movie.douban.com/top250
请求方式:
GET
请求头:
user-agent
Cookies
爬取豆瓣信息:
电影名称,电影url,电影导演
电影主演,电影年份,电影类型
电影评分,电影评论,电影简介
分析所有主页的url
第一页:https://movie.douban.com/top250?start=0&filter=
第二页:https://movie.douban.com/top250?start=25&filter=
import requests
import re
def get_page(url):
response = requests.get(url)
#print(response.text)
return response
def parse_index(html):
"""''''''
''''''"""
movie_list = re.findall(
'
.*?(.*?).*?.*?(.
 

 

 
 
1.什么是selenium
期初是一个自动化测试工具
原理是驱动浏览器执行一些一定好的操作
爬虫本质是模拟浏览器,所以可以用它来做爬虫
2.为什么使用selenium
优点:
执行js代码
不需要分析复杂的通信流程
可以对浏览器做弹窗,下拉等操作
获取动态数据
破解登陆验证
缺点:
执行效率低
安装与使用
1. 安装selenium请求库:
pip3 install selenium
2. 必须安装浏览器
"谷歌"或者火狐
3.安装浏览器驱动
http://npm.taobao.org/mirrors/chromedriver/2.38/
windows:
下载win32驱动
fromseleniumimportwebdriver#web驱动
fromselenium.webdriver.chrome.webdriverimportWebDriver
fromselenium.webdriver.common.byimportBy#按照什么方式查找,By.ID,By.CSS_SELECTOR
fromselenium.webdriver.common.keysimportKeys#键盘按键操作
fromselenium.webdriver.supportimportexpected_conditionsasEC#和下面WebDriverWait一起用的
fromselenium.webdriver.support.waitimportWebDriverWait#等待页面加载某些元素
importtime
importtime
#方式一:通过驱动打开浏览器
#driver=webdriver.Chrome(r'驱动的绝对路径/webdriver.exe')
#方式二:把webdriver.exe驱动放到python解释器安装目录/Scripts文件夹中
#python解释器安装目录/Scripts配置环境变量
#python解释器安装目录配置环境变量
driver=webdriver.Chrome()
try:
driver.get('https://www.jd.com/')
#获取显式等待对象10秒
#可以等待某个标签加载10秒
wait=WebDriverWait(driver,10)
#查找元素id为key
input_tag=wait.until(EC.presence_of_element_located(
(By.ID,'key')
))
time.sleep(5)
#在输入框内输入商品名称
input_tag.send_keys('公仔')
#按下键盘回车键
input_tag.send_keys(Keys.ENTER)
time.sleep(20)
finally:
#关闭浏览器释放操作系统资源
driver.close() 
posted @ 2019-07-02 21:37  chiningmeng  阅读(176)  评论(0编辑  收藏  举报