摘要: 7.3日内容: 一、selenium剩余部分 二、BeautifulSoup4一、selenium剩余部分 -元素交互操作 1.点击、清除 2.Actions Chains 是一个动作链对象,需要把driver驱动传给它 动作链接对象可以操作一系列设定好的动作行为 3.frame切换 4.执行js代 阅读全文
posted @ 2019-07-03 17:48 Auraro997 阅读(107) 评论(0) 推荐(0) 编辑
摘要: 一、爬取豆瓣电影top250 1.爬取电影页 2.解析提取电影信息 3.保存数据 二、selenium请求库 -驱动浏览器往目标网站发送请求,获取响应数据 -不需要分析复杂通信流程 -执行js代码 -获取动态数据 三、怎么使用selenium -webdriver.Chorme() 打开驱动浏览器 阅读全文
posted @ 2019-07-03 17:45 Auraro997 阅读(90) 评论(0) 推荐(0) 编辑
摘要: 一、爬虫基本原理 -爬虫全过程 1.发送请求 2.接收响应数据 3.解析并提取有价值的数据 4.保存数据二、Requests请求库 -get url headers cookies - post url headers cookies data 三、爬取校花网视频 1.通过主页解析提取详情页 2.通 阅读全文
posted @ 2019-07-02 13:07 Auraro997 阅读(109) 评论(0) 推荐(0) 编辑
摘要: 一.request请求库爬取豆瓣电影信息 -请求url https://movie.douban.com/top250 -请求方式 GET -请求头 user-agent cookies二.selenium请求库 1.什么是selenium? 期初是一个自动化测试工具 原理是驱动浏览器执行一些一定好 阅读全文
posted @ 2019-07-02 12:59 Auraro997 阅读(140) 评论(0) 推荐(0) 编辑
摘要: 一.爬虫基本原理1.什么是爬虫?爬虫就是爬取数据2.什么是互联网?由一堆网络设备,把一台台的计算机互联到一起称之为互联网3.互联网建立的目的?数据的传递与数据的共享4.什么是数据?例如:电商平台的商品信息(淘宝、京东、亚马逊)、链家、自如租房平台(房源信息)、股票证券投资信息(东方财富、雪球网)、1 阅读全文
posted @ 2019-07-02 12:58 Auraro997 阅读(134) 评论(0) 推荐(0) 编辑
摘要: '''''' from selenium import webdriver # web驱动 from selenium.webdriver.common.keys import Keys # 键盘按键操作 import time import time driver = webdriver.Chrome() try: # 隐式等待: 需要在get之前调用 # 等待任意... 阅读全文
posted @ 2019-07-02 12:51 Auraro997 阅读(314) 评论(0) 推荐(0) 编辑
摘要: # web驱动 from selenium import webdriver from selenium.webdriver import ActionChains # 破解滑动验证码的时候用的 可以拖动图片 from selenium.webdriver.common.by import By # 按照什么方式查找,By.ID,By.CSS_SELECTOR from selenium.web... 阅读全文
posted @ 2019-07-02 12:49 Auraro997 阅读(159) 评论(0) 推荐(0) 编辑
摘要: ''' 爬取豆瓣电影信息 电影排名、电影url、电影名称 电影导演、电影主演、电影年份/类型 电影评分、电影评论、电影简介 分析所有主页的url ''' import requests import re # 爬虫三部曲 # 1.发送请求 def get_page(url): response = requests.get(url) # print(r... 阅读全文
posted @ 2019-07-02 12:47 Auraro997 阅读(266) 评论(0) 推荐(0) 编辑
摘要: ''' POST请求自动登陆ithub 请求URL: https://github.com/login 请求方式: POST 请求头: Cookie User-Agent:Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, l... 阅读全文
posted @ 2019-07-01 16:55 Auraro997 阅读(256) 评论(0) 推荐(0) 编辑
摘要: import time import requests # 爬虫三部曲 # 1.发送请求 def get_page(url): response = requests.get(url) return response # 2.解析数据 import re def parse_index(html): # findall匹配所有 # re.findall('正则匹配... 阅读全文
posted @ 2019-07-01 16:40 Auraro997 阅读(162) 评论(0) 推荐(0) 编辑