Auraro997 - 博客园

2019年7月3日

摘要： 7.3日内容：一、selenium剩余部分二、BeautifulSoup4一、selenium剩余部分 -元素交互操作 1.点击、清除 2.Actions Chains 是一个动作链对象，需要把driver驱动传给它动作链接对象可以操作一系列设定好的动作行为 3.frame切换 4.执行js代阅读全文

posted @ 2019-07-03 17:48 Auraro997 阅读(107) 评论(0) 推荐(0) 编辑

小总结2

摘要：一、爬取豆瓣电影top250 1.爬取电影页 2.解析提取电影信息 3.保存数据二、selenium请求库 -驱动浏览器往目标网站发送请求，获取响应数据 -不需要分析复杂通信流程 -执行js代码 -获取动态数据三、怎么使用selenium -webdriver.Chorme() 打开驱动浏览器阅读全文

posted @ 2019-07-03 17:45 Auraro997 阅读(90) 评论(0) 推荐(0) 编辑

2019年7月2日

小总结1

摘要：一、爬虫基本原理 -爬虫全过程 1.发送请求 2.接收响应数据 3.解析并提取有价值的数据 4.保存数据二、Requests请求库 -get url headers cookies - post url headers cookies data 三、爬取校花网视频 1.通过主页解析提取详情页 2.通阅读全文

posted @ 2019-07-02 13:07 Auraro997 阅读(109) 评论(0) 推荐(0) 编辑

Day2：笔记

摘要：一.request请求库爬取豆瓣电影信息 -请求url https://movie.douban.com/top250 -请求方式 GET -请求头 user-agent cookies二.selenium请求库 1.什么是selenium？期初是一个自动化测试工具原理是驱动浏览器执行一些一定好阅读全文

posted @ 2019-07-02 12:59 Auraro997 阅读(140) 评论(0) 推荐(0) 编辑

Day1：笔记

摘要：一.爬虫基本原理1.什么是爬虫？爬虫就是爬取数据2.什么是互联网？由一堆网络设备，把一台台的计算机互联到一起称之为互联网3.互联网建立的目的？数据的传递与数据的共享4.什么是数据？例如：电商平台的商品信息（淘宝、京东、亚马逊）、链家、自如租房平台（房源信息）、股票证券投资信息（东方财富、雪球网）、1 阅读全文

posted @ 2019-07-02 12:58 Auraro997 阅读(134) 评论(0) 推荐(0) 编辑

python爬虫Day2：selenium选择器

摘要： '''''' from selenium import webdriver # web驱动 from selenium.webdriver.common.keys import Keys # 键盘按键操作 import time import time driver = webdriver.Chrome() try: # 隐式等待: 需要在get之前调用 # 等待任意... 阅读全文

posted @ 2019-07-02 12:51 Auraro997 阅读(314) 评论(0) 推荐(0) 编辑

python爬虫Day2:selenium基本使用

摘要： # web驱动 from selenium import webdriver from selenium.webdriver import ActionChains # 破解滑动验证码的时候用的可以拖动图片 from selenium.webdriver.common.by import By # 按照什么方式查找，By.ID,By.CSS_SELECTOR from selenium.web... 阅读全文

posted @ 2019-07-02 12:49 Auraro997 阅读(159) 评论(0) 推荐(0) 编辑

python爬虫Day2：爬取豆瓣电影信息top250

摘要： ''' 爬取豆瓣电影信息电影排名、电影url、电影名称电影导演、电影主演、电影年份/类型电影评分、电影评论、电影简介分析所有主页的url ''' import requests import re # 爬虫三部曲 # 1.发送请求 def get_page(url): response = requests.get(url) # print(r... 阅读全文

posted @ 2019-07-02 12:47 Auraro997 阅读(266) 评论(0) 推荐(0) 编辑

2019年7月1日

python爬虫Day1（Post请求自动登陆github）

摘要： ''' POST请求自动登陆ithub 请求URL： https://github.com/login 请求方式： POST 请求头： Cookie User-Agent:Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, l... 阅读全文

posted @ 2019-07-01 16:55 Auraro997 阅读(256) 评论(0) 推荐(0) 编辑

python爬虫Day1（requests基本使用）

摘要： import time import requests # 爬虫三部曲 # 1.发送请求 def get_page(url): response = requests.get(url) return response # 2.解析数据 import re def parse_index(html): # findall匹配所有 # re.findall('正则匹配... 阅读全文

posted @ 2019-07-01 16:40 Auraro997 阅读(162) 评论(0) 推荐(0) 编辑

Auraro.

公告