摘要: 一、爬虫基本原理 -爬虫全过程 1.发送请求 2.接收响应数据 3.解析并提取有价值的数据 4.保存数据二、Requests请求库 -get url headers cookies - post url headers cookies data 三、爬取校花网视频 1.通过主页解析提取详情页 2.通 阅读全文
posted @ 2019-07-02 13:07 Auraro997 阅读(109) 评论(0) 推荐(0) 编辑
摘要: 一.request请求库爬取豆瓣电影信息 -请求url https://movie.douban.com/top250 -请求方式 GET -请求头 user-agent cookies二.selenium请求库 1.什么是selenium? 期初是一个自动化测试工具 原理是驱动浏览器执行一些一定好 阅读全文
posted @ 2019-07-02 12:59 Auraro997 阅读(140) 评论(0) 推荐(0) 编辑
摘要: 一.爬虫基本原理1.什么是爬虫?爬虫就是爬取数据2.什么是互联网?由一堆网络设备,把一台台的计算机互联到一起称之为互联网3.互联网建立的目的?数据的传递与数据的共享4.什么是数据?例如:电商平台的商品信息(淘宝、京东、亚马逊)、链家、自如租房平台(房源信息)、股票证券投资信息(东方财富、雪球网)、1 阅读全文
posted @ 2019-07-02 12:58 Auraro997 阅读(134) 评论(0) 推荐(0) 编辑
摘要: '''''' from selenium import webdriver # web驱动 from selenium.webdriver.common.keys import Keys # 键盘按键操作 import time import time driver = webdriver.Chrome() try: # 隐式等待: 需要在get之前调用 # 等待任意... 阅读全文
posted @ 2019-07-02 12:51 Auraro997 阅读(314) 评论(0) 推荐(0) 编辑
摘要: # web驱动 from selenium import webdriver from selenium.webdriver import ActionChains # 破解滑动验证码的时候用的 可以拖动图片 from selenium.webdriver.common.by import By # 按照什么方式查找,By.ID,By.CSS_SELECTOR from selenium.web... 阅读全文
posted @ 2019-07-02 12:49 Auraro997 阅读(159) 评论(0) 推荐(0) 编辑
摘要: ''' 爬取豆瓣电影信息 电影排名、电影url、电影名称 电影导演、电影主演、电影年份/类型 电影评分、电影评论、电影简介 分析所有主页的url ''' import requests import re # 爬虫三部曲 # 1.发送请求 def get_page(url): response = requests.get(url) # print(r... 阅读全文
posted @ 2019-07-02 12:47 Auraro997 阅读(266) 评论(0) 推荐(0) 编辑