2019 年 7月 2 日随笔档案 - Auraro997

2019年7月2日

摘要：一、爬虫基本原理 -爬虫全过程 1.发送请求 2.接收响应数据 3.解析并提取有价值的数据 4.保存数据二、Requests请求库 -get url headers cookies - post url headers cookies data 三、爬取校花网视频 1.通过主页解析提取详情页 2.通阅读全文

posted @ 2019-07-02 13:07 Auraro997 阅读(109) 评论(0) 推荐(0) 编辑

Day2：笔记

摘要：一.request请求库爬取豆瓣电影信息 -请求url https://movie.douban.com/top250 -请求方式 GET -请求头 user-agent cookies二.selenium请求库 1.什么是selenium？期初是一个自动化测试工具原理是驱动浏览器执行一些一定好阅读全文

posted @ 2019-07-02 12:59 Auraro997 阅读(140) 评论(0) 推荐(0) 编辑

Day1：笔记

摘要：一.爬虫基本原理1.什么是爬虫？爬虫就是爬取数据2.什么是互联网？由一堆网络设备，把一台台的计算机互联到一起称之为互联网3.互联网建立的目的？数据的传递与数据的共享4.什么是数据？例如：电商平台的商品信息（淘宝、京东、亚马逊）、链家、自如租房平台（房源信息）、股票证券投资信息（东方财富、雪球网）、1 阅读全文

posted @ 2019-07-02 12:58 Auraro997 阅读(134) 评论(0) 推荐(0) 编辑

python爬虫Day2：selenium选择器

摘要： '''''' from selenium import webdriver # web驱动 from selenium.webdriver.common.keys import Keys # 键盘按键操作 import time import time driver = webdriver.Chrome() try: # 隐式等待: 需要在get之前调用 # 等待任意... 阅读全文

posted @ 2019-07-02 12:51 Auraro997 阅读(314) 评论(0) 推荐(0) 编辑

python爬虫Day2:selenium基本使用

摘要： # web驱动 from selenium import webdriver from selenium.webdriver import ActionChains # 破解滑动验证码的时候用的可以拖动图片 from selenium.webdriver.common.by import By # 按照什么方式查找，By.ID,By.CSS_SELECTOR from selenium.web... 阅读全文

posted @ 2019-07-02 12:49 Auraro997 阅读(159) 评论(0) 推荐(0) 编辑

python爬虫Day2：爬取豆瓣电影信息top250

摘要： ''' 爬取豆瓣电影信息电影排名、电影url、电影名称电影导演、电影主演、电影年份/类型电影评分、电影评论、电影简介分析所有主页的url ''' import requests import re # 爬虫三部曲 # 1.发送请求 def get_page(url): response = requests.get(url) # print(r... 阅读全文

posted @ 2019-07-02 12:47 Auraro997 阅读(266) 评论(0) 推荐(0) 编辑

Auraro.

公告