摘要: 今日内容: 爬取豌豆荚: 1.访问游戏主页 https://www.wandoujia.com/category/6001 2.点击查看更多,观察network内的请求 - 请求url page2: https://www.wandoujia.com/wdjweb/api/category/more 阅读全文
posted @ 2019-07-04 09:22 夜殇离歌 阅读(95) 评论(0) 推荐(0) 编辑
摘要: 我的随笔四 昨日回顾: 一、爬取豆瓣电影TOP250 1、爬取电影页 2、解析提取电影信息 3、保存数据 二、selenium请求库 驱动浏览器往目标网站发送请求,获取响应数据。 --不需要分析复杂的通信流程 --执行js代码 --获取动态数据 三、selenium使用 driver=webdriv 阅读全文
posted @ 2019-07-03 23:08 夜殇离歌 阅读(129) 评论(0) 推荐(0) 编辑
摘要: 我的随笔三 昨日回顾: 一 爬虫基本原理 - 爬虫全过程 1.发送请求 2.接收响应数据 3.解析并提取有价值的数据 4.保存数据 二 Requests请求库 - get url headers cookies - post url headers cookies data 三 爬取校花网视频 1. 阅读全文
posted @ 2019-07-02 18:50 夜殇离歌 阅读(81) 评论(0) 推荐(0) 编辑
摘要: 我的随笔二 POST请求自动登录github。 请求URL: http://github.com/session 请求方式 GET 请求头: Cookies user-agent:'User-Agent':'Mozilla/5.0(WindowsNT10.0;Win64;x64) AppleWebK 阅读全文
posted @ 2019-07-01 18:25 夜殇离歌 阅读(79) 评论(0) 推荐(0) 编辑
摘要: 我的随笔 1、什么是爬虫 爬虫就是抓取数据 2、什么是互联网 由一堆网络设备,把一台台计算机互联到一起称之为互联网 3、互联网建立的目的 数据的传递和数据的共享 4、什么是数据 例如:电商平台的商品数据 链接,信息... 5、什么是上网 普通用户: 打开浏览器→输入网址→往目标主机发送请求 →返回响 阅读全文
posted @ 2019-07-01 14:45 夜殇离歌 阅读(94) 评论(0) 推荐(0) 编辑