摘要: 今日内容: 爬取豌豆荚: 1.访问游戏主页 https://www.wandoujia.com/category/6001 2.点击查看更多,观察network内的请求 - 请求url page2: https://www.wandoujia.com/wdjweb/api/category/more 阅读全文
posted @ 2019-07-04 10:26 小确幸Tea 阅读(120) 评论(0) 推荐(0) 编辑
摘要: 昨日回顾: 一 爬取豆瓣电音TOP250 1.爬取电影页 2.解析提取电影信息 3.保存数据 二 Selenium请求库 驱动浏览器往目标网站发送请求,获取响应数据。 - 不需要分析复杂的通信流程 - 执行js代码 - 获取动态数据 三 selenium使用 driver = webdriver.C 阅读全文
posted @ 2019-07-03 16:37 小确幸Tea 阅读(293) 评论(0) 推荐(0) 编辑
摘要: 一、 requests请求库爬取豆瓣电影信息 — 请求url http://movie.douban.com/top250 — 请求方式 GET — 请求头 user-agent cookies 老样子,通过谷歌浏览器在top250页面检查,找到我们要的信息。 通过三步,完成整个过程: 附上完整代码 阅读全文
posted @ 2019-07-02 15:29 小确幸Tea 阅读(237) 评论(0) 推荐(0) 编辑
摘要: 首先我们来解释一下几个概念: 1、什么是爬虫? 爬取数据。 2、什么是互联网? 由一堆网络设备、把一台台的计算机互联到一起称之为互联网。 3、互联网建立的目的: 数据的传递与数据的共享。 4、什么是数据? 列如: 电商平台的商品信息(京东、淘宝、亚马逊) 租房平台的房源信息(链家、自如) 股票证券的 阅读全文
posted @ 2019-07-01 16:53 小确幸Tea 阅读(300) 评论(0) 推荐(0) 编辑