小确幸Tea

2019年7月4日

摘要：今日内容: 爬取豌豆荚: 1.访问游戏主页 https://www.wandoujia.com/category/6001 2.点击查看更多，观察network内的请求 - 请求url page2: https://www.wandoujia.com/wdjweb/api/category/more 阅读全文

posted @ 2019-07-04 10:26 小确幸Tea 阅读(135) 评论(0) 推荐(0)

2019年7月3日

day03 Selenium剩余功能的实现和BeautifulSoup4使用

摘要：昨日回顾: 一爬取豆瓣电音TOP250 1.爬取电影页 2.解析提取电影信息 3.保存数据二 Selenium请求库驱动浏览器往目标网站发送请求，获取响应数据。 - 不需要分析复杂的通信流程 - 执行js代码 - 获取动态数据三 selenium使用 driver = webdriver.C 阅读全文

posted @ 2019-07-03 16:37 小确幸Tea 阅读(314) 评论(0) 推荐(0)

2019年7月2日

day02 requests请求库爬取豆瓣电影信息+selenium请求库

摘要：一、 requests请求库爬取豆瓣电影信息 — 请求url http://movie.douban.com/top250 — 请求方式 GET — 请求头 user-agent cookies 老样子，通过谷歌浏览器在top250页面检查，找到我们要的信息。通过三步，完成整个过程：附上完整代码阅读全文

posted @ 2019-07-02 15:29 小确幸Tea 阅读(309) 评论(0) 推荐(0)

2019年7月1日

day01 初见python爬虫之“爬校花网”和“自动登录github”

摘要：首先我们来解释一下几个概念： 1、什么是爬虫？爬取数据。 2、什么是互联网？由一堆网络设备、把一台台的计算机互联到一起称之为互联网。 3、互联网建立的目的：数据的传递与数据的共享。 4、什么是数据? 列如：电商平台的商品信息（京东、淘宝、亚马逊）租房平台的房源信息（链家、自如）股票证券的阅读全文

posted @ 2019-07-01 16:53 小确幸Tea 阅读(395) 评论(0) 推荐(0)

公告