随笔分类 -  爬虫系列

摘要:一、requests requests.request(method,url,**kwargs) # 常见参数 # params/data/json 上传数据 # files 上传文件 # headers/cookies # proxies # auth 授权 1、get请求 response = 阅读全文
posted @ 2020-03-10 21:25 李大鹅 阅读(2242) 评论(0) 推荐(0) 编辑
摘要:一、什么是爬虫 1、爬虫Spider的概念 爬虫用于爬取数据,又称之为数据采集程序。 爬取的数据来源于网络,网络中的数据可以是由WEB服务器(Nginx/Apache),数据库服务器(MySQL、Redis),索引库(ElastichSearch),大数据(Hbase/Hive),视频/图片库(FT 阅读全文
posted @ 2020-03-09 22:10 李大鹅 阅读(1000) 评论(0) 推荐(0) 编辑
摘要:声明:这是一篇超级严肃的技术文章,请本着学习交流的态度阅读,谢谢! 一、网易商品评论爬取 1、评论分析 进入到网易严选官网,搜索“文胸”后,先随便点进一个商品。 在商品页面,打开 Chrome 的控制台,切换至 Network 页,再把商品页面切换到评价标签下,选择一个评论文字,如“还没穿,也不知道 阅读全文
posted @ 2019-11-09 15:18 李大鹅 阅读(381) 评论(0) 推荐(0) 编辑
摘要:一、功能描述 用爬虫爬取#我们的叁叁肆#下的微博,然后再爬取他们的个人主页信息,获取年龄、地区、性别等信息,然后用数据分析,再可视化呈现。 注意:文中说的微博个人主页信息均为微博公开信息,不包含任何隐私信息,同时全文中将不会出现任何人的个人信息,信息仅用于学习分析,任何人不得使用此教程用作商用,违者 阅读全文
posted @ 2019-09-29 00:27 李大鹅 阅读(3086) 评论(0) 推荐(0) 编辑
摘要:一、目标 使用Python分析出国庆哪些旅游景点:好玩、便宜、人还少的地方,不然拍照都要抢着拍! 二、获取数据 爬取出行网站的旅游景点售票数据,反映出旅游景点的热度。这里选择爬取“去哪儿”网。 1.爬取单页数据 我们可以在哪去儿的门票页(http://piao.qunar.com/ticket/li 阅读全文
posted @ 2019-09-28 20:24 李大鹅 阅读(1189) 评论(0) 推荐(0) 编辑
摘要:一、功能描述 想用我们现代的大案牍术来分析一下《长安十二时称》这部电视剧到底为什么会火,大家都对这部电视剧的评价是什么样的?(所有弹幕最高频的900个词) 二、技术方案 1、分析优酷弹幕的加载方式然后使用requests库爬取 2、抓取整部剧所有集的所有弹幕 3、重点做数据清洗,比如:剧情、人名、高 阅读全文
posted @ 2019-09-26 00:37 李大鹅 阅读(965) 评论(0) 推荐(0) 编辑
摘要:本文中所用的到第三方库有: requests jieba numpy Pillow wordcloud matplotlib 前言: 基于很多人没有体验过充气娃娃是什么感觉,但是又很好奇,所以希望通过爬虫+数据分析的方式直观而真实的告诉大家(下图为成品图) 一、技术方案 1、分析狗东评论数据的请求u 阅读全文
posted @ 2019-09-24 23:54 李大鹅 阅读(20122) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示