开心小爬爬 - 随笔分类 - studybrother

小白爬虫综合项目1

摘要：项目1:搜狗知乎,爬取指定存储上一级目录的名字,以及存储爬取的页码项目2:爬取某用户的豆瓣网的个人主页页面数据项目3:goubanjia应用爬取ip这个关键词的页面项目4: 爬取糗事百科首页的图片&&升级项目5:爬取段子网项目6:爬取古诗文网的三国这篇小说项目7:selenium 项目8 阅读全文

posted @ 2019-06-23 19:31 studybrother 阅读(283) 评论(0) 推荐(0)

数据分析2-1

摘要：1.DataFrame(续) (1) (2) (3) (4)DataFrame的索引 (5) (6)修改列索引先取出一列下面这样写会出错,索引的问题出现了NaN (7) (8)如何取出,前两列? (9) (10) (11)如何取出第一行? 用loc:显式索引 (12) (13) (14) 方式: 阅读全文

posted @ 2019-06-10 22:34 studybrother 阅读(173) 评论(0) 推荐(0)

数据分析1-2

摘要：1.部分排序生成矩阵:十行十列的单位矩阵 2.Pandas的数据结构重点定义:(隐式索引和显式索引) Series只是类似,并不是一维的数组以及空值检测是重点例1: 例2: index是索引,指定的是显式索引例3: name代表的是唯一标识例4: 注意:只能是类似一维的才行例5: 上图阅读全文

posted @ 2019-06-10 18:07 studybrother 阅读(418) 评论(0) 推荐(0)

数据分析1-1

摘要：1. 一、创建ndarray 2. 使用np.array()创建例1:一维数组创建结果: 例2:二维数据创建结果: 例3:使用matplotlib.pyplot获取一个numpy数组，数据来源于一张图片运行之后,返回的是一个三维数组,外边有三层包裹结果: 例4: 运行之后,得到的结果: 例阅读全文

posted @ 2019-06-10 11:09 studybrother 阅读(262) 评论(0) 推荐(0)

数据分析案例:

摘要：1.美国人口 2.政治献金 3.美国海洋数据和温度,线性回归模型数据分析和爬虫数据以及机器学习有很大关系阅读全文

posted @ 2019-06-10 10:57 studybrother 阅读(389) 评论(0) 推荐(0)

数据分析1:安装tushare安装包

摘要：1. 2. 3.重点内容阅读全文

posted @ 2019-06-05 11:21 studybrother 阅读(423) 评论(0) 推荐(0)

小爬爬7:回顾&&crawlSpider

摘要：1.回顾昨日内容 2.crawl总结 3.高效的全栈数据爬取新建一个抽屉的项目,我们对其进行全栈数据的爬取下图是页码对应的url 修改下面的内容: 下面我们提取指定的规则执行下面的命令: 运行之后,我们只是爬取到了10条数据我们需要将最后一个界面作为起始,也就是follow=True就可以了阅读全文

posted @ 2019-06-04 23:34 studybrother 阅读(193) 评论(0) 推荐(0)

小爬爬6: 网易新闻scrapy+selenium的爬取

摘要：1.https://news.163.com/ 国内国际,军事航空,无人机都是动态加载的,先不管其他我们最后再搞中间件 2. 我们可以查看到"国内"等板块的位置新建一个项目,创建一个爬虫文件下面,我们进行处理: 仔细查找二级标签的位置: 每一段的信息都储存在p标签内部 items.py写两个字段阅读全文

posted @ 2019-06-04 22:02 studybrother 阅读(589) 评论(0) 推荐(1)

小爬爬6:中间件

摘要：1. 4567电影修改下面的配置上边是设置的三个部分配置注意要注释掉,上边的默认君子协定爬虫中中间件的爬取下面我们看一下中间件文件中的内容. 我们只需要保留中间件中的三个process方法即可. 这个类是批量拦击所有的请求和响应一些功能: 上边的配置文件settings.py其实不写ua 阅读全文

posted @ 2019-06-03 23:24 studybrother 阅读(178) 评论(0) 推荐(0)

小爬爬6:2请求传参

摘要：1.scrapy的请求传参: 五大组件:所有的数据流都会走"引擎" "请求对象" 引擎怎么知道什么时间调用什么方法? 引擎:接收所有数据,进行事物的触发引擎根据接收不同类型的数据流决定下一步触发什么方法. 2. 上图最后一条修改成下图,加上网址 settings.py三件套拿取ul的xpath 阅读全文

posted @ 2019-06-03 23:15 studybrother 阅读(220) 评论(0) 推荐(0)

小爬爬6.scrapy回顾和手动请求发送

摘要：1.数据结构回顾 2.回顾scrapy 3.手动请求发送阳光热点问政平台:http://wz.sun0769.com/index.php/question/questionType?type=4 我们不能将每个url都放在start_urls中如何和实现全站数据的爬取?定位到某个板块将所有的数据阅读全文

posted @ 2019-06-03 22:12 studybrother 阅读(310) 评论(0) 推荐(0)

小爬爬5:scrapy介绍3持久化存储

摘要：一.两种持久化存储的方式 1.基于终端指令的吃持久化存储: 特点:终端指令的持久化存储,只可以将parse方法的返回值存储到磁盘文件因此我们需要将上一篇文章中的author和content作为返回值的内容,我们可以将所有内容数据放在列表中, 每个字典存储作者名字和内容,最好将定义的列表返回即可我阅读全文

posted @ 2019-06-03 18:15 studybrother 阅读(234) 评论(0) 推荐(0)

小爬爬5:scrapy介绍2

摘要：1.scrapy:爬虫框架 -框架:集成了很多功能且具有很强通用性的一个项目模板 -如何学习框架:(重点:知道有哪些模块,会用就行) -学习框架的功能模板的具体使用. 功能:(1)异步爬取(自带buffer) (2)高性能的数据解析+持久化存储操作. 2.scrapy环境安装: 3.scrapy数据阅读全文

posted @ 2019-05-31 22:38 studybrother 阅读(135) 评论(0) 推荐(0)

小爬爬5:重点回顾&&移动端数据爬取1

摘要：1. 2.单线程多任务异步协程回顾运行的得到下面的结果: <html> <head> <script> location.replace(location.href.replace("https://","http://")); </script> </head> <body> <noscript 阅读全文

posted @ 2019-05-31 21:37 studybrother 阅读(757) 评论(0) 推荐(0)

小爬爬4:12306自动登录&&pyppeteer基本使用

摘要：超级鹰(更简单的操作验证) 1.12306自动登录 # Author: studybrother sun from selenium import webdriver import time from selenium.webdriver import ActionChains from PIL i 阅读全文

posted @ 2019-05-30 23:31 studybrother 阅读(780) 评论(0) 推荐(0)

小爬爬4:selenium操作

摘要：1.selenium是什么? http://blog.csdn.net/huilan_same/article/details/51896672 http://blog.csdn.net/huilan_same/article/details/51896672 (1)演示程序前戏:加载驱动程序(下阅读全文

posted @ 2019-05-30 22:12 studybrother 阅读(397) 评论(0) 推荐(0)

小爬爬4.协程基本用法&&多任务异步协程爬虫示例(大数据量)

摘要：1.测试学习 (2)单线程: 测试结果:需要6秒多 (2)开启线程池:测试结果是2秒多测试结果: (3)在程序中是否可以一味的使用多线程,多进程? 推荐:单线程+异步协程(效率最高,用的人不是很多,大量爬取数据是会用到的) 下面了解一下协程(go和python独有的概念),,协程不会占用很高的内阅读全文

posted @ 2019-05-30 18:09 studybrother 阅读(549) 评论(0) 推荐(0)

小爬爬4.回顾

摘要：1.美团抓取回顾id是处理的核心问题!!! 2.回顾重点内容 (1)模拟登陆: --有时我们需要爬取基于当前用户的用户信息(需要登录后才可查看) --实现流程: --借助于珠宝工具,抓取点击登录按钮发起的post请求(url,参数(动态参数)) --携带cookie对其他子页面进行请求发送注意:c 阅读全文

posted @ 2019-05-30 17:50 studybrother 阅读(166) 评论(0) 推荐(0)

小爬爬3:回顾解决方案&&代理操作

只有注册用户登录后才能阅读该文。

posted @ 2019-05-29 18:08 studybrother 阅读(9) 评论(0) 推荐(0)

小爬爬2:中文乱码等问题处理

摘要：1.解决中文乱码的问题 (1)是否动态加载, (2)获取源码数据彼岸图网: 第一页地址:http://pic.netbian.com/4kmeinv/ 第二页:http://pic.netbian.com/4kmeinv/index_2.html 第三页:http://pic.netbian.co 阅读全文

posted @ 2019-05-29 08:36 studybrother 阅读(398) 评论(0) 推荐(0)

studybrother

爱技术,爱生活! Love technology, love life!

随笔分类 - 开心小爬爬

公告