追风zz

2019年5月14日

摘要： # 美国人口普查数据分析 #找到有哪些state/region使得state的值为NaN，进行去重操作 #1.state列中哪些值为空 abb_pop['state'].isnull() abb_pop.loc[abb_pop['state'].isnull()] #获取了state值为空对应的行数阅读全文

posted @ 2019-05-14 20:42 追风zz 阅读(1412) 评论(1) 推荐(0) 编辑

dropna fillna

摘要： # NaN 浮点类型 np.nan+1 =>nan Python type(None) // NoneType类型不能参与运算阅读全文

posted @ 2019-05-14 20:38 追风zz 阅读(333) 评论(0) 推荐(0) 编辑

git 使用

摘要： # 下面是简单的git使用阅读全文

posted @ 2019-05-14 01:01 追风zz 阅读(110) 评论(0) 推荐(0) 编辑

2019年5月12日

wifi 破解

摘要： # https://www.bilibili.com/video/av41742605/?spm_id_from=333.788.videocard.0 阅读全文

posted @ 2019-05-12 21:59 追风zz 阅读(298) 评论(0) 推荐(0) 编辑

反爬机制

摘要： robots 防君子不防小人 UA伪装 request 设置headers参数 ajax 动态数据json 图片懒加载 src2/origin 数据加密 js代码里面一些function 加密算法验证码云打码/超级鹰12306 cookie session会话哈希值 xpath element 阅读全文

posted @ 2019-05-12 18:55 追风zz 阅读(231) 评论(0) 推荐(0) 编辑

云打码古诗文网

摘要： # 云打码代码示例 # 古诗文网模拟登陆处理cookie 阅读全文

posted @ 2019-05-12 18:49 追风zz 阅读(400) 评论(0) 推荐(0) 编辑

2019年5月11日

Numpy Pandas

摘要：数据分析 : 是把隐藏在一些看似杂乱无章的数据背后的信息提炼出来,总结出所研究对象的内在规律. 数据分析三剑客 - Numpy Pandas Matplotlib # 随机性固定随机因子　np.random.seed(10) #固定时间种子产生的随机数就固定下来了　np.random.randi 阅读全文

posted @ 2019-05-11 23:20 追风zz 阅读(204) 评论(0) 推荐(0) 编辑

增量式爬虫

摘要： # 增量式爬虫概念: 监测网站的数据更新的情况,只爬取网站更新的数据. 核心: 去重实现 Redis set集合也行 -- 如何实现redis去重? -- 流程: scrapy startproject Name cd Name scrapy genspider -t crawl 爬虫文件名阅读全文

posted @ 2019-05-11 17:02 追风zz 阅读(1097) 评论(0) 推荐(0) 编辑

2019年5月9日

crawlSpider全站爬取分布式

摘要： # 如何提升scrapy爬取数据的效率? 推荐: 单线程加异步协程 # crawlSpider 是 Spider的一个子类 # 创建一个工程 LinkExtractor( allow=r'Items/'，# 满足括号中“正则表达式”的值会被提取，如果为空，则全部匹配。 deny=xxx, # 满足正阅读全文

posted @ 2019-05-09 23:42 追风zz 阅读(529) 评论(0) 推荐(0) 编辑

图片懒加载及其反爬机制

摘要： # 什么是图片懒加载? 图片懒加载概念：图片懒加载是一种网页优化技术。图片作为一种网络资源，在被请求时也与普通静态资源一样，将占用网络资源，而一次性将整个页面的所有图片加载完，将大大增加页面的首屏加载时间。为了解决这种问题，通过前后端配合，使图片仅在浏览器当前视窗内出现时才加载该图片，达到减少首屏阅读全文

posted @ 2019-05-09 21:40 追风zz 阅读(515) 评论(0) 推荐(0) 编辑

我一路向北离开有你的季节

公告

追风zz

我一路向北 离开有你的季节

公告

我一路向北离开有你的季节