上一页 1 ··· 4 5 6 7 8 9 10 11 12 ··· 19 下一页
摘要: # 美国人口普查数据分析 #找到有哪些state/region使得state的值为NaN,进行去重操作 #1.state列中哪些值为空 abb_pop['state'].isnull() abb_pop.loc[abb_pop['state'].isnull()] #获取了state值为空对应的行数 阅读全文
posted @ 2019-05-14 20:42 追风zz 阅读(1412) 评论(1) 推荐(0) 编辑
摘要: # NaN 浮点类型 np.nan+1 =>nan Python type(None) // NoneType类型 不能参与运算 阅读全文
posted @ 2019-05-14 20:38 追风zz 阅读(333) 评论(0) 推荐(0) 编辑
摘要: # 下面是简单的git使用 阅读全文
posted @ 2019-05-14 01:01 追风zz 阅读(110) 评论(0) 推荐(0) 编辑
摘要: # https://www.bilibili.com/video/av41742605/?spm_id_from=333.788.videocard.0 阅读全文
posted @ 2019-05-12 21:59 追风zz 阅读(298) 评论(0) 推荐(0) 编辑
摘要: robots 防君子不防小人 UA伪装 request 设置headers参数 ajax 动态数据json 图片懒加载 src2/origin 数据加密 js代码里面一些function 加密算法 验证码 云打码/超级鹰12306 cookie session会话 哈希值 xpath element 阅读全文
posted @ 2019-05-12 18:55 追风zz 阅读(231) 评论(0) 推荐(0) 编辑
摘要: # 云打码 代码示例 # 古诗文网 模拟登陆 处理cookie 阅读全文
posted @ 2019-05-12 18:49 追风zz 阅读(400) 评论(0) 推荐(0) 编辑
摘要: 数据分析 : 是把隐藏在一些看似杂乱无章的数据背后的信息提炼出来,总结出所研究对象的内在规律. 数据分析三剑客 - Numpy Pandas Matplotlib # 随机性固定 随机因子 np.random.seed(10) #固定时间种子 产生的随机数就固定下来了 np.random.randi 阅读全文
posted @ 2019-05-11 23:20 追风zz 阅读(204) 评论(0) 推荐(0) 编辑
摘要: # 增量式 爬虫 概念: 监测网站的数据更新的情况,只爬取网站更新的数据. 核心: 去重 实现 Redis set集合也行 -- 如何实现redis去重? -- 流程: scrapy startproject Name cd Name scrapy genspider -t crawl 爬虫文件名 阅读全文
posted @ 2019-05-11 17:02 追风zz 阅读(1097) 评论(0) 推荐(0) 编辑
摘要: # 如何提升scrapy爬取数据的效率? 推荐: 单线程加异步协程 # crawlSpider 是 Spider的一个子类 # 创建一个工程 LinkExtractor( allow=r'Items/',# 满足括号中“正则表达式”的值会被提取,如果为空,则全部匹配。 deny=xxx, # 满足正 阅读全文
posted @ 2019-05-09 23:42 追风zz 阅读(529) 评论(0) 推荐(0) 编辑
摘要: # 什么是图片懒加载? 图片懒加载概念: 图片懒加载是一种网页优化技术。图片作为一种网络资源,在被请求时也与普通静态资源一样,将占用网络资源,而一次性将整个页面的所有图片加载完,将大大增加页面的首屏加载时间。为了解决这种问题,通过前后端配合,使图片仅在浏览器当前视窗内出现时才加载该图片,达到减少首屏 阅读全文
posted @ 2019-05-09 21:40 追风zz 阅读(515) 评论(0) 推荐(0) 编辑
上一页 1 ··· 4 5 6 7 8 9 10 11 12 ··· 19 下一页