08 2019 档案

摘要:一、简介 1.简介 flink是一个开源的分布式流处理框架 优势:高性能处理、高度灵活window操作、有状态计算的Exactly-once等 详情简介,参考官网:https://flink.apache.org/flink-architecture.html 中文参考:https://flink. 阅读全文
posted @ 2019-08-28 17:34 ---江北 阅读(757) 评论(0) 推荐(1) 编辑
摘要:一、概述 python操作excel各个库对比:https://www.cnblogs.com/paul-liang/p/9187503.html 操作老版本的excel文件使用xlrd:参考:https://segmentfault.com/a/1190000017485618 https://w 阅读全文
posted @ 2019-08-20 21:58 ---江北 阅读(506) 评论(0) 推荐(0) 编辑
摘要:参考数据来自雅虎财经:https://finance.yahoo.com/quote/AAPL/history?p=AAPL 1.导包 2.导入数据 导入数据方法,参考美国各州人口分析随笔 检查数据类型dtypes: 其他,行数等同理: 使用to_datetime进行数据类型转换: 转换成时间是更容 阅读全文
posted @ 2019-08-18 11:19 ---江北 阅读(701) 评论(0) 推荐(0) 编辑
摘要:1.案例数据来自python数据分析手册,github地址:https://github.com/jakevdp/PythonDataScienceHandbook/tree/master/notebooks/data 不克隆项目,怎么在github下载单个文件?:https://www.cnblo 阅读全文
posted @ 2019-08-17 16:32 ---江北 阅读(1029) 评论(0) 推荐(0) 编辑
摘要:1,处理重复数据 使用duplicated检测重复的行,返回一个series,如果不是第一次出现,也就是有重复行的时候,则为True: 对应的,可以使用drop_duplicates来删除重复的行: 以上两个方法,都不能有重复的列! 2.map函数:列处理 map() 是一个Series的函数,Da 阅读全文
posted @ 2019-08-16 11:11 ---江北 阅读(659) 评论(0) 推荐(0) 编辑
摘要:merge有点类似SQL中的join,可以将不同数据集按照某些字段进行合并,得到新的数据集 1.参数一览表: 2.一对一连接:默认情况下,会按照相同字段的进行连接 例如有相同字段emp的两个df,merge的时候就会根据emp进行连接,且根据参数知道,默认是内连接: 使用默认的不是很明了,通常情况下 阅读全文
posted @ 2019-08-14 23:32 ---江北 阅读(5815) 评论(0) 推荐(0) 编辑
摘要:主要分为:级联:pd.concat、pd.append 合并:pd.merge 一、numpy级联的回顾 详细参考numpy章节 https://www.cnblogs.com/jiangbei/p/11287238.html 二、pd中concat函数 1.简单级联 和numpy的级联类似,默认增 阅读全文
posted @ 2019-08-14 17:38 ---江北 阅读(826) 评论(0) 推荐(0) 编辑
摘要:一、行多层索引 1.隐式创建 在构造函数中给index、colunms等多个数组实现(datafarme与series都可以) df的多级索引创建方法类似: 2.显式创建pd.MultiIndex 其中.from_arrays为类似上面的参数,推荐使用简单的from_product函数(会自动进行交 阅读全文
posted @ 2019-08-11 20:51 ---江北 阅读(18822) 评论(0) 推荐(0) 编辑
摘要:一、数据丢失分类 1)nd中分为两种:None和np.nan(NaN) 其中,None是python中的对象,是一个object;而nan是一个float类型 两种不同的类型,运算速度也是不同的 2)pandas中两种都视作NaN(np.nan) 二、数据丢失处理 通过控制columns来创建有Na 阅读全文
posted @ 2019-08-07 09:49 ---江北 阅读(737) 评论(0) 推荐(0) 编辑
该文被密码保护。
posted @ 2019-08-06 10:21 ---江北 阅读(15) 评论(0) 推荐(0) 编辑
摘要:一、介绍 数据帧(DataFrame)是二维数据结构,即数据以行和列的表格方式排列。 可以看作是Series的二维拓展,但是df有行列索引:index、column 推荐参考:https://www.jianshu.com/p/c534e83d2f4b 二、快速入门 1.打开csv 发现报错,原因是 阅读全文
posted @ 2019-08-04 09:52 ---江北 阅读(1663) 评论(0) 推荐(0) 编辑
摘要:一、介绍 Pandas是一个开源的,BSD许可的库(基于numpy),为Python编程语言提供高性能,易于使用的数据结构和数据分析工具。 官方中文文档:https://www.pypandas.cn/docs/ 本次演示使用数据来自github:https://github.com/jakevdp 阅读全文
posted @ 2019-08-03 18:01 ---江北 阅读(902) 评论(0) 推荐(0) 编辑
摘要:一、什么是numpy Numpy提供了一个在Python中做科学计算的基础库,重在数值计算,主要用于处理多维数组(矩阵)的库。用来存储和处理大型矩阵,比Python自身的嵌套列表结构要高效的多。本身是由C语言开发,是个很基础的扩展,Python其余的科学计算扩展大部分都是以此为基础。 二、快速入门n 阅读全文
posted @ 2019-08-02 10:51 ---江北 阅读(547) 评论(0) 推荐(0) 编辑
摘要:一、什么是IPython IPython的开发者吸收了标准解释器的基本概念,在此基础上进行了大量的改进,创造出一个令人惊奇的工具。在它的主页上是这么说的:“这是一个增强的交互式Python shell。”具有tab补全,对象自省,强大的历史机制,内嵌的源代码编辑,集成Python调试器,%run机制 阅读全文
posted @ 2019-08-02 00:09 ---江北 阅读(320) 评论(0) 推荐(0) 编辑

TOP
点击右上角即可分享
微信分享提示