随笔分类 -  数据处理

摘要:需求 把指定列的数据根据指定字符进行拆分,并保留拆分后所需的列; 原始数据: 需要将这列数据根据 ‘.’ 进行拆分,并保留 .DCE 前面的部分; 解决 借助于 pandas.DataFrame.field.str.split() df['ts_code'].str.split('.', expan 阅读全文 »
posted @ 2021-04-15 11:07 ZhuGaochao 阅读(3825) 评论(0) 推荐(0) 编辑
摘要:需求 将两列string类型的数据拼接为新的一列; 原始数据如下: 解决 借助于 pandas.DataFrame.field.str.cat() df['deliveryPrice'].str.cat(df['deliveryMonth']).str.upper() 阅读全文 »
posted @ 2021-04-15 10:15 ZhuGaochao 阅读(1195) 评论(0) 推荐(0) 编辑
摘要:需求 剔除指定列中包含 “小计”信息的行。 解决 借助 pandas.DataFrame.filed.str.contains() Step1:取出包含 “小计” 信息的行; 这样,剩下的数据就都是不包含 “小计” 的数据了; df[df['deliveryPrice'].str.contains( 阅读全文 »
posted @ 2021-04-15 09:56 ZhuGaochao 阅读(2524) 评论(0) 推荐(0) 编辑
摘要:Outline 为什么会有命名空间? XML的元素名字是不固定的,当两个不同的文档,使用同样的名称描述两个不同类型的元素的时候,或者一个同样的标记表示两个不同含义的内容的时候,就会发生命名冲突。 这时,命名空间是可以解决这个问题的; 命名空间(Namespace),对于每一套特定应用的DTD,给它一 阅读全文 »
posted @ 2020-07-22 16:31 ZhuGaochao 阅读(6140) 评论(0) 推荐(0) 编辑
摘要:在通过pandas读取、操作DataFrame时,鉴于可读性,往往会默认读取有限行、列内容,其余内容会通过省略号省略掉;但有时需要显示全部的行、列,此时只需要如下操作即可: #显示所有列 pd.set_option('display.max_columns', None) #显示所有行 pd.set 阅读全文 »
posted @ 2020-07-21 10:58 ZhuGaochao 阅读(1801) 评论(0) 推荐(0) 编辑
摘要:Outline 用jupyter处理数据时,需要循环打印多个DataFrame,但打印出来的df看起来很难看; 想要的效果是比较规整美观的df展示,例如单独展示df时那样,是一个完整的table视图。 下面美化下jupyter notebook中for循环输出DataFrame 解决 解决前 for 阅读全文 »
posted @ 2020-07-20 14:59 ZhuGaochao 阅读(3124) 评论(0) 推荐(0) 编辑
摘要:OUTLINE pivot()的用途可以简单理解为: 将一个DataFrame的记录数据整合成表格(类似Excel中的数据透视表功能),而且是按照pivot(‘index=xx’,’columns=xx’,’values=xx’)来整合的。 还有另外一种写法,但是官方貌似并没有给出来,就是pivot 阅读全文 »
posted @ 2020-06-23 12:51 ZhuGaochao 阅读(10149) 评论(0) 推荐(1) 编辑
摘要:参考:https://segmentfault.com/a/1190000012394176?utm_source=tag-newest 阅读全文 »
posted @ 2020-06-16 17:03 ZhuGaochao 阅读(1065) 评论(0) 推荐(0) 编辑
摘要:背景 由于.csv文件占用空间较大,就将其转为.h5文件(压缩率更高); Version.1 import pandas as pd df = pd.read_csv('xxxxxx.csv') with pd.HDFStore(‘xxxxx.h5', 'w') as store: store['d 阅读全文 »
posted @ 2020-04-22 22:14 ZhuGaochao 阅读(990) 评论(0) 推荐(0) 编辑
摘要:数据样例 df = pd.DataFrame({'code':['SH600001','SH000905','SH000908'],'date':['2001', '2002','2003']}) 需求 将列名为 索引 SH000908 对应的date值改为: zhugaochao 不推荐做法 此种 阅读全文 »
posted @ 2020-03-11 16:12 ZhuGaochao 阅读(22372) 评论(0) 推荐(1) 编辑
摘要:统计量 统计量是统计理论中用来对数据进行分析、检验的变量。宏观量是大量微观量的统计平均值,具有统计平均的意义,对于单个微观粒子,宏观量是没有意义的. 相对于微观量的统计平均性质的宏观量也叫统计量。需要指出的是,描写宏观世界的物理量例如速度、动能等实际上也可以说是宏观量,但宏观量并不都具有统计平均的性 阅读全文 »
posted @ 2019-08-18 23:39 ZhuGaochao 阅读(1065) 评论(0) 推荐(0) 编辑
摘要:数据准备 数据集地址:http://jse.amstat.org/datasets/normtemp.dat.txt 数据集描述:总共只有三列:体温、性别、心率 数据集详细描述:Journal of Statistics Education, V4N2:Shoemaker 体温数据描述性统计信息 输 阅读全文 »
posted @ 2019-08-11 23:33 ZhuGaochao 阅读(468) 评论(0) 推荐(0) 编辑
摘要:导入所需包 读取.mat文件 随便从下面文件里读取一个: 读出来的m内容: 取出.mat里所需信息 .mat 文件里的数据结构是 dict ,所以取值要按照 key:value 的形式: 预处理数据 上面读出来的数据是 ndarray 类型,为了方便数据的展示,我们可以将其转换为,pandas的Da 阅读全文 »
posted @ 2019-08-06 11:24 ZhuGaochao 阅读(3881) 评论(0) 推荐(0) 编辑
摘要:正态分布 简介 正态分布又名高斯分布它以数学天才 Carl Friedrich Gauss 命名正态分布又名高斯分布,越简单的模型越是常用,因为它们能够被很好的解释和理解。 正态分布非常简单,这就是它是如此的常用的原因。因此,理解正态分布非常有必要。 什么是概率分布 首先介绍一下相关概念: 考虑一个 阅读全文 »
posted @ 2019-08-04 23:22 ZhuGaochao 阅读(1196) 评论(0) 推荐(0) 编辑
摘要:python环境安装 过于基础,此处就不细写了,可参考:https://www.runoob.com/python/python-install.html Python基本数据类型 可变、不可变数据类型 可变数据类型 列表、字典、集合--不可哈希 集合里存的元素必须是不可变的数据类型,无序,不重复( 阅读全文 »
posted @ 2019-07-28 20:59 ZhuGaochao 阅读(276) 评论(0) 推荐(0) 编辑
摘要:数据的集中趋势 众数 众数是样本观测值在频数分布表中频数最多的那一组的组中值,主要应用于大面积普查研究之中。 众数是在一组数据中,出现次数最多的数据,是一组数据中的原数据,而不是相应的次数。 一组数据中的众数不止一个,如数据2、3、-1、2、1、3中,2、3都出现了两次,它们都是这组数据中的众数。 阅读全文 »
posted @ 2019-07-28 18:13 ZhuGaochao 阅读(1160) 评论(0) 推荐(1) 编辑
摘要:Outline pandas.to_datetime() 生成的日期会默认带有 【2019-07-03 00:00:00】的分钟精度;但有时并不需要这些分钟精度; 去掉分钟精度 可以通过pandas中的 .dt.date 去掉分钟。 (padnas 版本 要大于等于 0.15.0) 阅读全文 »
posted @ 2019-07-03 15:37 ZhuGaochao 阅读(17999) 评论(0) 推荐(1) 编辑
摘要:前提 首先保证你txt里的文本内容是有规律可循的(例如,列与列之间通过“\t”、“,”等指定的可识别分隔符分隔); 例如我需要读取的数据,(\t)分隔: (此文件内容是直接以DataFrame格式化写入) 通过txt读取DataFrame 将DataFrame保存为txt 保存效果: 阅读全文 »
posted @ 2019-03-27 10:45 ZhuGaochao 阅读(21410) 评论(0) 推荐(0) 编辑
摘要:读取时默认第一行为列名 此时DataFrame的列名为第一行数据; 因为第一行为有效数据,故不可作为列名,要么重新起列名,要么使用默认序列列名: 取消默认第一行为列名 给 pd.read_csv() 加上 header=None 即可; 读出来的数据第一行为正常数据,列名为从0开始的序列; 阅读全文 »
posted @ 2019-03-27 10:30 ZhuGaochao 阅读(12297) 评论(0) 推荐(2) 编辑
摘要:read_csv()所有参数 pandas.read_csv( filepath_or_buffer, sep=',', delimiter=None, header='infer', names=None, index_col=None, usecols=None, squeeze=False, 阅读全文 »
posted @ 2019-03-13 10:31 ZhuGaochao 阅读(811) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示