数据处理 - 随笔分类 - ZhuGaochao

pandas 按某列中的指定字符拆分某列 pandas.DataFrame.field.str.split()

摘要：需求把指定列的数据根据指定字符进行拆分，并保留拆分后所需的列；原始数据：需要将这列数据根据 ‘.’ 进行拆分，并保留 .DCE 前面的部分；解决借助于 pandas.DataFrame.field.str.split() df['ts_code'].str.split('.', expan 阅读全文

posted @ 2021-04-15 11:07 ZhuGaochao 阅读(3962) 评论(0) 推荐(0)

pandas 拼接两列string类型数据为新的一列 df.str.cat()

摘要：需求将两列string类型的数据拼接为新的一列；原始数据如下：解决借助于 pandas.DataFrame.field.str.cat() df['deliveryPrice'].str.cat(df['deliveryMonth']).str.upper() 阅读全文

posted @ 2021-04-15 10:15 ZhuGaochao 阅读(1210) 评论(0) 推荐(0)

pandas 筛选出某列中包含指定信息的行 pandas contains()

摘要：需求剔除指定列中包含 “小计”信息的行。解决借助 pandas.DataFrame.filed.str.contains() Step1：取出包含 “小计” 信息的行；这样，剩下的数据就都是不包含 “小计” 的数据了； df[df['deliveryPrice'].str.contains( 阅读全文

posted @ 2021-04-15 09:56 ZhuGaochao 阅读(2625) 评论(0) 推荐(0)

Python 解析含有命名空间(xmlns)的xml文件(基于ElementTree)

摘要：Outline 为什么会有命名空间? XML的元素名字是不固定的，当两个不同的文档,使用同样的名称描述两个不同类型的元素的时候，或者一个同样的标记表示两个不同含义的内容的时候，就会发生命名冲突。这时，命名空间是可以解决这个问题的；命名空间（Namespace），对于每一套特定应用的DTD，给它一阅读全文

posted @ 2020-07-22 16:31 ZhuGaochao 阅读(6491) 评论(0) 推荐(0)

完全显示DataFrame中行、列内容

摘要：在通过pandas读取、操作DataFrame时，鉴于可读性，往往会默认读取有限行、列内容，其余内容会通过省略号省略掉；但有时需要显示全部的行、列，此时只需要如下操作即可： #显示所有列 pd.set_option('display.max_columns', None) #显示所有行 pd.set 阅读全文

posted @ 2020-07-21 10:58 ZhuGaochao 阅读(1961) 评论(0) 推荐(0)

解决Jupyter Notebook中for循环输出DataFrame不够美观

摘要：Outline 用jupyter处理数据时，需要循环打印多个DataFrame，但打印出来的df看起来很难看；想要的效果是比较规整美观的df展示，例如单独展示df时那样，是一个完整的table视图。下面美化下jupyter notebook中for循环输出DataFrame 解决解决前 for 阅读全文

posted @ 2020-07-20 14:59 ZhuGaochao 阅读(3222) 评论(0) 推荐(0)

pandas dataframe.pivot()用法

摘要：OUTLINE pivot()的用途可以简单理解为：将一个DataFrame的记录数据整合成表格(类似Excel中的数据透视表功能)，而且是按照pivot(‘index=xx’,’columns=xx’,’values=xx’)来整合的。还有另外一种写法，但是官方貌似并没有给出来，就是pivot 阅读全文

posted @ 2020-06-23 12:51 ZhuGaochao 阅读(10475) 评论(0) 推荐(1)

pandas 之 agg 用法

摘要：参考：https://segmentfault.com/a/1190000012394176?utm_source=tag-newest 阅读全文

posted @ 2020-06-16 17:03 ZhuGaochao 阅读(1072) 评论(0) 推荐(0)

pd.HDFStore() 报错: ValueError: Can only append to Tables

摘要：背景由于.csv文件占用空间较大，就将其转为.h5文件（压缩率更高）； Version.1 import pandas as pd df = pd.read_csv('xxxxxx.csv') with pd.HDFStore(‘xxxxx.h5', 'w') as store: store['d 阅读全文

posted @ 2020-04-22 22:14 ZhuGaochao 阅读(1022) 评论(0) 推荐(0)

pandas修改DataFrame中指定的某一个值（推荐方法）

摘要：数据样例 df = pd.DataFrame({'code':['SH600001','SH000905','SH000908'],'date':['2001', '2002','2003']}) 需求将列名为索引 SH000908 对应的date值改为: zhugaochao 不推荐做法此种阅读全文

posted @ 2020-03-11 16:12 ZhuGaochao 阅读(22463) 评论(0) 推荐(1)

第五周：统计量与抽样分布

摘要：统计量统计量是统计理论中用来对数据进行分析、检验的变量。宏观量是大量微观量的统计平均值，具有统计平均的意义，对于单个微观粒子，宏观量是没有意义的．相对于微观量的统计平均性质的宏观量也叫统计量。需要指出的是，描写宏观世界的物理量例如速度、动能等实际上也可以说是宏观量，但宏观量并不都具有统计平均的性阅读全文

posted @ 2019-08-18 23:39 ZhuGaochao 阅读(1137) 评论(0) 推荐(0)

第四周（1）：数据分布-Python实战

摘要：数据准备数据集地址：http://jse.amstat.org/datasets/normtemp.dat.txt 数据集描述：总共只有三列：体温、性别、心率数据集详细描述：Journal of Statistics Education, V4N2:Shoemaker 体温数据描述性统计信息输阅读全文

posted @ 2019-08-11 23:33 ZhuGaochao 阅读(477) 评论(0) 推荐(0)

python 读取.mat文件

摘要：导入所需包读取.mat文件随便从下面文件里读取一个：读出来的m内容：取出.mat里所需信息 .mat 文件里的数据结构是 dict ，所以取值要按照 key:value 的形式：预处理数据上面读出来的数据是 ndarray 类型，为了方便数据的展示，我们可以将其转换为，pandas的Da 阅读全文

posted @ 2019-08-06 11:24 ZhuGaochao 阅读(4065) 评论(0) 推荐(0)

第三周：简单数据分布

摘要：正态分布简介正态分布又名高斯分布它以数学天才 Carl Friedrich Gauss 命名正态分布又名高斯分布，越简单的模型越是常用，因为它们能够被很好的解释和理解。正态分布非常简单，这就是它是如此的常用的原因。因此，理解正态分布非常有必要。什么是概率分布首先介绍一下相关概念：考虑一个阅读全文

posted @ 2019-08-04 23:22 ZhuGaochao 阅读(1320) 评论(0) 推荐(0)

第三周：描述性统计-实践

摘要：python环境安装过于基础，此处就不细写了，可参考：https://www.runoob.com/python/python-install.html Python基本数据类型可变、不可变数据类型可变数据类型列表、字典、集合--不可哈希集合里存的元素必须是不可变的数据类型，无序，不重复( 阅读全文

posted @ 2019-07-28 20:59 ZhuGaochao 阅读(293) 评论(0) 推荐(0)

第一周：数据的描述性统计

摘要：数据的集中趋势众数众数是样本观测值在频数分布表中频数最多的那一组的组中值，主要应用于大面积普查研究之中。众数是在一组数据中,出现次数最多的数据，是一组数据中的原数据，而不是相应的次数。一组数据中的众数不止一个，如数据2、3、-1、2、1、3中，2、3都出现了两次，它们都是这组数据中的众数。阅读全文

posted @ 2019-07-28 18:13 ZhuGaochao 阅读(1241) 评论(0) 推荐(1)

pandas.to_datetime() 只保留【年-月-日】

摘要：Outline pandas.to_datetime() 生成的日期会默认带有【2019-07-03 00:00:00】的分钟精度；但有时并不需要这些分钟精度；去掉分钟精度可以通过pandas中的 .dt.date 去掉分钟。（padnas 版本要大于等于 0.15.0）阅读全文

posted @ 2019-07-03 15:37 ZhuGaochao 阅读(18140) 评论(0) 推荐(1)

pandas 从txt读取DataFrame&DataFrame格式化保存到txt

摘要：前提首先保证你txt里的文本内容是有规律可循的（例如，列与列之间通过“\t”、“,”等指定的可识别分隔符分隔）；例如我需要读取的数据，（\t）分隔：（此文件内容是直接以DataFrame格式化写入）通过txt读取DataFrame 将DataFrame保存为txt 保存效果：阅读全文

posted @ 2019-03-27 10:45 ZhuGaochao 阅读(21545) 评论(0) 推荐(0)

pandas 取消读取csv时默认第一行为列名

摘要：读取时默认第一行为列名此时DataFrame的列名为第一行数据；因为第一行为有效数据，故不可作为列名，要么重新起列名，要么使用默认序列列名：取消默认第一行为列名给 pd.read_csv() 加上 header=None 即可；读出来的数据第一行为正常数据，列名为从0开始的序列；阅读全文

posted @ 2019-03-27 10:30 ZhuGaochao 阅读(12385) 评论(0) 推荐(2)

pandas.read_csv() 部分参数解释

摘要：read_csv()所有参数 pandas.read_csv( filepath_or_buffer, sep=',', delimiter=None, header='infer', names=None, index_col=None, usecols=None, squeeze=False, 阅读全文

posted @ 2019-03-13 10:31 ZhuGaochao 阅读(842) 评论(0) 推荐(0)

TreeSir

Where You From & Where You Go.

随笔分类 - 数据处理

公告