随笔分类 - 数据处理
发表于 2021-04-15 11:07阅读:3825评论:0推荐:0
摘要:需求 把指定列的数据根据指定字符进行拆分,并保留拆分后所需的列; 原始数据: 需要将这列数据根据 ‘.’ 进行拆分,并保留 .DCE 前面的部分; 解决 借助于 pandas.DataFrame.field.str.split() df['ts_code'].str.split('.', expan
阅读全文 »
发表于 2021-04-15 10:15阅读:1195评论:0推荐:0
摘要:需求 将两列string类型的数据拼接为新的一列; 原始数据如下: 解决 借助于 pandas.DataFrame.field.str.cat() df['deliveryPrice'].str.cat(df['deliveryMonth']).str.upper()
阅读全文 »
发表于 2021-04-15 09:56阅读:2524评论:0推荐:0
摘要:需求 剔除指定列中包含 “小计”信息的行。 解决 借助 pandas.DataFrame.filed.str.contains() Step1:取出包含 “小计” 信息的行; 这样,剩下的数据就都是不包含 “小计” 的数据了; df[df['deliveryPrice'].str.contains(
阅读全文 »
发表于 2020-07-22 16:31阅读:6140评论:0推荐:0
摘要:Outline 为什么会有命名空间? XML的元素名字是不固定的,当两个不同的文档,使用同样的名称描述两个不同类型的元素的时候,或者一个同样的标记表示两个不同含义的内容的时候,就会发生命名冲突。 这时,命名空间是可以解决这个问题的; 命名空间(Namespace),对于每一套特定应用的DTD,给它一
阅读全文 »
发表于 2020-07-21 10:58阅读:1801评论:0推荐:0
摘要:在通过pandas读取、操作DataFrame时,鉴于可读性,往往会默认读取有限行、列内容,其余内容会通过省略号省略掉;但有时需要显示全部的行、列,此时只需要如下操作即可: #显示所有列 pd.set_option('display.max_columns', None) #显示所有行 pd.set
阅读全文 »
发表于 2020-07-20 14:59阅读:3124评论:0推荐:0
摘要:Outline 用jupyter处理数据时,需要循环打印多个DataFrame,但打印出来的df看起来很难看; 想要的效果是比较规整美观的df展示,例如单独展示df时那样,是一个完整的table视图。 下面美化下jupyter notebook中for循环输出DataFrame 解决 解决前 for
阅读全文 »
发表于 2020-06-23 12:51阅读:10149评论:0推荐:1
摘要:OUTLINE pivot()的用途可以简单理解为: 将一个DataFrame的记录数据整合成表格(类似Excel中的数据透视表功能),而且是按照pivot(‘index=xx’,’columns=xx’,’values=xx’)来整合的。 还有另外一种写法,但是官方貌似并没有给出来,就是pivot
阅读全文 »
发表于 2020-06-16 17:03阅读:1065评论:0推荐:0
摘要:参考:https://segmentfault.com/a/1190000012394176?utm_source=tag-newest
阅读全文 »
发表于 2020-04-22 22:14阅读:990评论:0推荐:0
摘要:背景 由于.csv文件占用空间较大,就将其转为.h5文件(压缩率更高); Version.1 import pandas as pd df = pd.read_csv('xxxxxx.csv') with pd.HDFStore(‘xxxxx.h5', 'w') as store: store['d
阅读全文 »
发表于 2020-03-11 16:12阅读:22372评论:0推荐:1
摘要:数据样例 df = pd.DataFrame({'code':['SH600001','SH000905','SH000908'],'date':['2001', '2002','2003']}) 需求 将列名为 索引 SH000908 对应的date值改为: zhugaochao 不推荐做法 此种
阅读全文 »
发表于 2019-08-18 23:39阅读:1065评论:0推荐:0
摘要:统计量 统计量是统计理论中用来对数据进行分析、检验的变量。宏观量是大量微观量的统计平均值,具有统计平均的意义,对于单个微观粒子,宏观量是没有意义的. 相对于微观量的统计平均性质的宏观量也叫统计量。需要指出的是,描写宏观世界的物理量例如速度、动能等实际上也可以说是宏观量,但宏观量并不都具有统计平均的性
阅读全文 »
发表于 2019-08-11 23:33阅读:468评论:0推荐:0
摘要:数据准备 数据集地址:http://jse.amstat.org/datasets/normtemp.dat.txt 数据集描述:总共只有三列:体温、性别、心率 数据集详细描述:Journal of Statistics Education, V4N2:Shoemaker 体温数据描述性统计信息 输
阅读全文 »
发表于 2019-08-06 11:24阅读:3881评论:0推荐:0
摘要:导入所需包 读取.mat文件 随便从下面文件里读取一个: 读出来的m内容: 取出.mat里所需信息 .mat 文件里的数据结构是 dict ,所以取值要按照 key:value 的形式: 预处理数据 上面读出来的数据是 ndarray 类型,为了方便数据的展示,我们可以将其转换为,pandas的Da
阅读全文 »
发表于 2019-08-04 23:22阅读:1196评论:0推荐:0
摘要:正态分布 简介 正态分布又名高斯分布它以数学天才 Carl Friedrich Gauss 命名正态分布又名高斯分布,越简单的模型越是常用,因为它们能够被很好的解释和理解。 正态分布非常简单,这就是它是如此的常用的原因。因此,理解正态分布非常有必要。 什么是概率分布 首先介绍一下相关概念: 考虑一个
阅读全文 »
发表于 2019-07-28 20:59阅读:276评论:0推荐:0
摘要:python环境安装 过于基础,此处就不细写了,可参考:https://www.runoob.com/python/python-install.html Python基本数据类型 可变、不可变数据类型 可变数据类型 列表、字典、集合--不可哈希 集合里存的元素必须是不可变的数据类型,无序,不重复(
阅读全文 »
发表于 2019-07-28 18:13阅读:1160评论:0推荐:1
摘要:数据的集中趋势 众数 众数是样本观测值在频数分布表中频数最多的那一组的组中值,主要应用于大面积普查研究之中。 众数是在一组数据中,出现次数最多的数据,是一组数据中的原数据,而不是相应的次数。 一组数据中的众数不止一个,如数据2、3、-1、2、1、3中,2、3都出现了两次,它们都是这组数据中的众数。
阅读全文 »
发表于 2019-07-03 15:37阅读:17999评论:0推荐:1
摘要:Outline pandas.to_datetime() 生成的日期会默认带有 【2019-07-03 00:00:00】的分钟精度;但有时并不需要这些分钟精度; 去掉分钟精度 可以通过pandas中的 .dt.date 去掉分钟。 (padnas 版本 要大于等于 0.15.0)
阅读全文 »
发表于 2019-03-27 10:45阅读:21410评论:0推荐:0
摘要:前提 首先保证你txt里的文本内容是有规律可循的(例如,列与列之间通过“\t”、“,”等指定的可识别分隔符分隔); 例如我需要读取的数据,(\t)分隔: (此文件内容是直接以DataFrame格式化写入) 通过txt读取DataFrame 将DataFrame保存为txt 保存效果:
阅读全文 »
发表于 2019-03-27 10:30阅读:12297评论:0推荐:2
摘要:读取时默认第一行为列名 此时DataFrame的列名为第一行数据; 因为第一行为有效数据,故不可作为列名,要么重新起列名,要么使用默认序列列名: 取消默认第一行为列名 给 pd.read_csv() 加上 header=None 即可; 读出来的数据第一行为正常数据,列名为从0开始的序列;
阅读全文 »
发表于 2019-03-13 10:31阅读:811评论:0推荐:0
摘要:read_csv()所有参数 pandas.read_csv( filepath_or_buffer, sep=',', delimiter=None, header='infer', names=None, index_col=None, usecols=None, squeeze=False,
阅读全文 »