随笔 - 384  文章 - 0  评论 - 35  阅读 - 142万

随笔分类 -  pandas

上一页 1 2 3 4 下一页
pandas 根据两个初始时间差生成对应行数
摘要:比如说,初始日期分别是20200101,20201201,我要生成如下 代码如下: list1=[] #用于储存id list2=[] #用于储存date for i in range(len(tmp)): #生成时间序列 obs_list = [str(i.date()) for i in (pd 阅读全文
posted @ 2020-11-30 20:31 小小喽啰 阅读(216) 评论(0) 推荐(0) 编辑
df.to_dict()转化为字典数据
摘要:df.to_dict()里面参数可选(‘dict’, ‘list’, ‘series’, ‘split’, ‘records’, ‘index’) df = pd.DataFrame({'col1': [1, 2], 'col2': [0.5, 0.75]}, index=['row1', 'row 阅读全文
posted @ 2020-11-26 14:40 小小喽啰 阅读(2434) 评论(0) 推荐(0) 编辑
df.drop()函数删除多行或者多列
摘要:函数用法 从行或列中删除指定的标签 通过指定标签名称和相应的轴,或直接指定索引或列名称,删除行或列。使用多索引时,可以通过指定级别来删除不同级别上的标签 函数参数 DataFrame.drop(labels=None, axis=0, index=None, columns=None, level= 阅读全文
posted @ 2020-11-24 14:45 小小喽啰 阅读(52257) 评论(0) 推荐(0) 编辑
透视表之后得到multiindex的列拉平变成一层
摘要:例如我们做透视表时,表头可能是多层的,得到了multiindex的列,我们需要将这些列拉平成一层,如下: table_cnt = pd.pivot_table(danbao_jigou_erji, values='creditlimitamount', index=['reportno'], col 阅读全文
posted @ 2020-11-13 14:26 小小喽啰 阅读(464) 评论(0) 推荐(0) 编辑
df处理一些中文和英文混在一起的例子
摘要:首先,我们看看下面的df的字段的例子 很多时候,我们需要其中的数字,而文字对我们没有多大的作用,这时候需要我们去处理 import re # 方式1:通过自定义的函数,传给apply方法 def apply_size(x): return x.split("面积")[1].split("㎡")[0] 阅读全文
posted @ 2020-11-09 19:44 小小喽啰 阅读(256) 评论(0) 推荐(0) 编辑
df根据某几列的值比较去赋值(构建新的一列)
摘要:比如说,前【2,5】列分别是每个学科的成绩,第1列是学号,我们找出每个学生的最高分的学科,则可以如下表达 def find_max(df): x = df.col1 y = df.col2 z = df.col3 n = df.col4 if min(x,y,z,n) == x: tmp = '数学 阅读全文
posted @ 2020-11-06 10:41 小小喽啰 阅读(775) 评论(0) 推荐(0) 编辑
df.index.get_level_values()复合索引指定搜索索引级数
摘要:此方法多用以复合索引的切片搜索 函数如下 df.index.get_level_values(lever) lever:int or str,索引位置或者是索引的名称 例子 import pandas as pd tuples = [('A','a'),('A','b'),('B','a'),('B 阅读全文
posted @ 2020-11-06 10:02 小小喽啰 阅读(2567) 评论(0) 推荐(0) 编辑
DataFrame在任意处添加一列或者多列的方法
摘要:很多时候我们需要在任意处添加一列,而非末尾添加一列,下面就介绍一下几种方法 1.df.insert但是这个允许插入一列 one_hot.insert(0,'reportno',value=data_due_merge_cate['reportno']) DataFrame.insert(loc,co 阅读全文
posted @ 2020-11-05 10:47 小小喽啰 阅读(17775) 评论(0) 推荐(0) 编辑
多级索引
摘要:一、创建多级索引 1、通过pd.MultiIndex.from_tuple或from_arrays 1.1直接从元组列表创建多重索引 tuples = [('A','a'),('A','b'),('B','a'),('B','b')] mul_index = pd.MultiIndex.from_t 阅读全文
posted @ 2020-11-05 10:09 小小喽啰 阅读(728) 评论(0) 推荐(0) 编辑
df.div 除法
摘要:可实现除法 函数参数 DataFrame.div(other, axis='columns', level=None, fill_value=None) 参数 other:标量,序列,系列或DataFrame axis:{0 or ‘index’, 1 or ‘columns’},也就是按行除还是按 阅读全文
posted @ 2020-11-04 09:18 小小喽啰 阅读(982) 评论(0) 推荐(0) 编辑
pd.pivot_table 透视表
摘要:实现透视表功能 参数如下: pandas.pivot_table(data, values=None, index=None, columns=None, aggfunc='mean', fill_value=None, margins=False, dropna=True, margins_nam 阅读全文
posted @ 2020-11-03 20:47 小小喽啰 阅读(717) 评论(0) 推荐(0) 编辑
pandas 的loc布尔索引
摘要:在使用df的loc布尔索引时,其实里面的列可以是原来列表中没有存在的。。。 import pandas as pd import numpy as np boolean=[True,False] gender=['男','女'] color=['green','blue','yellow'] dat 阅读全文
posted @ 2020-10-31 13:28 小小喽啰 阅读(540) 评论(0) 推荐(0) 编辑
df.pop() 删除某一列(不能是多列)
摘要:df.pop() 可以使用这个来删除某一列(不能是多列),只有一个参数,就是列名,可以是str类型,函数返回的是被删除的列,df直接是删除后的df,不需要我们处理 我们建模时,需要单独保留某个特征,比如y值,我们就可以用y=xx.pop(label)了,很实用。 例子 df = pd.DataFra 阅读全文
posted @ 2020-09-25 14:06 小小喽啰 阅读(3095) 评论(0) 推荐(0) 编辑
np.unique() 和 df.nunique() 获取唯一值
摘要:一、np.unique() 查找数组的唯一元素。 返回数组的排序后的唯一元素。除独特元素外,还有三个可选输出: 输入数组的索引,这些索引给出唯一值 重建输入数组的唯一数组的索引 输入数组中每个唯一值出现的次数 numpy.unique(ar,return_index = False,return_i 阅读全文
posted @ 2020-09-23 15:58 小小喽啰 阅读(6476) 评论(0) 推荐(0) 编辑
pd.select_dtypes 选取特定数据类型的列
摘要:pd.select_dtypes 可以根据数据类型选取特征,这对于我们建模时非常有用,下面来看看怎么使用 DataFrame.select_dtypes(include=None, exclude=None) 参数 include, exclude:scalar or list-like,标量或类似 阅读全文
posted @ 2020-09-23 15:18 小小喽啰 阅读(4138) 评论(0) 推荐(2) 编辑
pd.to_timedelta() 将参数转换为timedelta计算时间差
摘要:pd.to_timedelta 将参数转换为timedelta,Timedelta在pandas中是一个表示两个datetime值之间的差(如日,秒和微妙)的类型,2个Datetime数据运算相减得出的结果就是一个Timedelta数据类型 pandas.to_timedelta(arg, unit 阅读全文
posted @ 2020-09-22 18:58 小小喽啰 阅读(7017) 评论(0) 推荐(0) 编辑
np.percentile 和df.quantile 分位数
摘要:np.percentile numpy.percentile(a, q, axis=None, out=None, overwrite_input=False, interpolation='linear', keepdims=False) 参数: a : array,用来算分位数的对象,可以是多维 阅读全文
posted @ 2020-09-22 16:50 小小喽啰 阅读(6635) 评论(0) 推荐(0) 编辑
df.drop_duplicates()返回删除重复行(或者列)的DataFrame
摘要:drop_duplicates() 可以删除重复的行,返回的是删除重复行后的df DataFrame.drop_duplicates(subset=None, keep='first', inplace=False, ignore_index=False) 参数 subset:column labe 阅读全文
posted @ 2020-09-21 10:59 小小喽啰 阅读(4234) 评论(0) 推荐(0) 编辑
df.dropna() 过滤数据中的缺失数据
摘要:pd.dropna 删除缺失的值,过滤数据中的缺失数据,缺失数据在pandas中用NaN标记 DataFrame.dropna(axis = 0,how = 'any',thresh = None,subset = None,inplace = False) 参数: axis:{0 or ‘inde 阅读全文
posted @ 2020-09-18 16:18 小小喽啰 阅读(2981) 评论(0) 推荐(0) 编辑
df.fillna() 缺失值填充
摘要:pd.DataFrame.fillna() 使用指定的方法填充NA / NaN值 DataFrame.fillna(value = None,method = None,axis = None,inplace = False,limit = None,downcast = None) 参数: val 阅读全文
posted @ 2020-09-18 15:40 小小喽啰 阅读(7262) 评论(0) 推荐(1) 编辑

上一页 1 2 3 4 下一页
< 2025年3月 >
23 24 25 26 27 28 1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 29
30 31 1 2 3 4 5

点击右上角即可分享
微信分享提示