pandas 根据两个初始时间差生成对应行数
摘要:比如说,初始日期分别是20200101,20201201,我要生成如下 代码如下: list1=[] #用于储存id list2=[] #用于储存date for i in range(len(tmp)): #生成时间序列 obs_list = [str(i.date()) for i in (pd
阅读全文
posted @
2020-11-30 20:31
小小喽啰
阅读(216)
推荐(0) 编辑
df.to_dict()转化为字典数据
摘要:df.to_dict()里面参数可选(‘dict’, ‘list’, ‘series’, ‘split’, ‘records’, ‘index’) df = pd.DataFrame({'col1': [1, 2], 'col2': [0.5, 0.75]}, index=['row1', 'row
阅读全文
posted @
2020-11-26 14:40
小小喽啰
阅读(2434)
推荐(0) 编辑
df.drop()函数删除多行或者多列
摘要:函数用法 从行或列中删除指定的标签 通过指定标签名称和相应的轴,或直接指定索引或列名称,删除行或列。使用多索引时,可以通过指定级别来删除不同级别上的标签 函数参数 DataFrame.drop(labels=None, axis=0, index=None, columns=None, level=
阅读全文
posted @
2020-11-24 14:45
小小喽啰
阅读(52257)
推荐(0) 编辑
透视表之后得到multiindex的列拉平变成一层
摘要:例如我们做透视表时,表头可能是多层的,得到了multiindex的列,我们需要将这些列拉平成一层,如下: table_cnt = pd.pivot_table(danbao_jigou_erji, values='creditlimitamount', index=['reportno'], col
阅读全文
posted @
2020-11-13 14:26
小小喽啰
阅读(464)
推荐(0) 编辑
df处理一些中文和英文混在一起的例子
摘要:首先,我们看看下面的df的字段的例子 很多时候,我们需要其中的数字,而文字对我们没有多大的作用,这时候需要我们去处理 import re # 方式1:通过自定义的函数,传给apply方法 def apply_size(x): return x.split("面积")[1].split("㎡")[0]
阅读全文
posted @
2020-11-09 19:44
小小喽啰
阅读(256)
推荐(0) 编辑
df根据某几列的值比较去赋值(构建新的一列)
摘要:比如说,前【2,5】列分别是每个学科的成绩,第1列是学号,我们找出每个学生的最高分的学科,则可以如下表达 def find_max(df): x = df.col1 y = df.col2 z = df.col3 n = df.col4 if min(x,y,z,n) == x: tmp = '数学
阅读全文
posted @
2020-11-06 10:41
小小喽啰
阅读(775)
推荐(0) 编辑
df.index.get_level_values()复合索引指定搜索索引级数
摘要:此方法多用以复合索引的切片搜索 函数如下 df.index.get_level_values(lever) lever:int or str,索引位置或者是索引的名称 例子 import pandas as pd tuples = [('A','a'),('A','b'),('B','a'),('B
阅读全文
posted @
2020-11-06 10:02
小小喽啰
阅读(2567)
推荐(0) 编辑
DataFrame在任意处添加一列或者多列的方法
摘要:很多时候我们需要在任意处添加一列,而非末尾添加一列,下面就介绍一下几种方法 1.df.insert但是这个允许插入一列 one_hot.insert(0,'reportno',value=data_due_merge_cate['reportno']) DataFrame.insert(loc,co
阅读全文
posted @
2020-11-05 10:47
小小喽啰
阅读(17775)
推荐(0) 编辑
多级索引
摘要:一、创建多级索引 1、通过pd.MultiIndex.from_tuple或from_arrays 1.1直接从元组列表创建多重索引 tuples = [('A','a'),('A','b'),('B','a'),('B','b')] mul_index = pd.MultiIndex.from_t
阅读全文
posted @
2020-11-05 10:09
小小喽啰
阅读(728)
推荐(0) 编辑
df.div 除法
摘要:可实现除法 函数参数 DataFrame.div(other, axis='columns', level=None, fill_value=None) 参数 other:标量,序列,系列或DataFrame axis:{0 or ‘index’, 1 or ‘columns’},也就是按行除还是按
阅读全文
posted @
2020-11-04 09:18
小小喽啰
阅读(982)
推荐(0) 编辑
pd.pivot_table 透视表
摘要:实现透视表功能 参数如下: pandas.pivot_table(data, values=None, index=None, columns=None, aggfunc='mean', fill_value=None, margins=False, dropna=True, margins_nam
阅读全文
posted @
2020-11-03 20:47
小小喽啰
阅读(717)
推荐(0) 编辑
pandas 的loc布尔索引
摘要:在使用df的loc布尔索引时,其实里面的列可以是原来列表中没有存在的。。。 import pandas as pd import numpy as np boolean=[True,False] gender=['男','女'] color=['green','blue','yellow'] dat
阅读全文
posted @
2020-10-31 13:28
小小喽啰
阅读(540)
推荐(0) 编辑
df.pop() 删除某一列(不能是多列)
摘要:df.pop() 可以使用这个来删除某一列(不能是多列),只有一个参数,就是列名,可以是str类型,函数返回的是被删除的列,df直接是删除后的df,不需要我们处理 我们建模时,需要单独保留某个特征,比如y值,我们就可以用y=xx.pop(label)了,很实用。 例子 df = pd.DataFra
阅读全文
posted @
2020-09-25 14:06
小小喽啰
阅读(3095)
推荐(0) 编辑
np.unique() 和 df.nunique() 获取唯一值
摘要:一、np.unique() 查找数组的唯一元素。 返回数组的排序后的唯一元素。除独特元素外,还有三个可选输出: 输入数组的索引,这些索引给出唯一值 重建输入数组的唯一数组的索引 输入数组中每个唯一值出现的次数 numpy.unique(ar,return_index = False,return_i
阅读全文
posted @
2020-09-23 15:58
小小喽啰
阅读(6476)
推荐(0) 编辑
pd.select_dtypes 选取特定数据类型的列
摘要:pd.select_dtypes 可以根据数据类型选取特征,这对于我们建模时非常有用,下面来看看怎么使用 DataFrame.select_dtypes(include=None, exclude=None) 参数 include, exclude:scalar or list-like,标量或类似
阅读全文
posted @
2020-09-23 15:18
小小喽啰
阅读(4138)
推荐(2) 编辑
pd.to_timedelta() 将参数转换为timedelta计算时间差
摘要:pd.to_timedelta 将参数转换为timedelta,Timedelta在pandas中是一个表示两个datetime值之间的差(如日,秒和微妙)的类型,2个Datetime数据运算相减得出的结果就是一个Timedelta数据类型 pandas.to_timedelta(arg, unit
阅读全文
posted @
2020-09-22 18:58
小小喽啰
阅读(7017)
推荐(0) 编辑
np.percentile 和df.quantile 分位数
摘要:np.percentile numpy.percentile(a, q, axis=None, out=None, overwrite_input=False, interpolation='linear', keepdims=False) 参数: a : array,用来算分位数的对象,可以是多维
阅读全文
posted @
2020-09-22 16:50
小小喽啰
阅读(6635)
推荐(0) 编辑
df.drop_duplicates()返回删除重复行(或者列)的DataFrame
摘要:drop_duplicates() 可以删除重复的行,返回的是删除重复行后的df DataFrame.drop_duplicates(subset=None, keep='first', inplace=False, ignore_index=False) 参数 subset:column labe
阅读全文
posted @
2020-09-21 10:59
小小喽啰
阅读(4234)
推荐(0) 编辑
df.dropna() 过滤数据中的缺失数据
摘要:pd.dropna 删除缺失的值,过滤数据中的缺失数据,缺失数据在pandas中用NaN标记 DataFrame.dropna(axis = 0,how = 'any',thresh = None,subset = None,inplace = False) 参数: axis:{0 or ‘inde
阅读全文
posted @
2020-09-18 16:18
小小喽啰
阅读(2981)
推荐(0) 编辑
df.fillna() 缺失值填充
摘要:pd.DataFrame.fillna() 使用指定的方法填充NA / NaN值 DataFrame.fillna(value = None,method = None,axis = None,inplace = False,limit = None,downcast = None) 参数: val
阅读全文
posted @
2020-09-18 15:40
小小喽啰
阅读(7262)
推荐(1) 编辑