pandas - 随笔分类(第2页) - 小小喽啰

pandas 根据两个初始时间差生成对应行数

摘要：比如说，初始日期分别是20200101，20201201，我要生成如下代码如下： list1=[] #用于储存id list2=[] #用于储存date for i in range(len(tmp)): #生成时间序列 obs_list = [str(i.date()) for i in (pd 阅读全文

posted @ 2020-11-30 20:31 小小喽啰阅读(216) 评论(0) 推荐(0) 编辑

df.to_dict()转化为字典数据

摘要：df.to_dict()里面参数可选（‘dict’, ‘list’, ‘series’, ‘split’, ‘records’, ‘index’） df = pd.DataFrame({'col1': [1, 2], 'col2': [0.5, 0.75]}, index=['row1', 'row 阅读全文

posted @ 2020-11-26 14:40 小小喽啰阅读(2434) 评论(0) 推荐(0) 编辑

df.drop()函数删除多行或者多列

摘要：函数用法从行或列中删除指定的标签通过指定标签名称和相应的轴，或直接指定索引或列名称，删除行或列。使用多索引时，可以通过指定级别来删除不同级别上的标签函数参数 DataFrame.drop(labels=None, axis=0, index=None, columns=None, level= 阅读全文

posted @ 2020-11-24 14:45 小小喽啰阅读(52257) 评论(0) 推荐(0) 编辑

透视表之后得到multiindex的列拉平变成一层

摘要：例如我们做透视表时，表头可能是多层的，得到了multiindex的列，我们需要将这些列拉平成一层，如下： table_cnt = pd.pivot_table(danbao_jigou_erji, values='creditlimitamount', index=['reportno'], col 阅读全文

posted @ 2020-11-13 14:26 小小喽啰阅读(464) 评论(0) 推荐(0) 编辑

df处理一些中文和英文混在一起的例子

摘要：首先，我们看看下面的df的字段的例子很多时候，我们需要其中的数字，而文字对我们没有多大的作用，这时候需要我们去处理 import re # 方式1：通过自定义的函数，传给apply方法 def apply_size(x): return x.split("面积")[1].split("㎡")[0] 阅读全文

posted @ 2020-11-09 19:44 小小喽啰阅读(256) 评论(0) 推荐(0) 编辑

df根据某几列的值比较去赋值（构建新的一列）

摘要：比如说，前【2，5】列分别是每个学科的成绩，第1列是学号，我们找出每个学生的最高分的学科，则可以如下表达 def find_max(df): x = df.col1 y = df.col2 z = df.col3 n = df.col4 if min(x,y,z,n) == x: tmp = '数学阅读全文

posted @ 2020-11-06 10:41 小小喽啰阅读(775) 评论(0) 推荐(0) 编辑

df.index.get_level_values()复合索引指定搜索索引级数

摘要：此方法多用以复合索引的切片搜索函数如下 df.index.get_level_values(lever) lever：int or str，索引位置或者是索引的名称例子 import pandas as pd tuples = [('A','a'),('A','b'),('B','a'),('B 阅读全文

posted @ 2020-11-06 10:02 小小喽啰阅读(2567) 评论(0) 推荐(0) 编辑

DataFrame在任意处添加一列或者多列的方法

摘要：很多时候我们需要在任意处添加一列，而非末尾添加一列，下面就介绍一下几种方法 1.df.insert但是这个允许插入一列 one_hot.insert(0,'reportno',value=data_due_merge_cate['reportno']) DataFrame.insert（loc，co 阅读全文

posted @ 2020-11-05 10:47 小小喽啰阅读(17775) 评论(0) 推荐(0) 编辑

多级索引

摘要：一、创建多级索引 1、通过pd.MultiIndex.from_tuple或from_arrays 1.1直接从元组列表创建多重索引 tuples = [('A','a'),('A','b'),('B','a'),('B','b')] mul_index = pd.MultiIndex.from_t 阅读全文

posted @ 2020-11-05 10:09 小小喽啰阅读(728) 评论(0) 推荐(0) 编辑

df.div 除法

摘要：可实现除法函数参数 DataFrame.div(other, axis='columns', level=None, fill_value=None) 参数 other：标量，序列，系列或DataFrame axis：{0 or ‘index’, 1 or ‘columns’}，也就是按行除还是按阅读全文

posted @ 2020-11-04 09:18 小小喽啰阅读(982) 评论(0) 推荐(0) 编辑

pd.pivot_table 透视表

摘要：实现透视表功能参数如下： pandas.pivot_table(data, values=None, index=None, columns=None, aggfunc='mean', fill_value=None, margins=False, dropna=True, margins_nam 阅读全文

posted @ 2020-11-03 20:47 小小喽啰阅读(717) 评论(0) 推荐(0) 编辑

pandas 的loc布尔索引

摘要：在使用df的loc布尔索引时，其实里面的列可以是原来列表中没有存在的。。。 import pandas as pd import numpy as np boolean=[True,False] gender=['男','女'] color=['green','blue','yellow'] dat 阅读全文

posted @ 2020-10-31 13:28 小小喽啰阅读(540) 评论(0) 推荐(0) 编辑

df.pop() 删除某一列（不能是多列）

摘要：df.pop() 可以使用这个来删除某一列（不能是多列），只有一个参数，就是列名，可以是str类型，函数返回的是被删除的列，df直接是删除后的df，不需要我们处理我们建模时，需要单独保留某个特征，比如y值，我们就可以用y=xx.pop(label)了，很实用。例子 df = pd.DataFra 阅读全文

posted @ 2020-09-25 14:06 小小喽啰阅读(3095) 评论(0) 推荐(0) 编辑

np.unique() 和 df.nunique() 获取唯一值

摘要：一、np.unique() 查找数组的唯一元素。返回数组的排序后的唯一元素。除独特元素外，还有三个可选输出：输入数组的索引，这些索引给出唯一值重建输入数组的唯一数组的索引输入数组中每个唯一值出现的次数 numpy.unique（ar，return_index = False，return_i 阅读全文

posted @ 2020-09-23 15:58 小小喽啰阅读(6476) 评论(0) 推荐(0) 编辑

pd.select_dtypes 选取特定数据类型的列

摘要：pd.select_dtypes 可以根据数据类型选取特征，这对于我们建模时非常有用，下面来看看怎么使用 DataFrame.select_dtypes(include=None, exclude=None) 参数 include, exclude：scalar or list-like，标量或类似阅读全文

posted @ 2020-09-23 15:18 小小喽啰阅读(4138) 评论(0) 推荐(2) 编辑

pd.to_timedelta() 将参数转换为timedelta计算时间差

摘要：pd.to_timedelta 将参数转换为timedelta，Timedelta在pandas中是一个表示两个datetime值之间的差(如日,秒和微妙)的类型,2个Datetime数据运算相减得出的结果就是一个Timedelta数据类型 pandas.to_timedelta(arg, unit 阅读全文

posted @ 2020-09-22 18:58 小小喽啰阅读(7017) 评论(0) 推荐(0) 编辑

np.percentile 和df.quantile 分位数

摘要：np.percentile numpy.percentile(a, q, axis=None, out=None, overwrite_input=False, interpolation='linear', keepdims=False) 参数： a : array，用来算分位数的对象，可以是多维阅读全文

posted @ 2020-09-22 16:50 小小喽啰阅读(6635) 评论(0) 推荐(0) 编辑

df.drop_duplicates()返回删除重复行（或者列）的DataFrame

摘要：drop_duplicates() 可以删除重复的行，返回的是删除重复行后的df DataFrame.drop_duplicates(subset=None, keep='first', inplace=False, ignore_index=False) 参数 subset：column labe 阅读全文

posted @ 2020-09-21 10:59 小小喽啰阅读(4234) 评论(0) 推荐(0) 编辑

df.dropna() 过滤数据中的缺失数据

摘要：pd.dropna 删除缺失的值，过滤数据中的缺失数据，缺失数据在pandas中用NaN标记 DataFrame.dropna（axis = 0，how = 'any'，thresh = None，subset = None，inplace = False）参数： axis：{0 or ‘inde 阅读全文

posted @ 2020-09-18 16:18 小小喽啰阅读(2981) 评论(0) 推荐(0) 编辑

df.fillna() 缺失值填充

摘要：pd.DataFrame.fillna() 使用指定的方法填充NA / NaN值 DataFrame.fillna（value = None，method = None，axis = None，inplace = False，limit = None，downcast = None）参数： val 阅读全文

posted @ 2020-09-18 15:40 小小喽啰阅读(7262) 评论(0) 推荐(1) 编辑

随笔分类 - pandas

搜索

常用链接

最新随笔

积分与排名

随笔分类

随笔档案

阅读排行榜

评论排行榜

推荐排行榜

最新评论