摘要: 如何得到按列分组的dataframe的平均值和标准差 df = pd.DataFrame({'col1': ['apple', 'banana', 'orange'] * 2, 'col2': np.random.randint(0,15,6), 'col3': np.random.randint( 阅读全文
posted @ 2021-12-14 11:42 青竹之下 阅读(100) 评论(0) 推荐(0) 编辑
摘要: 如何获取dataframe行方向上最大值个数最多的列 df = pd.DataFrame(np.random.randint(1,100, 9).reshape(3, -1)) print(df) # 获取每列包含行方向上最大值的个数 count_series = df.apply(np.argma 阅读全文
posted @ 2021-12-14 11:39 青竹之下 阅读(44) 评论(0) 推荐(0) 编辑
摘要: 如何得到列中前n个最大值对应的索引 df = pd.DataFrame(np.random.randint(1, 15, 15).reshape(5,-1), columns=list('abc')) print(df) # 取'a'列前3个最大值对应的行 n = 5 df['a'].argsort 阅读全文
posted @ 2021-12-14 11:37 青竹之下 阅读(67) 评论(0) 推荐(0) 编辑
摘要: 如何以dataframe的形式选择特定的列 df = pd.DataFrame(np.arange(20).reshape(-1, 5), columns=list('abcde')) # print(df) # 以dataframe的形式选择特定的列 type(df[['a']]) type(df 阅读全文
posted @ 2021-12-14 11:34 青竹之下 阅读(121) 评论(0) 推荐(0) 编辑
摘要: 如何重命名dataframe的特定列 df1 = pd.DataFrame(data=np.array([[18,50],[19,51],[20,55]]),index=['man1','man2','man3'],columns=['age','weight']) print(df1) # 修改列 阅读全文
posted @ 2021-12-14 11:32 青竹之下 阅读(81) 评论(0) 推荐(0) 编辑
摘要: 如何从csv文件只读取前几行的数据 # 只读取前2行和指定列的数据 df = pd.read_csv('https://raw.githubusercontent.com/selva86/datasets/master/Cars93_miss.csv',nrows=2,usecols=['Model 阅读全文
posted @ 2021-12-14 11:30 青竹之下 阅读(32) 评论(0) 推荐(0) 编辑
摘要: 如何计算两个series之间的欧氏距离 p = pd.Series([1, 2, 3, 4, 5, 6, 7, 8, 9, 10]) q = pd.Series([10, 9, 8, 7, 6, 5, 4, 3, 2, 1]) \# 方法1 sum((p - q)**2)**.5 \# 方法2 np 阅读全文
posted @ 2021-12-14 11:27 青竹之下 阅读(53) 评论(0) 推荐(0) 编辑
摘要: 获取series中给定索引的元素(items) ser = pd.Series(list('abcdefghijklmnopqrstuvwxyz')) index = [0, 4, 8, 14, 20] # 获取指定索引的元素 ser.take(index) #> 0 a 4 e 8 i 14 o 阅读全文
posted @ 2021-12-14 11:24 青竹之下 阅读(52) 评论(0) 推荐(0) 编辑
摘要: 如何获得数值series的四分位值 \# 设置随机数种子 state = np.random.RandomState(100) \# 从均值为5标准差为25的正态分布随机抽取5个点构成series ser = pd.Series(state.normal(10, 5, 25)) \# 求ser的四分 阅读全文
posted @ 2021-12-14 11:19 青竹之下 阅读(42) 评论(0) 推荐(0) 编辑
摘要: 如何结合多个series组成dataframe # 构建series1 ser1 = pd.Series(list('abcedfghijklmnopqrstuvwxyz')) # 构建series2 ser2 = pd.Series(np.arange(26)) # 方法1,axis=1表示列拼接 阅读全文
posted @ 2021-12-14 11:14 青竹之下 阅读(36) 评论(0) 推荐(0) 编辑
摘要: 如何从列表,数组,字典构建series mylist = list('abcedfghijklmnopqrstuvwxyz') # 列表 myarr = np.arange(26) # 数组 mydict = dict(zip(mylist, myarr)) # 字典 # 构建方法 ser1 = p 阅读全文
posted @ 2021-12-14 11:12 青竹之下 阅读(31) 评论(0) 推荐(0) 编辑
摘要: Pandas 应用 Pandas 的主要数据结构是 Series (一维数据)与 DataFrame(二维数据),这两种数据结构足以处理金融、统计、社会科学、工程等领域里的大多数典型用例。 数据结构 Series 是一种类似于一维数组的对象,它由一组数据(各种Numpy数据类型)以及一组与之相关的数 阅读全文
posted @ 2021-12-14 11:06 青竹之下 阅读(27) 评论(0) 推荐(0) 编辑