摘要: DataFrame中会出现重复行: 1、DataFrame的duplicated方法返回一个布尔型Series,表示各行是否是重复行 2、drop_duplicates方法,用于返回一个移除了重复行的DataFrame data=DataFrame({'k1':['one']*3+['two']*4 阅读全文
posted @ 2018-07-23 10:19 平淡才是真~~ 阅读(428) 评论(0) 推荐(0) 编辑
摘要: 替换值 replace函数 1 data=Series([1,-999,2,-999,-1000,3]) 2 3 data 4 Out[34]: 5 0 1 6 1 -999 7 2 2 8 3 -999 9 4 -1000 10 5 3 11 dtype: int64 假设-999这个值可能表示缺 阅读全文
posted @ 2018-07-23 10:16 平淡才是真~~ 阅读(4101) 评论(0) 推荐(0) 编辑
摘要: 层次化索引是pandas的一项重要功能,它使你能在一个轴上拥有多个(两个以上)索引级别。 创建一个Series,并用一个由列表或数组组成的列表作为索引。 1 data=Series(np.random.randn(10), 2 index=[['a','a','a','b','b','b','c', 阅读全文
posted @ 2018-07-18 16:17 平淡才是真~~ 阅读(4203) 评论(0) 推荐(0) 编辑
摘要: 之前的所有范例都有着唯一的轴标签(索引值)。 下面就看看带有重复索引值的Series: 1 obj=Series(range(5),index=['a','a','b','b','c']) 2 3 obj 4 Out[33]: 5 a 0 6 a 1 7 b 2 8 b 3 9 c 4 10 dty 阅读全文
posted @ 2018-07-18 16:02 平淡才是真~~ 阅读(1970) 评论(0) 推荐(0) 编辑
摘要: 排序 要对行或列索引进行排序,可使用sort_index方法,它将返回一个已排序的新对象: Series 1、对Series索引排序 1 obj=Series(range(4),index=['d','a','b','c']) 2 3 obj.sort_index() 4 Out[18]: 5 a 阅读全文
posted @ 2018-07-18 15:59 平淡才是真~~ 阅读(848) 评论(0) 推荐(0) 编辑
摘要: 数组转置和轴对换 转置是重塑的一种特殊形式,返回的是源数据的视图(不会进行任何复制操作)。数组不仅有transpose方法,还有一个特殊的T属性: 进行矩阵计算时,经常需要用到该操作,比如利用np.dot计算矩阵内积: 对于高维数组,transpose需要得到一个由轴编号组成的元组才能对这些轴进行转 阅读全文
posted @ 2018-07-13 16:57 平淡才是真~~ 阅读(190) 评论(0) 推荐(0) 编辑
摘要: 一维数组的切片: 将一个标量值赋给一个切片时,该值会自动传播到整个选区。 跟列表最重要的区别在于,数组的切片是原始数组的视图。这意味着数据不会被复制,视图上的任何修改都会直接反映到源数组上。 arr_slice=arr[5:8] arr_slice Out[35]: array([12, 12, 1 阅读全文
posted @ 2018-07-13 16:36 平淡才是真~~ 阅读(416) 评论(0) 推荐(0) 编辑
摘要: 数组很重要,不用编写循环就可对数据进行批量运算,这叫矢量化。 大小相等的数组之间的任何算术运算都会讲运算应用到元素级: arr=np.array([[1.,2.,3.],[4.,5.,6.]]) arr Out[23]: array([[1., 2., 3.], [4., 5., 6.]]) arr 阅读全文
posted @ 2018-07-12 14:49 平淡才是真~~ 阅读(294) 评论(0) 推荐(0) 编辑
摘要: dtype(数据类型)是一个特殊的对象,它含有ndarray将一块内存解释为特定数据类型所需的信息: import numpy as np arr1=np.array([1,2,3],dtype=np.float64) arr2=np.array([1,2,3],dtype=np.int32) ar 阅读全文
posted @ 2018-07-12 14:47 平淡才是真~~ 阅读(481) 评论(0) 推荐(0) 编辑
摘要: 创建ndarray (1)使用array函数 接受一切序列型的对象(包括其他数组),然后产生一个新的含有传入数据的numpy数组。 import numpy as np #将一个由数值组成列表作为参数调用'array' data=[6,7.5,8,0,1] arr=np.array(data) ar 阅读全文
posted @ 2018-07-12 14:44 平淡才是真~~ 阅读(255) 评论(0) 推荐(0) 编辑
摘要: pandas最重要的一个功能是,它可以对不同索引的对象进行算数运算。在对象相加时,如果存在不同的索引对,则结果的索引就是该索引对的并集。 Series 它们相加就会产生: 自动的数据对齐操作在不重叠的索引处引入了NA值。 DataFrame 对齐操作会同时发生在行和列上: 把它们相加后会返回一个新的 阅读全文
posted @ 2018-07-11 16:03 平淡才是真~~ 阅读(705) 评论(0) 推荐(0) 编辑
摘要: Series索引的工作方式类似于NumPy数组的索引,不过Series的索引值不只是整数,如: obj[obj<2]Out[17]: a 0b 1dtype: int32 DataFrame 进行索引其实就是获取一个或者多个列: 获取列:指定列名称即可 data=DataFrame(np.arang 阅读全文
posted @ 2018-07-10 12:43 平淡才是真~~ 阅读(3331) 评论(0) 推荐(0) 编辑
摘要: 重新索引 pandas对象的一个重要方法是 reindex ,其作用是创建一个适应新索引的新对象。 #reindex函数的参数 reindex(index,method,fill_value,limit,level,copy) #index:用作索引的新序列 #method:插值(填充)方式 #fi 阅读全文
posted @ 2018-07-10 11:10 平淡才是真~~ 阅读(3637) 评论(0) 推荐(0) 编辑
摘要: pandas数据结构介绍 主要两种数据结构:Series和DataFrame. Series Series是一种类似于一维数组的对象,由一组数据(各种NumPy数据类型)+数据标签(即索引)组成。 #直接传入一组数据 from pandas import Series,DataFrame obj=S 阅读全文
posted @ 2018-07-10 10:28 平淡才是真~~ 阅读(470) 评论(0) 推荐(0) 编辑