随笔分类 - 数据处理分析
摘要:移除重复数据 dataframe中常常会出现重复行,DataFrame对象的duplicated方法返回一个布尔型的Series对象,可以表示各行是否是重复行。还有一个drop_duplicates方法,用于返回一个移除了重复行的DataFrame。 是否已经发现,duplicated和drop_d
阅读全文
摘要:重塑层次化索引 层次化索引为DataFrame的重排提供了良好的一致性操作,主要方法有 stack :将数据的列旋转为行 unstack:将数据的行转换为列 用一个dataframe对象举例 对于DataFrame,无论是使用unstack,还是stack,得到都是一个Series对象 Series
阅读全文
摘要:pandas对象中的数据可以通过一些内置的方式进行合并: pandas.merge 可根据一个或多个键将不同的DataFrame中的行连接起来。 pandas.concat可以沿着一条轴将多个对象堆叠到一起 实例的方法conbine_first 可以将重复的数据编接到一起,用一个对象中的值填充另一个
阅读全文
摘要:pandas用浮点值Nan表示浮点和非浮点数组中的缺失数据。它只是一个便于被检测的标记而已。 NA处理方法 特别说明dropna方法: 常用参数: axis 指定轴 how :“any/all” any代表只有有缺失值,all代表一列全部缺失 thresh; 代表最少notnull值的个数,是一个整
阅读全文
摘要:针对Series对象,从中抽取信息 unique可以得到Series对象的唯一值数组 返回的是未排序的数组,如果需要排序,再次执行sort()方法或者用numpy的顶级函数sort() 值计数 用到value_counts方法或value_count顶级函数 isin用于判断矢量化集合的成员资格,可
阅读全文
摘要:pandas对象有一些常用的数学和统计的方法,大部分都属于约简或汇总统计。 SUM方法 DataFrame对象的sum方法,返回一个含有列小计的Series NA值会自动被踢除(新版本会自动转换为0)。可以通过skipna选项禁用此功能。 常用的统计方法: 统计方法的常用选项 axis=None,s
阅读全文
摘要:NumPy的ufuncs也可以操作pandas对象 用DataFrame的apply方法,可以将函数应用到由各列或行所形成的一维数组中。 用DataFrame的applymap方法,可以将函数应用到元素级的数据上。 Series也有一个元素级函数应用的方法map 排序和排名 用sort_index对
阅读全文
摘要:reindex:重新索引 pandas对象有一个重要的方法reindex,作用:创建一个适应新索引的新对象 以Series为例 1 >>> series_obj = Series([4.5,1.3,5,-5.5],index=('a','b','c','d')) 2 >>> series_obj 3
阅读全文
摘要:pandas的两个主要的数据结构: Series series是一种类似于一维数组的对象,它由一组数据(NumPy数组类型的数据)和一组与之相关的数据标签(索引)组成。 可以通过索引的方式选取或修改单个或一组值 对其对象进行NumPy运算的时候会保留索引和值之间的链接 还可以将Series对象看成一
阅读全文
摘要:这一章比较简单,内容也比较少。而且对于文件的读写,还是使用pandas比较好。numpy主要是读写文本数据和二进制数据的。 将数组以二进制的格式保存到硬盘上 主要的函数有numpy.save和numpy.load。默认情况下,数组是以未压缩的二进制保存为.npy的文件。 将多个数组保存到一个压缩文件
阅读全文
摘要:将条件逻辑表述为数组运算 numpy.where()是一个三目运算的表达式 假设有上面三个数组,当condi中的值为True的时候,从xarr中选取值,否则从yarr中选取值,组成一个新的数组。利用普通的列表推导式如下: result = [(x if c else y) for x,y,c in
阅读全文
摘要:通用函数(ufunc)是对ndarray中的数据执行元素级运算的函数。可看作简单函数的矢量化包装。 一元ufunc sqrt对数组中的所有元素开平方 exp对数组中的所有元素求指数 二元ufunc maximum 比较多个数组相同位置的元素,取大的值。注意,相互比较的数组shape必须一致 mini
阅读全文
摘要:NumPy 的ndarray:一种多维数组对象 该对象是一个快速且灵活的大数据容器,可以利用这种数组对整个数据进行科学计算,语法跟标量元素之间的计算一样。 创建ndarray的方法: array函数:它接受一些序列型的对象,然后产生一个含有传入数据的numpy数组。 zeros ,ones 可以创指
阅读全文
摘要:数据处理的一些基本任务: 与外界进行交互:读取各种文件(txt,csv,doc)和数据库中的数据 准备:对数据进行加工处理,清洗、变形等以便以后进行数据分析 转换:做一些数学和统计的计算,产生一个新的数据集。 建模和计算:将数据应用到统计模型、机器学习或其他计算工具中 展示:生成图表、图片、文字摘要
阅读全文