04 2018 档案

摘要:移除重复数据 dataframe中常常会出现重复行,DataFrame对象的duplicated方法返回一个布尔型的Series对象,可以表示各行是否是重复行。还有一个drop_duplicates方法,用于返回一个移除了重复行的DataFrame。 是否已经发现,duplicated和drop_d 阅读全文
posted @ 2018-04-16 11:56 左手十字 阅读(230) 评论(0) 推荐(0) 编辑
摘要:重塑层次化索引 层次化索引为DataFrame的重排提供了良好的一致性操作,主要方法有 stack :将数据的列旋转为行 unstack:将数据的行转换为列 用一个dataframe对象举例 对于DataFrame,无论是使用unstack,还是stack,得到都是一个Series对象 Series 阅读全文
posted @ 2018-04-15 13:00 左手十字 阅读(1394) 评论(0) 推荐(0) 编辑
摘要:pandas对象中的数据可以通过一些内置的方式进行合并: pandas.merge 可根据一个或多个键将不同的DataFrame中的行连接起来。 pandas.concat可以沿着一条轴将多个对象堆叠到一起 实例的方法conbine_first 可以将重复的数据编接到一起,用一个对象中的值填充另一个 阅读全文
posted @ 2018-04-12 22:28 左手十字 阅读(3743) 评论(0) 推荐(0) 编辑
摘要:pandas提供的将表格型数据读取为DataFrame对象的函数。 阅读全文
posted @ 2018-04-08 16:09 左手十字 阅读(376) 评论(0) 推荐(0) 编辑
摘要:pandas用浮点值Nan表示浮点和非浮点数组中的缺失数据。它只是一个便于被检测的标记而已。 NA处理方法 特别说明dropna方法: 常用参数: axis 指定轴 how :“any/all” any代表只有有缺失值,all代表一列全部缺失 thresh; 代表最少notnull值的个数,是一个整 阅读全文
posted @ 2018-04-07 23:10 左手十字 阅读(1030) 评论(0) 推荐(0) 编辑
摘要:针对Series对象,从中抽取信息 unique可以得到Series对象的唯一值数组 返回的是未排序的数组,如果需要排序,再次执行sort()方法或者用numpy的顶级函数sort() 值计数 用到value_counts方法或value_count顶级函数 isin用于判断矢量化集合的成员资格,可 阅读全文
posted @ 2018-04-07 17:53 左手十字 阅读(3723) 评论(0) 推荐(0) 编辑
摘要:pandas对象有一些常用的数学和统计的方法,大部分都属于约简或汇总统计。 SUM方法 DataFrame对象的sum方法,返回一个含有列小计的Series NA值会自动被踢除(新版本会自动转换为0)。可以通过skipna选项禁用此功能。 常用的统计方法: 统计方法的常用选项 axis=None,s 阅读全文
posted @ 2018-04-07 16:57 左手十字 阅读(3357) 评论(0) 推荐(0) 编辑
摘要:NumPy的ufuncs也可以操作pandas对象 用DataFrame的apply方法,可以将函数应用到由各列或行所形成的一维数组中。 用DataFrame的applymap方法,可以将函数应用到元素级的数据上。 Series也有一个元素级函数应用的方法map 排序和排名 用sort_index对 阅读全文
posted @ 2018-04-07 16:31 左手十字 阅读(1460) 评论(0) 推荐(0) 编辑
摘要:reindex:重新索引 pandas对象有一个重要的方法reindex,作用:创建一个适应新索引的新对象 以Series为例 1 >>> series_obj = Series([4.5,1.3,5,-5.5],index=('a','b','c','d')) 2 >>> series_obj 3 阅读全文
posted @ 2018-04-07 14:05 左手十字 阅读(3358) 评论(0) 推荐(0) 编辑
摘要:pandas的两个主要的数据结构: Series series是一种类似于一维数组的对象,它由一组数据(NumPy数组类型的数据)和一组与之相关的数据标签(索引)组成。 可以通过索引的方式选取或修改单个或一组值 对其对象进行NumPy运算的时候会保留索引和值之间的链接 还可以将Series对象看成一 阅读全文
posted @ 2018-04-06 22:16 左手十字 阅读(371) 评论(0) 推荐(0) 编辑
摘要:随机抽样 (numpy.random) 简单的随机数据 rand(d0, d1, ..., dn) 随机值 >>> np.random.rand(3,2) array([[ 0.14022471, 0.96360618], #random [ 0.37601032, 0.25528411], #ra 阅读全文
posted @ 2018-04-06 15:01 左手十字 阅读(60294) 评论(0) 推荐(3) 编辑
摘要:这一章比较简单,内容也比较少。而且对于文件的读写,还是使用pandas比较好。numpy主要是读写文本数据和二进制数据的。 将数组以二进制的格式保存到硬盘上 主要的函数有numpy.save和numpy.load。默认情况下,数组是以未压缩的二进制保存为.npy的文件。 将多个数组保存到一个压缩文件 阅读全文
posted @ 2018-04-06 13:51 左手十字 阅读(1406) 评论(0) 推荐(0) 编辑
摘要:将条件逻辑表述为数组运算 numpy.where()是一个三目运算的表达式 假设有上面三个数组,当condi中的值为True的时候,从xarr中选取值,否则从yarr中选取值,组成一个新的数组。利用普通的列表推导式如下: result = [(x if c else y) for x,y,c in 阅读全文
posted @ 2018-04-06 12:51 左手十字 阅读(1102) 评论(0) 推荐(0) 编辑
摘要:通用函数(ufunc)是对ndarray中的数据执行元素级运算的函数。可看作简单函数的矢量化包装。 一元ufunc sqrt对数组中的所有元素开平方 exp对数组中的所有元素求指数 二元ufunc maximum 比较多个数组相同位置的元素,取大的值。注意,相互比较的数组shape必须一致 mini 阅读全文
posted @ 2018-04-05 22:34 左手十字 阅读(697) 评论(0) 推荐(0) 编辑
摘要:NumPy 的ndarray:一种多维数组对象 该对象是一个快速且灵活的大数据容器,可以利用这种数组对整个数据进行科学计算,语法跟标量元素之间的计算一样。 创建ndarray的方法: array函数:它接受一些序列型的对象,然后产生一个含有传入数据的numpy数组。 zeros ,ones 可以创指 阅读全文
posted @ 2018-04-05 14:07 左手十字 阅读(324) 评论(0) 推荐(0) 编辑
摘要:数据处理的一些基本任务: 与外界进行交互:读取各种文件(txt,csv,doc)和数据库中的数据 准备:对数据进行加工处理,清洗、变形等以便以后进行数据分析 转换:做一些数学和统计的计算,产生一个新的数据集。 建模和计算:将数据应用到统计模型、机器学习或其他计算工具中 展示:生成图表、图片、文字摘要 阅读全文
posted @ 2018-04-05 10:57 左手十字 阅读(505) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示