2018 年 4月随笔档案 - 左手十字

pandas（九）数据转换

摘要：移除重复数据 dataframe中常常会出现重复行，DataFrame对象的duplicated方法返回一个布尔型的Series对象，可以表示各行是否是重复行。还有一个drop_duplicates方法，用于返回一个移除了重复行的DataFrame。是否已经发现，duplicated和drop_d 阅读全文

posted @ 2018-04-16 11:56 左手十字阅读(230) 评论(0) 推荐(0) 编辑

pandas(八)重塑和轴向旋转

摘要：重塑层次化索引层次化索引为DataFrame的重排提供了良好的一致性操作，主要方法有 stack ：将数据的列旋转为行 unstack：将数据的行转换为列用一个dataframe对象举例对于DataFrame，无论是使用unstack，还是stack，得到都是一个Series对象 Series 阅读全文

posted @ 2018-04-15 13:00 左手十字阅读(1394) 评论(0) 推荐(0) 编辑

pandas（七）数据规整化：清理、转换、合并、重塑之合并数据集

摘要：pandas对象中的数据可以通过一些内置的方式进行合并： pandas.merge　可根据一个或多个键将不同的DataFrame中的行连接起来。 pandas.concat可以沿着一条轴将多个对象堆叠到一起实例的方法conbine_first 可以将重复的数据编接到一起，用一个对象中的值填充另一个阅读全文

posted @ 2018-04-12 22:28 左手十字阅读(3743) 评论(0) 推荐(0) 编辑

pandas（六）读写文本格式的数据

摘要：pandas提供的将表格型数据读取为DataFrame对象的函数。阅读全文

posted @ 2018-04-08 16:09 左手十字阅读(376) 评论(0) 推荐(0) 编辑

pandas（五）处理缺失数据和层次化索引

摘要：pandas用浮点值Nan表示浮点和非浮点数组中的缺失数据。它只是一个便于被检测的标记而已。 NA处理方法特别说明dropna方法：常用参数： axis 指定轴 how ：“any/all” any代表只有有缺失值，all代表一列全部缺失 thresh; 代表最少notnull值的个数，是一个整阅读全文

posted @ 2018-04-07 23:10 左手十字阅读(1030) 评论(0) 推荐(0) 编辑

pandas（四）唯一值、值计数以及成员资格

摘要：针对Series对象，从中抽取信息 unique可以得到Series对象的唯一值数组返回的是未排序的数组，如果需要排序，再次执行sort（）方法或者用numpy的顶级函数sort（）值计数用到value_counts方法或value_count顶级函数 isin用于判断矢量化集合的成员资格，可阅读全文

posted @ 2018-04-07 17:53 左手十字阅读(3723) 评论(0) 推荐(0) 编辑

pandas（三）汇总和计算描述统计

摘要：pandas对象有一些常用的数学和统计的方法，大部分都属于约简或汇总统计。 SUM方法 DataFrame对象的sum方法，返回一个含有列小计的Series NA值会自动被踢除（新版本会自动转换为0）。可以通过skipna选项禁用此功能。常用的统计方法：统计方法的常用选项 axis=None，s 阅读全文

posted @ 2018-04-07 16:57 左手十字阅读(3357) 评论(0) 推荐(0) 编辑

pandas（二）函数应用和映射

摘要：NumPy的ufuncs也可以操作pandas对象用DataFrame的apply方法，可以将函数应用到由各列或行所形成的一维数组中。用DataFrame的applymap方法，可以将函数应用到元素级的数据上。 Series也有一个元素级函数应用的方法map 排序和排名用sort_index对阅读全文

posted @ 2018-04-07 16:31 左手十字阅读(1460) 评论(0) 推荐(0) 编辑

pandas（一）操作Series和DataFrame的基本功能

摘要：reindex：重新索引 pandas对象有一个重要的方法reindex，作用：创建一个适应新索引的新对象以Series为例 1 >>> series_obj = Series([4.5,1.3,5,-5.5],index=('a','b','c','d')) 2 >>> series_obj 3 阅读全文

posted @ 2018-04-07 14:05 左手十字阅读(3358) 评论(0) 推荐(0) 编辑

pandas（零）数据结构

摘要：pandas的两个主要的数据结构： Series series是一种类似于一维数组的对象，它由一组数据（NumPy数组类型的数据）和一组与之相关的数据标签（索引）组成。可以通过索引的方式选取或修改单个或一组值对其对象进行NumPy运算的时候会保留索引和值之间的链接还可以将Series对象看成一阅读全文

posted @ 2018-04-06 22:16 左手十字阅读(371) 评论(0) 推荐(0) 编辑

numpy的random模块详细解析

摘要：随机抽样 (numpy.random) 简单的随机数据 rand(d0, d1, ..., dn) 随机值 >>> np.random.rand(3,2) array([[ 0.14022471, 0.96360618], #random [ 0.37601032, 0.25528411], #ra 阅读全文

posted @ 2018-04-06 15:01 左手十字阅读(60294) 评论(0) 推荐(3) 编辑

Numpy用于数组的文件输入输出

摘要：这一章比较简单，内容也比较少。而且对于文件的读写，还是使用pandas比较好。numpy主要是读写文本数据和二进制数据的。将数组以二进制的格式保存到硬盘上主要的函数有numpy.save和numpy.load。默认情况下，数组是以未压缩的二进制保存为.npy的文件。将多个数组保存到一个压缩文件阅读全文

posted @ 2018-04-06 13:51 左手十字阅读(1406) 评论(0) 推荐(0) 编辑

numpy利用数组进行数据处理

摘要：将条件逻辑表述为数组运算 numpy.where()是一个三目运算的表达式假设有上面三个数组，当condi中的值为True的时候，从xarr中选取值，否则从yarr中选取值，组成一个新的数组。利用普通的列表推导式如下： result = [(x if c else y) for x,y,c in 阅读全文

posted @ 2018-04-06 12:51 左手十字阅读(1102) 评论(0) 推荐(0) 编辑

numpy的通用函数：快速的元素级数组函数

摘要：通用函数（ufunc）是对ndarray中的数据执行元素级运算的函数。可看作简单函数的矢量化包装。一元ufunc sqrt对数组中的所有元素开平方 exp对数组中的所有元素求指数二元ufunc maximum 比较多个数组相同位置的元素，取大的值。注意，相互比较的数组shape必须一致 mini 阅读全文

posted @ 2018-04-05 22:34 左手十字阅读(697) 评论(0) 推荐(0) 编辑

NumPy基础知识：数组和矢量计算

摘要：NumPy 的ndarray：一种多维数组对象该对象是一个快速且灵活的大数据容器，可以利用这种数组对整个数据进行科学计算，语法跟标量元素之间的计算一样。创建ndarray的方法： array函数：它接受一些序列型的对象，然后产生一个含有传入数据的numpy数组。 zeros ，ones 可以创指阅读全文

posted @ 2018-04-05 14:07 左手十字阅读(324) 评论(0) 推荐(0) 编辑

数据处理任务介绍

摘要：数据处理的一些基本任务：与外界进行交互：读取各种文件（txt，csv，doc）和数据库中的数据准备：对数据进行加工处理，清洗、变形等以便以后进行数据分析转换：做一些数学和统计的计算，产生一个新的数据集。建模和计算：将数据应用到统计模型、机器学习或其他计算工具中展示：生成图表、图片、文字摘要阅读全文

posted @ 2018-04-05 10:57 左手十字阅读(505) 评论(0) 推荐(0) 编辑

左手十字

04 2018 档案

公告

搜索

常用链接

我的标签

随笔分类

随笔档案

阅读排行榜

评论排行榜

推荐排行榜

最新评论