06 2018 档案

摘要:pandas DataFrame是二维的,所以,它既有列索引,又有行索引 上一篇里只介绍了列索引: 行索引自动生成了 0,1,2 如果要自己指定行索引和列索引,可以使用 index 和 column 参数: 这个数据是5个车站10天内的客流数据: data 参数为一个numpy二维数组, index 阅读全文
posted @ 2018-06-30 22:55 诗&远方 阅读(162915) 评论(1) 推荐(0) 编辑
摘要:之前介绍了numpy的二维数组,但是numpy二维数组有一些局限性,比如,它数组里所有的值的类型必须相同,不能某一列是数值型,某一列是字符串型,这样会导致无法使用 mean() , std() 等方法去计算某一行或某一列. 但是,使用pandas DataFrame可以解决这一问题. pandas 阅读全文
posted @ 2018-06-29 00:20 诗&远方 阅读(1317) 评论(0) 推荐(0) 编辑
摘要:numpy的mean(),std()等方法是作用于整个numpy数组的,如果是二维数组的话,也是整个数组,包括所有行和列,但我们经常需要它仅作用于行或者列,而不是整个二维数组,这个时候,可以定义轴axis: axis=0表示作用于列 axis=1表示作用于行 以sum()求和方法为例: 一个综合栗子 阅读全文
posted @ 2018-06-27 23:29 诗&远方 阅读(2444) 评论(0) 推荐(0) 编辑
摘要:python创建二维 list 的方法是在 list 里存放 list : numpy可以直接创建一个二维的数组: numpy二维数组获取某个值: [a, b] : a 表示行索引, b 表示列索引,就是获取第 a 行第 b个元素 也可以截取某一部分,组成一个新的numpy数组: 也可以获取某一行或 阅读全文
posted @ 2018-06-27 23:04 诗&远方 阅读(6560) 评论(0) 推荐(1) 编辑
摘要:有时候需要对 pandas Series 里的值进行一些操作,但是没有内置函数,这时候可以自己写一个函数,使用 pandas Series 的 apply 方法,可以对里面的每个值都调用这个函数,然后返回一个新的 Series 一个栗子: 把以上Series里的名字从"Firstname Lastn 阅读全文
posted @ 2018-06-26 23:47 诗&远方 阅读(7287) 评论(0) 推荐(1) 编辑
摘要:上一篇pandas数组(pandas Series)-(3)向量化运算里说到,将两个 pandas Series 进行向量化运算的时候,如果某个 key 索引只在其中一个 Series 里出现,计算的结果会是 NaN ,那么有什么办法能处理 NaN 呢? 1. dropna() 方法: 此方法会把所 阅读全文
posted @ 2018-06-26 01:21 诗&远方 阅读(5772) 评论(0) 推荐(0) 编辑
摘要:这篇介绍下有index索引的pandas Series是如何进行向量化运算的: 1. index索引数组相同: 直接把各个索引对应的值进行相加 2. index索引数组值相同,顺序不同: 把各个索引对应的值相加,顺序以第一个Series的为准 3. index索引数组某些值相同,某些值不相同: 相同 阅读全文
posted @ 2018-06-23 00:24 诗&远方 阅读(2556) 评论(0) 推荐(0) 编辑
摘要:pandas Series 的 argmax 方法和 idxmax 方法用于获取 Series 的最大值的索引值: 举个栗子: 有一个pandas Series,它的索引是国家名,数据是就业率,要找出就业率最高的国家: 可以这样做: 如果是一个没有索引值的Series,则返回它的位置索引: 阅读全文
posted @ 2018-06-22 00:10 诗&远方 阅读(43496) 评论(1) 推荐(1) 编辑
摘要:pandas Series 比 numpy array 要强大很多,体现在很多方面 首先, pandas Series 有一些方法,比如: describe 方法可以给出 Series 的一些分析数据: 其次, pandas Series 和 numpy array 最大的区别是, pandas S 阅读全文
posted @ 2018-06-21 23:55 诗&远方 阅读(1866) 评论(0) 推荐(0) 编辑
摘要:numpy array 过滤后的数组,索引值从 0 开始. pandas Series 过滤后的 Series ,保持原来的索引,原来索引是几,就是几. 什么意思呢,来看个栗子: 可见, 对于 pd Series 来说,1234索引是 key ,而不是 index ,所以过滤后的数组,保留了原来的  阅读全文
posted @ 2018-06-20 00:31 诗&远方 阅读(725) 评论(0) 推荐(0) 编辑
摘要:python的 os 模块: 如果是 posix ,说明系统是Linux、Unix或Mac OS X,如果是 nt ,就是Windows系统。 uname() 函数在Windows上不提供,也就是说, os 模块的某些函数是跟操作系统相关的。 操作文件和目录的函数一部分放在os模块中,一部分放在os 阅读全文
posted @ 2018-06-15 00:02 诗&远方 阅读(557) 评论(0) 推荐(0) 编辑
摘要:在python中,可以对布尔值进行加减法运算. True会被看做 1 , False会被看做 0 : 阅读全文
posted @ 2018-06-10 01:33 诗&远方 阅读(3181) 评论(0) 推荐(0) 编辑
摘要:导入pandas life_expectancy = pd.Series(life_expectancy_values) gdp = pd.Series(gdp_values) pandas数组和numpy数组有很多一样的操作: (1) 截取部分 (2) 循环: (3) 常用函数: (4) 向量化运 阅读全文
posted @ 2018-06-10 01:27 诗&远方 阅读(2839) 评论(0) 推荐(0) 编辑
摘要:先解释下什么叫数据的相关性: 计算两个数组的平均值,如果两个数组中的两个值都大于平均值或者都小于平均值,则得到true. 如果一个大于平均值一个小于平均值,则得到false.最后计算true和false的个数. 比如,两个数组[1, 2, 3, 4] and [4, 5, 6, 7] , 得到 (4 阅读全文
posted @ 2018-06-10 01:21 诗&远方 阅读(7147) 评论(0) 推荐(0) 编辑
摘要:迭代器: 迭代器是一种数据流,可以进行迭代(循环),每次返回一个数据 生成器: 生成迭代器的函数就是生成器 比如: 上面这段代码里的 my_range 就是生成器, my_iterator 就是生成的迭代器, 可以循环迭代器. 生成器使用关键字 yield , yield 的值就是迭代器的数据流,每 阅读全文
posted @ 2018-06-06 00:12 诗&远方 阅读(433) 评论(0) 推荐(0) 编辑
摘要:lambda用来定义一个函数 普通函数: 使用lambda重写以上函数: lambda函数由三个部分组成: 1. lambda 关键字 2. 用 , 分割的参数,就是普通函数里的参数,后面跟一个 : 3. 函数体,就是普通函数里的函数体 一些栗子: 阅读全文
posted @ 2018-06-05 23:36 诗&远方 阅读(1526) 评论(0) 推荐(0) 编辑
摘要:列表推导式用于生成一个列表: 使用普通方法生成列表: 使用列表推导式生成列表: 列表推导式里有一个 for 循环, for 循环的前面部分是对元素的操作,对循环中的每个元素调用 .title() 方法. 列表推导式还可以添加 if 判断: 可以在 for 循环的最后添加条件,符合条件的元素再调用 f 阅读全文
posted @ 2018-06-03 01:45 诗&远方 阅读(188) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示