摘要:
pandas DataFrame.shift()函数可以把数据移动指定的位数 period参数指定移动的步幅,可以为正为负.axis指定移动的轴,1为行,0为列. eg: 有这样一个DataFrame数据: 如果想让 a和b的数据都往下移动一位: 如果是在行上往右移动一位: 如果想往上或者往左移动, 阅读全文
摘要:
pandas DataFrame的 applymap() 函数可以对DataFrame里的每个值进行处理,然后返回一个新的DataFrame: 一个栗子: 这里有一组数据是10个学生的两次考试成绩,要求把成绩转换成ABCD等级: 转换规则是: 90-100 -> A 80-89 -> B 70-79 阅读全文
摘要:
pandas的qcut可以把一组数字按大小区间进行分区,比如 比如我要把这组数据分成两部分,一半大的,一半小的,如果是小的数,值就变成'small number',大的数,值就变成'large number': qcut() 方法第一个参数是数据,第二个参数定义区间的分割方法,比如这里把数字分成两半 阅读全文
摘要:
和numpy数组(5)-二维数组的轴一样,pandas DataFrame也有轴的概念,决定了方法是对行应用还是对列应用: 以下面这个数据为例说明: 这个数据是5个车站10天内的客流数据: 这个数据里,行表示每一天里各个站的客流,列表示每一个站里各天的客流 如果要计算每天各个站的平均客流: 如果要计 阅读全文
摘要:
pandas DataFrame进行向量化运算时,是根据行和列的索引值进行计算的,而不是行和列的位置: 1. 行和列索引一致: 2. 行索引一致,列索引不一致: 没有对应索引的值,会用空来代替进行计算 3. 行索引不一致,列索引一致: 其实总结下来就是,行列索引相同的,进行计算,没有的全部用空进行计 阅读全文
摘要:
皮尔逊积矩线性相关系数(Pearson's r)用于计算两组数组之间是否有线性关联,举个例子: 计算两组数据的线性相关性,就是,b是否随着a的增长而增长,或者随着a的增长而减小,或者两者不相关: 皮尔逊积矩线性相关系数的公式是: (标准化数据a * 标准化数据b).mean() *注意: 在计算皮尔 阅读全文