随笔分类 - python
摘要:一个新的django项目初始需要配置settings.py文件: 1. 项目路径配置 新建一个apps文件夹,把所有的项目都放在apps文件夹下,比如apps下有一个message项目,如果不进行此项配置,引用时应该这样: 由于所有的项目都在apps下,可以把apps设置为根路径: (1) 在pyc
阅读全文
摘要:1.安装virtualenv 2.安装virtualenvwrapper 3.新建一个放置虚拟环境的目录 4.设置环境变量 5.创建1-n个虚拟环境 列出所有虚拟环境: 切换到某个虚拟环境: 退出虚拟环境: 删除虚拟环境: 切换到某个虚拟环境上之后,再使用pip在当前环境下进行安装 注意,每次进入虚
阅读全文
摘要:之前已经写过pandas DataFrame applymap()函数 还有pandas数组(pandas Series)-(5)apply方法自定义函数 pandas DataFrame 的 applymap() 函数和pandas Series 的 apply() 方法,都是对整个对象上个各个值
阅读全文
摘要:上一篇pandas DataFrame apply()函数(1)说了如何通过apply函数对DataFrame进行转换,得到一个新的DataFrame. 这篇介绍DataFrame apply()函数的另一个用法,得到一个新的pandas Series: apply()中的函数接收的参数为一行(列)
阅读全文
摘要:之前已经学过DataFrame与DataFrame相加,Series与Series相加,这篇介绍下DataFrame与Series的相加: 首先将Series的索引值和DataFrame的索引值相匹配, s[0] 是 1 , df[0] 是 [10,20,30,40] 然后相当于向量化运算: [10
阅读全文
摘要:pandas Series的 sort_values() 方法能对Series进行排序,返回一个新的Series: 升序排列: 降序排列: 无论升序还是降序,NaN都会被排在最后
阅读全文
摘要:上一篇通过公式自己写了一个计算两组数据的皮尔逊积矩相关系数(Pearson's r)的方法,但np已经提供了一个用于计算皮尔逊积矩相关系数(Pearson's r)的方法 np.corrcoef() : 需要注意的是, np.corrcoef() 接受的参数是一个矩阵,返回的结果也是一个矩阵 以上面
阅读全文
摘要:pandas DataFrame.shift()函数可以把数据移动指定的位数 period参数指定移动的步幅,可以为正为负.axis指定移动的轴,1为行,0为列. eg: 有这样一个DataFrame数据: 如果想让 a和b的数据都往下移动一位: 如果是在行上往右移动一位: 如果想往上或者往左移动,
阅读全文
摘要:pandas DataFrame的 applymap() 函数可以对DataFrame里的每个值进行处理,然后返回一个新的DataFrame: 一个栗子: 这里有一组数据是10个学生的两次考试成绩,要求把成绩转换成ABCD等级: 转换规则是: 90-100 -> A 80-89 -> B 70-79
阅读全文
摘要:pandas的qcut可以把一组数字按大小区间进行分区,比如 比如我要把这组数据分成两部分,一半大的,一半小的,如果是小的数,值就变成'small number',大的数,值就变成'large number': qcut() 方法第一个参数是数据,第二个参数定义区间的分割方法,比如这里把数字分成两半
阅读全文
摘要:和numpy数组(5)-二维数组的轴一样,pandas DataFrame也有轴的概念,决定了方法是对行应用还是对列应用: 以下面这个数据为例说明: 这个数据是5个车站10天内的客流数据: 这个数据里,行表示每一天里各个站的客流,列表示每一个站里各天的客流 如果要计算每天各个站的平均客流: 如果要计
阅读全文
摘要:pandas DataFrame进行向量化运算时,是根据行和列的索引值进行计算的,而不是行和列的位置: 1. 行和列索引一致: 2. 行索引一致,列索引不一致: 没有对应索引的值,会用空来代替进行计算 3. 行索引不一致,列索引一致: 其实总结下来就是,行列索引相同的,进行计算,没有的全部用空进行计
阅读全文
摘要:皮尔逊积矩线性相关系数(Pearson's r)用于计算两组数组之间是否有线性关联,举个例子: 计算两组数据的线性相关性,就是,b是否随着a的增长而增长,或者随着a的增长而减小,或者两者不相关: 皮尔逊积矩线性相关系数的公式是: (标准化数据a * 标准化数据b).mean() *注意: 在计算皮尔
阅读全文
摘要:pandas DataFrame是二维的,所以,它既有列索引,又有行索引 上一篇里只介绍了列索引: 行索引自动生成了 0,1,2 如果要自己指定行索引和列索引,可以使用 index 和 column 参数: 这个数据是5个车站10天内的客流数据: data 参数为一个numpy二维数组, index
阅读全文
摘要:之前介绍了numpy的二维数组,但是numpy二维数组有一些局限性,比如,它数组里所有的值的类型必须相同,不能某一列是数值型,某一列是字符串型,这样会导致无法使用 mean() , std() 等方法去计算某一行或某一列. 但是,使用pandas DataFrame可以解决这一问题. pandas
阅读全文
摘要:numpy的mean(),std()等方法是作用于整个numpy数组的,如果是二维数组的话,也是整个数组,包括所有行和列,但我们经常需要它仅作用于行或者列,而不是整个二维数组,这个时候,可以定义轴axis: axis=0表示作用于列 axis=1表示作用于行 以sum()求和方法为例: 一个综合栗子
阅读全文
摘要:python创建二维 list 的方法是在 list 里存放 list : numpy可以直接创建一个二维的数组: numpy二维数组获取某个值: [a, b] : a 表示行索引, b 表示列索引,就是获取第 a 行第 b个元素 也可以截取某一部分,组成一个新的numpy数组: 也可以获取某一行或
阅读全文
摘要:有时候需要对 pandas Series 里的值进行一些操作,但是没有内置函数,这时候可以自己写一个函数,使用 pandas Series 的 apply 方法,可以对里面的每个值都调用这个函数,然后返回一个新的 Series 一个栗子: 把以上Series里的名字从"Firstname Lastn
阅读全文
摘要:上一篇pandas数组(pandas Series)-(3)向量化运算里说到,将两个 pandas Series 进行向量化运算的时候,如果某个 key 索引只在其中一个 Series 里出现,计算的结果会是 NaN ,那么有什么办法能处理 NaN 呢? 1. dropna() 方法: 此方法会把所
阅读全文
摘要:这篇介绍下有index索引的pandas Series是如何进行向量化运算的: 1. index索引数组相同: 直接把各个索引对应的值进行相加 2. index索引数组值相同,顺序不同: 把各个索引对应的值相加,顺序以第一个Series的为准 3. index索引数组某些值相同,某些值不相同: 相同
阅读全文