pandas 计算相关性系数

相关系数是最早由统计学家卡尔·皮尔逊设计的统计指标，是研究变量之间线性相关程度的量，一般用字母 r 表示。
三个相关性系数（pearson, spearman, kendall）反应的都是两个变量之间变化趋势的方向以及程度，其值范围为-1到+1，0表示两个变量不相关，正值表示正相关，负值表示负相关，值越大表示相关性越强。

->pandas 计算相关性系数
dd["corr"] = dd["银行"].rolling(12).corr(dd["证券"])

回溯日期为12，计算“银行”列与“证券”列数据的相关性系数。

与之对应的excel的计算方法：

B列和C列的相关性系数，同时回溯值是6（即分别有6个值会纳入计算）

=CORREL(B3:B8,C3:C8)。但是需要注意的是excel的correl 函数把有空的日期上的值忽略了，就相当于把有空值的那一行删掉了。

pandas的corr函数注意事项

对于pandas.core.window.Rolling.corr 方法 也就是dd["corr"] = dd["银行"].rolling(12).corr(dd["证券"]) 这种用法

This function uses Pearson’s definition of correlation。回溯期限内有空值时，无法计算相关性系数。

对于pandas.DataFrame.corr 方法

Compute pairwise correlation of columns, excluding NA/null values. 有空值时，不会计算相关性系数

method : {‘pearson’, ‘kendall’, ‘spearman’} ，method参数支持指定使用哪一种相关性系数。默认是pearson.

posted @ 2020-11-09 14:58 周周和奇奇阅读(4420) 评论(0) 收藏举报

刷新页面返回顶部

howmanky

pandas 计算相关性系数

公告