随笔分类 - 读书笔记
摘要:对计算好的相关系数进行显著性检验。 原假设:变量间不相关,即总体的相关系数为0。 cor.test()对单个的 Pearson、Spearman 和 Kendall 相关系数进行检验。、 格式:cor.test(x, y, alternative=, method=) x,y: 为要检验相关性的变量
阅读全文
摘要:1、 计算相关系数 (1) cor()函数可以计算以下三种相关系数: (2) Pearson 极差相关系数:两个连续变量之间的线性相关程度。 (3) Spearman 等级相关系数:等级变量之间的相关程度。 (4) Kendall 等级相关系数:非参数的等级相关度量。 (5) 语法:cor(data
阅读全文
摘要:Kendall's tau-b(肯德尔)等级相关系数:用于反映分类变量相关性的指标,适用于两个分类变量均为有序分类的情况。对相关的有序变量进行非参数相关检验;取值范围在-1-1之间,此检验适合于正方形表格; 计算积距pearson相关系数,连续性变量才可采用;计算Spearman秩相关系数,适合于定
阅读全文
摘要:Pearson(皮尔逊)相关系数:也叫pearson积差相关系数。衡量两个连续变量之间的线性相关程度。 当两个变量都是正态连续变量,而且两者之间呈线性关系时,表现这两个变量之间相关程度用积差相关系数,主要有Pearson简单相关系数。 Pearson相关系数公式如下: Pearson(皮尔逊)相关系
阅读全文
摘要:变异系数:CV=标准差/均值*100% 协方差:用来度量两个随机变量关系的统计量。 公式简单翻译一下是:对于X,Y两个变量,每个时刻的“X值与其均值之差” 乘以 “Y值与其均值之差”得到一个乘积,再对这每时刻的乘积求和并求出均值。 总结一下,如果协方差为正,说明X,Y同向变化,协方差越大说明同向程度
阅读全文
摘要:定义:设X1服从自由度为m的χ2分布,X2服从自由度为n的χ2分布,且X1、X2相互独立,则称变量F=(X1/m)/(X2/n)所服从的分布为F分布,其中第一自由度为m,第二自由度为n.[1] F分布:设X、Y为两个独立的随机变量,X服从自由度为n的卡方分布,Y服从自由度为m的卡方分布,这两个独立的
阅读全文
摘要:1.1 定义 定义:假设X服从标准正态分布N(0,1),Y服从卡方分布,那么的分布称为自由度为n的t分布,记为。 T分布密度函数其中,Gam(x)为伽马函数。 可用于两组独立计量资料的假设检验。 由于在实际工作中,往往σ(总体方差)是未知的,常用s(样本方差)作为σ总体方差的估计值,为了与u变换(正
阅读全文
摘要:1.1 定义 设 X1,X2,......Xn相互独立, 都服从标准正态分布N(0,1), 则称随机变量χ2=X12+X22+......+Xn2所服从的分布为自由度为 n 的χ2分布.[1] 卡方分布的 期望E(χ2)=n,方差D(χ2)=2n。 卡方分布:若n个相互独立的随机变量ξ₁、ξ₂、……
阅读全文
摘要:【正态分布】(Normal distribution),也称“常态分布”,又名高斯分布(Gaussian distribution) 正态曲线呈钟型,两头低,中间高,左右对称因其曲线呈钟形,因此人们又经常称之为钟形曲线。 当μ = 0,σ = 1时的正态分布是标准正态分布。 正态分布有两个参数,即期
阅读全文
摘要:一、确定资料的类型:分类资料、定量资料; 选择适当的统计方法,资料不同,设计不同,采用的分析方法不同;1、计量资料的比较(比较集中趋势是否不同): (1)两组:t检验、Wilcoxon秩和检验 … t分布(近似正态分布):用于根据小样本来估计呈正态分布且方差未知的总体的均值。 定义:假设X服从标准正
阅读全文
摘要:一、统计描述指标的选择与应用 计量资料:集中趋势与离散趋势(1)正态分布:均数标准差 (2)非正态分布(偏态、不规则分布):中位数(M),四分位数 (P25、P75) 无序分类资料:率、构成比 二、集中趋势与离散趋势集中趋势:用平均数(指标体系)反映一组观察值的中心位置或平均水平。 (1)算数均数
阅读全文
摘要:检验某学区所有在售房源中,小区与楼栋类别(低层;多层;小高层;高层)是否相关 导入数据: 结果如下: 生成列联表(频数表): 看一下新表格: 结果如下: 结果如下: 独立性检验 1、卡方检验:对二维表的行变量和列变量进行卡方独立性检验。 卡方分布—— n个独立的标准正态分布变量的平方和服从自由度为
阅读全文
摘要:统计学区内各个小区的房价均值 数据格式 id|community_name|house_area|house_structure|house_total|house_avg|agency_name|house_floor_curr|house_floor_total|house_floor_type
阅读全文
摘要:下载并安装 “sqldf” 包 library(sqldf) newData <- sqldf("select * from mtcars where carb=1 order by mpg", row.names=TRUE) row.names=TRUE将原始数据框中的行名延续到了新数据框中
阅读全文
摘要:1、列选择 (1)下标方式 newData <- leadership 【, c(6:10)】 选择全部行和第6到第10列;将行下标留空表示选择所有行。 (2)列名集合方式 newData <- leadership【c("q1", "q2", "q3", "q4", "q5")】 2、列剔除 (1
阅读全文
摘要:1、创建新变量 方式 一:常规方式,用已有变量组合新变量; 方式二:使用 attach()函数,不用再带数据框变量名; 方式三:使用 transform()函数,按需创建变量,并将其保存到数据框中 mydata<- transform(mydata, sum= x1 + x2, mean = (x1
阅读全文
摘要:变量分类 : (1)离散型: (a)有序:如病情,表示顺序有关系 ,但不知道相差多少。 ( b)无序:没 顺序关系,如糖尿病分型。 (2)连续型:同时体现顺序和数量。 factor()函数;将向量因子化,抽象成 整数向量。
阅读全文