1. 常用的数据分析工具
Stata、SPSS、SAS、R、Python,甚至Excel都可以做数据分析工作。R和Python是程序员的首选,可以通过编写程序实现成整体的数据清洗、分析、挖掘,还可以增加扩展支持,把一套代码应用于类似的数据分析场景中。对于专业人士(如生物、医疗领域)来说,掌握编程语言的学习成本太高,他们更关注通过工具,方便快捷地得到分析结果,SPSS和Stata主要是图形界面的软件操作,相对来说更为合适。很多专业领域,发论文时都使用了Stata和SPSS软件的分析结果,久而久之,也使该软件成为了该领域的数据分析标准工具。
2. Stata安装和运行
我下载的是Stata 15.1 Linux 版本,下载到本地解包后,可看到工具stata和xstata,它们分别是命令行版本和图形界面版本,图形界面中也可以使用命令,运行xstata:
$ ./xstata
可在其下方的框内输入Stata命令回车运行,该软件中最常用的三个菜单是:Data(数据处理)、Graphic(画图)和Statistic(统计)。功能非常丰富,包括很多二级三级子菜单,下文将介绍一些最常用的功能。
3. Stata数据导入
Stata数据导入主要有两种方式,一种是从文件导入,另一种是手动编辑内容。用文件菜单中的Open打开文件,支持Stata定义的数据’.dta’,图表’.gph’等文件类型(Python的Pandas支持导出Stata文件类型,但默认不支持中文字段名),还可通过文件菜单中的Import导入Excel、csv、dbf等常用格式数据。另外,也可以通过界面上方的New Do-file Editer或Data Editer手动创建新的数据,以及编辑现有数据,编辑界面支持复制粘贴功能。 可以看到,每次通过菜单操作后,界面中间的窗口中都显示出操作对应的命令,我们可以把常用的命令记录下来,以便后期通过命令行方式快速调用。
4. Stata常用数据分析命令
(1) 变量相关
生成新变量
. gen a=3
改变量名
. rename a b
改变量值
. replace b=5
删除变量
. drop b
计算器
. display 2+3
(2) 文件目录相关
切换目录
. cd /tmp/
查看目录下文件
. ls
打开数据文件
. use xxx.dta
导入excel文件中名为“首页”的sheet页
. import excel "/tmp/xxx.xlsx", sheet("首页")
保存文件
. save /tmp/a.dta
退出
. exit
(3) 数据表相关
展示当前数据表内容
. list
看当前数据格式
. describe
查看统计数据,包含:例数(Obs)、变量的平均值(Mean)、标准差、最小值和最大值
. sum
计算尔尔森系数
. pwcorr y x,sig
计算斯皮尔曼系数
. spearman y x
计算kwallis检验值
. kwallis y,by(x)
计算F检验值
. oneway y x
多元线性回归
. regress y x1 x2 x3…