1. 常用的数据分析工具

 Stata、SPSS、SAS、R、Python,甚至Excel都可以做数据分析工作。R和Python是程序员的首选,可以通过编写程序实现成整体的数据清洗、分析、挖掘,还可以增加扩展支持,把一套代码应用于类似的数据分析场景中。对于专业人士(如生物、医疗领域)来说,掌握编程语言的学习成本太高,他们更关注通过工具,方便快捷地得到分析结果,SPSS和Stata主要是图形界面的软件操作,相对来说更为合适。很多专业领域,发论文时都使用了Stata和SPSS软件的分析结果,久而久之,也使该软件成为了该领域的数据分析标准工具。

2. Stata安装和运行

 我下载的是Stata 15.1 Linux 版本,下载到本地解包后,可看到工具stata和xstata,它们分别是命令行版本和图形界面版本,图形界面中也可以使用命令,运行xstata:

$ ./xstata

  可在其下方的框内输入Stata命令回车运行,该软件中最常用的三个菜单是:Data(数据处理)、Graphic(画图)和Statistic(统计)。功能非常丰富,包括很多二级三级子菜单,下文将介绍一些最常用的功能。

3. Stata数据导入

 Stata数据导入主要有两种方式,一种是从文件导入,另一种是手动编辑内容。用文件菜单中的Open打开文件,支持Stata定义的数据’.dta’,图表’.gph’等文件类型(Python的Pandas支持导出Stata文件类型,但默认不支持中文字段名),还可通过文件菜单中的Import导入Excel、csv、dbf等常用格式数据。另外,也可以通过界面上方的New Do-file Editer或Data Editer手动创建新的数据,以及编辑现有数据,编辑界面支持复制粘贴功能。 可以看到,每次通过菜单操作后,界面中间的窗口中都显示出操作对应的命令,我们可以把常用的命令记录下来,以便后期通过命令行方式快速调用。

4. Stata常用数据分析命令

(1) 变量相关
生成新变量

. gen a=3 

改变量名

. rename a b 

改变量值

. replace b=5

删除变量

. drop b 

计算器

. display 2+3

(2) 文件目录相关
切换目录

. cd /tmp/ 

查看目录下文件

. ls 

打开数据文件

. use xxx.dta 

导入excel文件中名为“首页”的sheet页

. import excel "/tmp/xxx.xlsx", sheet("首页") 

保存文件

. save /tmp/a.dta 

退出

. exit

(3) 数据表相关 
展示当前数据表内容

. list

看当前数据格式

. describe

查看统计数据,包含:例数(Obs)、变量的平均值(Mean)、标准差、最小值和最大值

. sum

计算尔尔森系数

. pwcorr y x,sig 

计算斯皮尔曼系数

. spearman y x 

计算kwallis检验值

. kwallis y,by(x)

计算F检验值

. oneway y x 

多元线性回归

. regress y x1 x2 x3…
posted on 2019-03-17 18:17  xieyan0811  阅读(266)  评论(0编辑  收藏  举报