STATA collapse详解
//分类汇总 // stata 中 collapse 的用法 // // stata中的collapse命令是一种重新整理数据的有效工具,它可以将多个变量和水平的多维数据表合并成一个维度的数据表。它的语法格式如下: // // collapse [varlist] [, by (varlist)] [if exp] [weight][using filename] // // 其中,varlist 代表要进行聚合处理的变量列表,by ( varlist)指定了将面板数据汇总到一张表所需的分组变量,if和 weight表示通过条件和权重对聚合表进行调整。 // // // 使用collapse命令,可以按照指定的分组变量及变量表来将不同维度数据表聚合在一起,比如按照国家和省份对各个年份的市场消费数据进行合并,以汇总得出不同地区多年的消费数据。同时,利用collapse命令的if选项,也可以在汇总前对数据进行条件筛选,细化数据内容,满足不同类型需求。 // // 另外,通过collapse命令的using选项,可以将合并后的数据保存到磁盘指定的文件中,以方便后续分析。 // 总之,stata 中的collapse命令是一种非常有效且方便的数据重新整理工具,它可以对原始多维数据进行不同条件和处理后,根据需要细化或者加权合并,从而进行数据汇总和转换,有效提升数据处理的效率。
//mean均值(默认情况下, 在未设定统计量的情况下使用)
// median(中位数) p1:第1百分位数 p2:第2百分位数依次类推到p99
// sd 标准差
// semean 均值的标准误(sd/sqrt(n))
// sebinomial 二项分布均值的标准误(sqrt(p(1-p)/n)
// seposson 泊松分布均值的标准误(sqqrt(mean))
// sum 合计 rawsum 忽略选择性指定权数的合计
// count 非缺失值的观测案例数
// max 最大值 min 最小值
// iqr 四分位距 first 第一个取值 last 最后一个取值
// firstnum 第一个非缺失值 lastnum 最后一个非缺失值
collapse (sum) 家庭设备及日用品支出,by(pid)
collapse clist [if] [in] [weight] [, options] where clist is either [(stat)] varlist [ [(stat)] ... ] [(stat)] target_var=varname [target_var=varname ...] [ [(stat)] ...] or any combination of the varlist or target_var forms, and stat is one of mean means (default) //默认为均值 median medians //中位数 p1 1st percentile p2 2nd percentile ... 3rd-49th percentiles p50 50th percentile (same as median) //第50分位点 ... 51st-97th percentiles p98 98th percentile p99 99th percentile sd standard deviations //标准差 semean standard error of the mean (sd/sqrt(n)) //平均值的标准误 sebinomial standard error of the mean, binomial (sqrt(p(1-p)/n)) sepoisson standard error of the mean, Poisson (sqrt(mean)) sum sums //求和 rawsum sums, ignoring optionally specified weight except observations with a weight of zero are excluded count number of nonmissing observations //非缺失观测数 percent percentage of nonmissing observations //非缺失观测数百分比 max maximums //最大值 min minimums //最小值 iqr interquartile range //四分位范围 first first value // 第一个值 last last value //最后一个值 firstnm first nonmissing value //第一个非缺失值 lastnm last nonmissing value //最后一个非缺失值 如果未指定stat,则假定为平均值。 means (default)