STATA collapse详解

//分类汇总
// stata 中 collapse 的用法
//
// stata中的collapse命令是一种重新整理数据的有效工具,它可以将多个变量和水平的多维数据表合并成一个维度的数据表。它的语法格式如下:
//
// collapse [varlist] [, by (varlist)] [if exp] [weight][using filename]
//
// 其中,varlist 代表要进行聚合处理的变量列表,by ( varlist)指定了将面板数据汇总到一张表所需的分组变量,if和 weight表示通过条件和权重对聚合表进行调整。
//
//
// 使用collapse命令,可以按照指定的分组变量及变量表来将不同维度数据表聚合在一起,比如按照国家和省份对各个年份的市场消费数据进行合并,以汇总得出不同地区多年的消费数据。同时,利用collapse命令的if选项,也可以在汇总前对数据进行条件筛选,细化数据内容,满足不同类型需求。
//
// 另外,通过collapse命令的using选项,可以将合并后的数据保存到磁盘指定的文件中,以方便后续分析。
// 总之,stata 中的collapse命令是一种非常有效且方便的数据重新整理工具,它可以对原始多维数据进行不同条件和处理后,根据需要细化或者加权合并,从而进行数据汇总和转换,有效提升数据处理的效率。

//mean均值(默认情况下, 在未设定统计量的情况下使用)
// median(中位数) p1:第1百分位数 p2:第2百分位数依次类推到p99
// sd 标准差
// semean 均值的标准误(sd/sqrt(n))
// sebinomial 二项分布均值的标准误(sqrt(p(1-p)/n)
// seposson 泊松分布均值的标准误(sqqrt(mean))
// sum 合计 rawsum 忽略选择性指定权数的合计
// count 非缺失值的观测案例数
// max 最大值 min 最小值
// iqr 四分位距 first 第一个取值 last 最后一个取值
// firstnum 第一个非缺失值 lastnum 最后一个非缺失值



collapse (sum) 家庭设备及日用品支出,by(pid)

 

  collapse clist [if] [in] [weight] [, options]

where clist is either

    [(stat)] varlist [ [(stat)] ... ]
    [(stat)] target_var=varname [target_var=varname ...] [ [(stat)] ...]

or any combination of the varlist or target_var forms, and stat is one of

    mean         means (default)    //默认为均值
    median       medians         //中位数
    p1           1st percentile
    p2           2nd percentile
    ...          3rd-49th percentiles
    p50          50th percentile (same as median)    //第50分位点
    ...          51st-97th percentiles
    p98          98th percentile
    p99          99th percentile
    sd           standard deviations   //标准差
    semean       standard error of the mean (sd/sqrt(n))   //平均值的标准误
    sebinomial   standard error of the mean, binomial (sqrt(p(1-p)/n)) 
    sepoisson    standard error of the mean, Poisson (sqrt(mean))
    sum          sums       //求和                                                                                   
    rawsum       sums, ignoring optionally specified weight except observations with a weight of zero are excluded
    count        number of nonmissing observations   //非缺失观测数
    percent      percentage of nonmissing observations   //非缺失观测数百分比
    max          maximums              //最大值
    min          minimums              //最小值
    iqr          interquartile range   //四分位范围
    first        first value               // 第一个值
    last         last value             //最后一个值
    firstnm      first nonmissing value    //第一个非缺失值
    lastnm       last nonmissing value   //最后一个非缺失值

如果未指定stat,则假定为平均值。  means (default)

 

posted @ 2023-06-24 11:11  myrj  阅读(3221)  评论(0编辑  收藏  举报