chfs简价

CHFS数据库即中国家庭金融调查数据库,以2019年为例,该数据库包含了107008个家庭的信息,数据具有全国及省级代表性。在家庭金融调查数据库中,主要包含以上三种数据集,分别是家庭数据集(hh)、个人数据集(ind)和master数据集。

hhid为家庭的识别变量,pline为个人的识别变量,在数据集中,每一个家庭有且只有一个hhid变量,但是一个家庭中可能有多个成员,所以一个hhid变量可能会有多个pline变量。

由于该数据是问卷所得,难免存在缺失数据的情况,一类是由于问卷的逻辑跳转所引起的缺失,这类确实并不影响数据的完整性,对于数值型缺失一般采用“.”来表示,对于文本型的缺失,主要是用空白表示。另外一类是由于被访问者回答错误所引起的缺失。其中,.d表示不知道如何回答,.r表示拒绝回答,.e表示没有被询问,从而造成的缺失。.n表示未给出答案,原始值不能纳入数据库所导致的缺失。

如果变量中加入了ex的后缀,则表示受访问者所回答的答案,是问卷中答案的其他选项,那么就形成了一个新的变量。对于所有循环询问的问题,命名规则为在原变量名后加上后缀“_#”;“#”代表第#次循环。例如,c2003_1 表示第一套房子的建筑面积;c2003_2 则表示第二套房子的建筑面积。

对于问卷中的多选题,在处理过程中,所采用的原则是将变量转化为哑变量,在非循环的多选题中,在原变量名后加上后缀“_*_mc”,*则是对应了问卷中的选项,表示受访者对于第一个选项,是否进行选择,若选择则是1,否则为0,以此类推,若*为2,表示对于该问题的第二个选项,该受访者是否进行选择,若选择则为1,否则为0。如果是循环类型的多选题,则通过原变量名后加上后缀“_#_*_mc”来表示,#表示循环的次数。如#为3,*为1,则表示在第三次循环中,受访者是否对问卷中的第一个选择进行了选择,若结果为0表示未选择,若为1表示选择。

对于数据的缺失,一般会采用插值方法进行处理,在原变量中加入imp,则表示进行了插值处理,用插值变量来替代原变量,若加入的是it,则表示受访者所回答的答案不在选项中,是另外一种范围。同时,在变量中,也会进行相应的截尾处理等。

对于master相关数据的一些说明:综合变量一般为四个,分别是家庭收入、家庭消费、家庭资产和家庭负债,例如,在分析个人所得税的时候,可能使用到的就是家庭的总收入,家庭的总收入一般可分为工资性收入、农业收入、工商业收入、财产性收入、转移性收入等,那么,如果将不平等分为财富不平等和收入不平等,财富不平等是否可以采用财产性收入进行衡量,收入不平等是否可以采用除财产性收入的其他收入,或者采用工资性收入进行衡量?值得讨论。

在master数据集中,给出了相应的样本权重,即家庭样本权重和个人样本权重。对于rural变量,即1表示乡村,0表示城镇,对于城镇的定义,在问卷中也给出了相关的解释。关于地区的分类,region分成东、中、西和东北四个区域,city_level按一、二、三线城市划分。其次就是抽样地址和常住地址也可能存在差异,这个在问卷中也会有所涉及。

在数据库中,还存在着A卷和B卷的划分,分卷信息在问卷中也会进行明确的标识。家庭总收入可能存在负数的情况,主要是由于生产性经验项目亏损等导致。

 

posted @ 2023-05-30 10:24  myrj  阅读(97)  评论(0编辑  收藏  举报