chfs简价

CHFS数据库即中国家庭金融调查数据库，以2019年为例，该数据库包含了107008个家庭的信息，数据具有全国及省级代表性。在家庭金融调查数据库中，主要包含以上三种数据集，分别是家庭数据集（hh）、个人数据集（ind）和master数据集。

hhid为家庭的识别变量，pline为个人的识别变量，在数据集中，每一个家庭有且只有一个hhid变量，但是一个家庭中可能有多个成员，所以一个hhid变量可能会有多个pline变量。

由于该数据是问卷所得，难免存在缺失数据的情况，一类是由于问卷的逻辑跳转所引起的缺失，这类确实并不影响数据的完整性，对于数值型缺失一般采用“.”来表示，对于文本型的缺失，主要是用空白表示。另外一类是由于被访问者回答错误所引起的缺失。其中，.d表示不知道如何回答，.r表示拒绝回答，.e表示没有被询问，从而造成的缺失。.n表示未给出答案，原始值不能纳入数据库所导致的缺失。

如果变量中加入了ex的后缀，则表示受访问者所回答的答案，是问卷中答案的其他选项，那么就形成了一个新的变量。对于所有循环询问的问题，命名规则为在原变量名后加上后缀“_#”；“#”代表第#次循环。例如，c2003_1 表示第一套房子的建筑面积；c2003_2 则表示第二套房子的建筑面积。

对于问卷中的多选题，在处理过程中，所采用的原则是将变量转化为哑变量，在非循环的多选题中，在原变量名后加上后缀“_*_mc”，*则是对应了问卷中的选项，表示受访者对于第一个选项，是否进行选择，若选择则是1，否则为0，以此类推，若*为2，表示对于该问题的第二个选项，该受访者是否进行选择，若选择则为1，否则为0。如果是循环类型的多选题，则通过原变量名后加上后缀“_#_*_mc”来表示，#表示循环的次数。如#为3，*为1，则表示在第三次循环中，受访者是否对问卷中的第一个选择进行了选择，若结果为0表示未选择，若为1表示选择。

对于数据的缺失，一般会采用插值方法进行处理，在原变量中加入imp，则表示进行了插值处理，用插值变量来替代原变量，若加入的是it，则表示受访者所回答的答案不在选项中，是另外一种范围。同时，在变量中，也会进行相应的截尾处理等。

对于master相关数据的一些说明：综合变量一般为四个，分别是家庭收入、家庭消费、家庭资产和家庭负债，例如，在分析个人所得税的时候，可能使用到的就是家庭的总收入，家庭的总收入一般可分为工资性收入、农业收入、工商业收入、财产性收入、转移性收入等，那么，如果将不平等分为财富不平等和收入不平等，财富不平等是否可以采用财产性收入进行衡量，收入不平等是否可以采用除财产性收入的其他收入，或者采用工资性收入进行衡量？值得讨论。

在master数据集中，给出了相应的样本权重，即家庭样本权重和个人样本权重。对于rural变量，即1表示乡村，0表示城镇，对于城镇的定义，在问卷中也给出了相关的解释。关于地区的分类，region分成东、中、西和东北四个区域，city_level按一、二、三线城市划分。其次就是抽样地址和常住地址也可能存在差异，这个在问卷中也会有所涉及。

在数据库中，还存在着A卷和B卷的划分，分卷信息在问卷中也会进行明确的标识。家庭总收入可能存在负数的情况，主要是由于生产性经验项目亏损等导致。
posted @ 2023-05-30 10:24 myrj 阅读(386) 评论(0) 收藏举报
刷新页面返回顶部
myrj

chfs简价

公告