注册

第二十届中国经济学年会

第二十届中国经济学年会CHARLS数据培训专场成功举行


  第二十届中国经济学年会CHARLS数据培训专场于2020年12月5日晚上19:30-21:00在北大汇丰商学院401教室举行。本次专场由北京大学汇丰商学院2019级博士生杨雨魁主持。
  主讲人是来自北京大学国家发展研究院的龚金泉,主题为《中国健康与养老追踪调查 (CHARLS) 数据使用介绍 》,具体从注册下载数据、抽样方法、数据结构、样本权重等方面介绍CHARLS数据。

 


龚金泉


  CHARLS数据是国际同类型调查数据大家庭中的一员,在美国、英国、日本、韩国、印度等国家对应的数据库分别是HRS、ELSA、JSTAR、KLoSA、LASI等。在得到自然科学基金、北京大学、NIA、NIH以及世界银行的资助后,CHARLS项目于2008年7月开始在浙江、江苏两地展开试调查。此后,调查推广到全国层面,覆盖了28个省、150个县区、10000余户、17000余⼈。随着调查的推进,调查组发现了问卷设计方面的一些问题,并不断调整与改进,使得CHARLS调查数据越来越详细,也得到了越来越多经济学研究人员的关注。该数据库注册人数从2008年2月的2000人上升到如今的45000人。截至2020年11月,使用CHARLS数据库发表的文章总计2475篇,其中英文文章1082篇。
注册下载数据方面,龚金泉指出,数据库使用前需要进行用户注册,并特别提醒大家,数据库只能本人注册,不可以借用,注册后便可以下载数据。
  抽样方法方面,CHARLS数据在获得方式上采用了PPS多阶段抽样法。在随机抽样的过程中,被抽样选中的人的配偶自动进入样本,且该调查没有户主的概念。
  数据结构方面,CHARLS数据可分为常规调查数据结构和生命历程调查数据结构。其中,常规调查数据主要包括三个层面:个人层面的数据,主要是受访者及配偶;家户(家庭)层面的数据,包括父母、子女(媳婿)、孙子女;以及社区层面的数据,主要是社区信息。生命历程调查涵盖了所有的基线抽出来的受访户,主要采集受访者及配偶的数据,但是对每个问题询问的都是从出生到现在的情况,问题大都是循环形式。
  样本权重是以样本被抽到可能性的倒数构建的,而且数据库的权重会随着样本变化做出调整。
  此外,龚金泉还向观众讲解了数据使用前的准备工作、用stata处理数据的一些基本命令,以及在操作数据时可能遇到的各种问题,并在随后的提问环节中,耐心解答了现场观众的问题。

 

  撰稿、摄影:北京大学汇丰商学院杨雨魁
 

回到顶部