第二十届中国经济学年会

第二十届中国经济学年会CHARLS数据培训专场成功举行

　　第二十届中国经济学年会CHARLS数据培训专场于2020年12月5日晚上19:30-21：00在北大汇丰商学院401教室举行。本次专场由北京大学汇丰商学院2019级博士生杨雨魁主持。
　　主讲人是来自北京大学国家发展研究院的龚金泉，主题为《中国健康与养老追踪调查 (CHARLS) 数据使用介绍》，具体从注册下载数据、抽样方法、数据结构、样本权重等方面介绍CHARLS数据。

龚金泉

　　CHARLS数据是国际同类型调查数据大家庭中的一员，在美国、英国、日本、韩国、印度等国家对应的数据库分别是HRS、ELSA、JSTAR、KLoSA、LASI等。在得到自然科学基金、北京大学、NIA、NIH以及世界银行的资助后，CHARLS项目于2008年7月开始在浙江、江苏两地展开试调查。此后，调查推广到全国层面，覆盖了28个省、150个县区、10000余户、17000余⼈。随着调查的推进，调查组发现了问卷设计方面的一些问题，并不断调整与改进，使得CHARLS调查数据越来越详细，也得到了越来越多经济学研究人员的关注。该数据库注册人数从2008年2月的2000人上升到如今的45000人。截至2020年11月，使用CHARLS数据库发表的文章总计2475篇，其中英文文章1082篇。
注册下载数据方面，龚金泉指出，数据库使用前需要进行用户注册，并特别提醒大家，数据库只能本人注册，不可以借用，注册后便可以下载数据。
　　抽样方法方面，CHARLS数据在获得方式上采用了PPS多阶段抽样法。在随机抽样的过程中，被抽样选中的人的配偶自动进入样本，且该调查没有户主的概念。
　　数据结构方面，CHARLS数据可分为常规调查数据结构和生命历程调查数据结构。其中，常规调查数据主要包括三个层面：个人层面的数据，主要是受访者及配偶；家户（家庭）层面的数据，包括父母、子女（媳婿）、孙子女；以及社区层面的数据，主要是社区信息。生命历程调查涵盖了所有的基线抽出来的受访户，主要采集受访者及配偶的数据，但是对每个问题询问的都是从出生到现在的情况，问题大都是循环形式。
　　样本权重是以样本被抽到可能性的倒数构建的，而且数据库的权重会随着样本变化做出调整。
　　此外，龚金泉还向观众讲解了数据使用前的准备工作、用stata处理数据的一些基本命令，以及在操作数据时可能遇到的各种问题，并在随后的提问环节中，耐心解答了现场观众的问题。

　　撰稿、摄影：北京大学汇丰商学院杨雨魁