您的当前位置:首页正文

因果识别计量大法,十八章修炼宝典

来源:华佗健康网
因果识别计量⼤法,⼗⼋章修炼宝典我们将会继续写“Synthetic control methods”的运⾏宝典,感动于咱们计量经济圈社群⾥那种活跃的学术氛围以及世界顶级名校Ph.d和Post doctoral fellows加⼊。1.PSM-DID, DID, RDD, Stata程序百科全书式的宝典(后⾯的正⽂为你理解这个程序提供帮助),⽂末我们列出了其他16章与因果识别计量⽅法相关的经典资料。正⽂:我们都知道,计量分析的本质在于因果识别,⽽准确进⾏因果识别的⼀⼤关键就是对内⽣性的处理。虽然说⼯具变量法是解决内⽣性最常规的⼿段,但好的⼯具变量往往可遇不可求,或者需要突破天际的脑洞,或者需要深厚的⽂献积累。这个时候,似乎只剩下了⼀条明路:选题的时候就不要选那些明显有坑的主题,即核⼼解释变量明显内⽣的主题。⼀般来说,有三个原因会导致内⽣性——双向因果、遗漏变量与测量误差。由于后两者在选题之初并不突出,因⽽核⼼解释变量明显内⽣的主题便是那些核⼼解释变量与被解释变量明显互相影响的主题,⽐如经典的“制度环境与经济增长”。之前推荐过⼀篇论⽂“⼦⼥性别与⽗母幸福感”,这篇论⽂的核⼼解释变量是⼦⼥性别,被解释变量是⽗母幸福感。很显然,⼦⼥的性别是⽼天丢⾊⼦决定的,并不受⽗母幸福与否的影响,从⽽⼦⼥性别这⼀变量是外⽣的,回归分析时直接上OLS就好了。因此,为了避免找不到⼯具变量的苦恼,我们在选题的时候就可以尽量选类似逻辑的主题,⽐如对政策实施效果的考察。通常来说,政策的制定与实施对于微观主体(个⼈或企业)⽽⾔是明显外⽣的,从⽽双向因果这⼀最⼤的问题迎刃⽽解,除此之外,遗漏变量和测量误差也不再是问题:⾸先,只有与政策冲击相关的遗漏变量对结果才有影响,⽽⼏乎很少有微观因素能影响到政策的实施;其次,政策实施与否以及政策的⽬标群体往往是很明确具体的,因⽽在度量上也不容易存在误差。⼀⾔以蔽之,当研究主题是政策效果评估时,基本不需要担忧内⽣性问题,回归估计时⼀般直接上OLS就好了。我们同样都知道,DID是政策评估时经常使⽤的⽅法,听上去和⽤起来⽐OLS“⾼级”了很多,受到了⽆数应付毕业论⽂的同学的青睐。上⾯不是说⼀般⽤OLS就⾏了么,那什么时候上DID呢?这就需要细致考察DID这个⽅法的前提条件和适⽤范围了。在介绍DID的基本原理之前,先了解两个使⽤DID的前提条件,以直观地判断⾃⼰的研究主题是否真的合适⽤DID:1. ⾄少两年的⾯板数据。如果只有截⾯数据,⼀般还是别考虑DID了。2. 政策冲击并⾮⼀⼑切,具有受政策影响的实验组和不受政策影响的对照组。否则,同样别考虑DID了。⼆、DID的基本介绍DID,中⽂名“双重差分法”,英⽂名“Differences-in-Differences”,别名“倍差法”,⼩名“差中差”。作为政策效应评估⽅法中的⼀⼤利器,双重差分法受到越来越多⼈的青睐,概括起来有如下⼏个⽅⾯的原因:可以很⼤程度上避免内⽣性问题的困扰:政策相对于微观经济主体⽽⾔⼀般是外⽣的,因⽽不存在逆向因果问题。此外,使⽤固定效应估计⼀定程度上也缓解了遗漏变量偏误问题。传统⽅法下评估政策效应(⽐如OLS),主要是通过设置⼀个政策发⽣与否的虚拟变量然后进⾏回归,相较⽽⾔,双重差分法的模型设置更加科学,能更加准确地估计出政策效应。双重差分法的原理和模型设置很简单,容易理解和运⽤,并不像空间计量、DSGE等⽅法⼀样让⼈望⽽⽣畏。尽管双重差分法估计的本质就是⾯板数据固定效应估计,但是DID听上去或多或少也要⽐OLS、FE之流更加“时尚⾼端”,因⽽DID的使⽤⼀定程度上可以满⾜“虚荣⼼”。在讲DID的原理之前先看⼀看DID的基准模型设定,如下所⽰:其中,du为分组虚拟变量,若个体i受政策实施的影响,则个体i属于处理组,对应的du取值为1,若个体i不受政策实施的影响,则个体i属于对照组,对应的du取值为0。dt为政策实施虚拟变量,政策实施之前dt取值为0,政策实施之后dt取值为1。du·dt为分组虚拟变量与政策实施虚拟变量的交互项,其系数就反映了政策实施的净效应,也是我们使⽤DID时最为关注的。从模型的设定形式就知道了为什么上⾯要强调DID的两个前提条件:截⾯数据的话没法构造政策冲击变量dt,⼀⼑切政策的话没法构造分组变量du。现在再回过头来问:为什么交互项du·dt的回归系数就反映了政策实施的净效应呢?这个问题的答案可以通过下表来体现,下表的展⽰也形象体现了双重差分法五个字的真正含义:很显然,是两次差分的结果,⼀次差分在时间维度,⼀次差分在个体维度。更直观地,可以⽤图形来表述上图以及DID的逻辑:图中红⾊虚线表⽰的是假设政策并未实施时,实验组的变化趋势,即实验组的反事实情况。实际上,这个图形也反映出了DID最为重要和关键的前提条件:共同趋势(Common Trends),也就是说,处理组和对照组在政策实施之前必须具有相同的变化趋势。这⼀点后⾯再说。因此,总结来说,双重差分法的基本思想或原理就是通过对政策实施前后对照组和处理组之间差异的⽐较构造出反映政策效果的双重差分统计量。将该思想与上表的内容转化为简单的模型(1),这个时候只需要关注模型(1)中交互项的系数,就得到了想要的DID下的政策净效应。模型(1)是DID的基准形式,在实际使⽤时,只需要加上控制变量就可以了。到这⼀步,DID的基础内容就完了,是不是很简单?三、DID的前提假设与稳健性检验但是,这⾥有个但是,如同最基本的OLS也有四五个前提假设⼀样,使⽤DID时⼀定要注意这个⽅法本⾝的假设或前提条件。上⾯提到的使⽤DID的两个前提条件只是这个⽅法的适⽤范围,并不是⽅法本⾝的假设。其实上⾯的图形已经有所提⽰,DID最为重要、最为关键(甚⾄可以说唯⼀)的假设就是:处理组和对照组在政策实施之前必须具有共同的变化趋势。DID不要求随机分组,都随机了的话还要Double Difference⼲嘛呢,直接⼀个差就可以了;DID也不要求政策冲击是随机的。很久以前推荐过⼀篇论⽂【国内双重差分法的研究现状与潜在问题】,发表于《数量经济技术经济研究》2015年第7期,这篇论⽂就⼤谈特谈随机,误导了很多⼈(我认识的⼈就中过枪,答辩时被⽼师批了)。陆铭⽼师曾批这篇⽂章“影响极坏”。那实际应⽤时应该怎么来检验共同趋势假设是否满⾜呢?⾸先强调⼀下,对于只有两年的⾯板数据,共同趋势假设是⽆法直接验证的,所以很多⽂章就不提这事⼉。在多年的⾯板数据下,有两种⽅式可以⽤以关注CT:画图和回归。A: 对于画图,举个例⼦,假设考察某⼀政策冲击对企业⽣产率的影响,政策发⽣在2001年,样本期间为1995-2006年,便可以画出1995-2001年间实验组和对照组的年度⽣产率(年度⽣产率均值)趋势图,如果两条线的⾛势完全⼀致或基本⼀致,说明CT假设是满⾜的。B: 对于回归,还是继续看这个例⼦,可以建⽴如下的回归模型:其中,du还是分组虚拟变量,但这时dt有所变化,dt为年份虚拟变量,当年份为1995时,dt取值为1,反之为0,当年份为1996时,dt取值为1,反之为0,等等。从⽽,政策实施前有6个年份虚拟变量,以及du与其得到的6个交互项。交互项的系数反映的便是,对于政策实施前的某⼀年,实验组和对照组的差异。如果回归得到的这6个交互项都不显著,说明政策实施前实验组和对照组不存在明显的差别,从⽽CT得证。其实,“都不显著”可以稍微放松,即便存在⼀两个显著的情况,但只要这6个联合不显著,也是能够说明问题的。除了验证完CT假设外,DID的使⽤就算结束了?显然不是,⼀般的⽅法下尚且需要不少的稳健性检验呢。事实上,即便CT假设满⾜,我们也不能拍着胸脯说交互项的系数反映的⼀定是我们关注的政策效应⽽不是其他什么东西,这就需要进⼀步的稳健性检验以论证估计结果的可靠性了。DID中常⽤的稳健性检验有下⾯⼏种:1. 安慰剂检验。具体可以:a)选取政策实施之前的年份进⾏处理,⽐如原来的政策发⽣在2008年,研究区间为2007-2009年,这时可以将研究区间前移⾄2005-2007年,并假定政策实施年份为2006年,然后进⾏回归;b)选取已知的并不受政策实施影响的群组作为处理组进⾏回归。如果不同虚构⽅式下的DID估计量的回归结果依然显著,说明原来的估计结果很有可能出现了偏误。2. 利⽤不同的对照组进⾏回归,看研究结论是否依然⼀致。3. 选取⼀个完全不受政策⼲预影响的因素作为被解释变量进⾏回归,如果DID估计量的回归结果依然显著,说明原来的估计结果很有可能出现了偏误。要说明的是,如果回归结果显著,说明原结果是⼀定有问题的,⽽如果回归结果不显著,并不⼀定能表明原结果没问题。四、⾯板数据固定效应形式之前介绍的模型(1)是DID最普通和⼀般的形式,然⽽我们在看⽂献时往往发现别⼈的模型不长这个样⼦,哪⾥出问题了?先来看⼀看别⼈的DID模型的样⼦:我们知道,凡是做交互项,组成交互项的各个部分(A、B以及A·B)是⼀定要同时存在的,可是别⼈的模型⾥只有交互项,du哪⾥去了,dt哪⾥去了?其实,模型(3)在多年⾯板数据⾥⽐基准形式更为常见,对于⾯板数据,通常的估计⽅法是双向固定效应。这⾥⾯,为个体固定效应,更为精确地反映了个体特征,替代了原来粗糙的分组变量du;为时间固定效应,更为精确地反映了时间特征,替代了原来粗糙的政策实施变量dt。因⽽,du和dt并未真正从模型中消失,只是换了个马甲⽽已。既然模型(1)和(3)本质是⼀样的,那实际使⽤时应该⽤哪个好呢?emmm,其实都⾏,根据研究需要选择,⽐如除了交互项系数,还想关注下du或dt的系数,那这时⽆疑应该⽤模型(1)。五、扩展部分在上⾯的部分,⾸先介绍了DID的基本模型设定和⽅法原理,接着强调了使⽤DID的关键假设和稳健性检验,最后说明了多年⾯板数据下DID模型设定的另⼀种常见形式。应该说,这些就是DID这个⽅法最基本和基础的内容了。会了这些东西,⽤DID⾏⾛江湖问题应该不⼤了。但是,这⾥⼜有⼀个但是,江湖路途险恶,凭⼀把菜⼑能⾛多远呢?严肃⼀点说,DID之所以这么流⾏和受⼤家喜欢,很⼤程度上与它的灵活多变有关系,做适当的调整就能⽤来应对不同的状况。所以,接下来再介绍⼀些DID的扩展内容。扩展1:滞后效应与预期效应不论是模型(1)还是模型(3),估计出来的都是政策实施后的⼀个平均效应。然⽽,对于有些政策,其效果的显现需要⼀定的时间,⽐如政策2008年开始实施,但其效果2010年才开始出现。对政策滞后效应的考察往往很重要,有助于我们准确地评估政策的动态效果,为政策的调整和完善提供建议。同样的,政策的出台和实施通常不是突然的毫⽆预兆的,微观主体如果预期到某个时点政策⼀定会推⾏,可能会提前做出反应,这便是预期效应。对预期效应的考察⼀样很重要。上⾯的模型(2)除了可以⽤来观察CT外,还可以⽤来考察预期效应,⽐如政策是2001年实施的,⽽2000年的交互项显著,说明可能存在预期效应。将模型(2)中的年份换成政策实施之后,便可以⽤以考察滞后效应了,⽐如政策是2001年实施的,2002年和2003年的交互项不显著,从2004年开始才显著,说明政策效应可能存在两年左右的时滞。扩展2:倾向得分匹配倍差法(PSM-DID)倾向得分匹配法(PSM)本⾝就是⼀个单独的⽅法,内容也很多,所以当和DID结合时这⾥就不细讲了,以后再专门介绍PSM这个⽅法。PSM和DID都是单独可⽤的⽅法,结合在⼀起能⼲嘛呢?可以这么简单理解,DID不是要求共同趋势吗?共同趋势不是意味着实验组和对照组基本类似吗?然⽽很多时候我们的原始样本并不满⾜这个条件。这时,我们可以先⽤PSM在原始样本中挑选出基本特征都⽐较相似的新的实验组和对照组,然后再基于新的实验组对照组进⾏DID回归,这种情况下CT假设肯定妥妥的满⾜了。另外,对于某些政策冲击,实验组和对照组之间可能存在⾃选择性,⽽这会对结果产⽣影响。⽐如,研究出⼝问题时,企业是否出⼝(是否进⼊实验组或对照组)可能就并不是偶然的,这时⽤PSM也能较好地解决这个问题。不过,不是所有政策冲击情景下都能PSM搭配DID,这涉及到PSM的基本原理,以后细说。扩展3:XXXXX⼩标题没想好,暂时⽤XXXXX代替吧。在上⾯关于DID的介绍中,说的是需要“⾮⼀⼑切政策”以及“受政策影响的实验组和不受政策影响的对照组”,那这是不是意味着,某⼀群组只受到了⼀点点影响就不能作为对照组、从⽽⽆法使⽤DID呢?并不是这样的。即便是政策冲击是⼀⼑切的,但只要某⼀群组受到的影响很⼤,某⼀群组受到的影响⽐较微弱,只要满⾜CT,仍然是可以使⽤DID的。⽐如在关于贸易⾃由化的研究中,学者们较多使⽤我国2001年加⼊WTO这个外⽣冲击做DID分析,这⼀冲击的明显表现就是⾏业关税的变化,⼏乎所有⾏业的关税都受到了影响。不过,有的⾏业关税下降幅度特别⼤,有的则下降很⼩。这时,便可以把前者当做实验组,后者当做对照组,然后进⾏常规的DID回归即可。扩展4:连续型DID不管是DID的基准模型还是⾯板数据双向固定效应形式的模型,du和dt都是虚拟变量的形式,从⽽交互项估计系数的结果表明的是:政策实施之后的效应。也就是说,这⾥体现的是有与⽆之间的区别。以⼀个具体的例⼦为例,在研究出⼝的问题中使⽤DID,交互项表明的是,企业出⼝(有这个⾏为)的影响。这种设定⽆法体现出程度的变化,⽐如⽆法体现出出⼝数额的影响,出⼝数额每增加⼀单位的影响。如果我们想考察程度的变化,便可以采⽤连续型DID进⾏估计,基准模型设定如下:模型(4)与模型(1)的区别在于,原来的分组虚拟变量被连续型变量rate所替代了。在出⼝问题的考察中,rate可以是企业的出⼝额或出⼝⽐例;在空⽓污染问题的考察中,rate可以是AQI(空⽓质量指数)的具体数值,等等。此时,交互项的系数反映的是,政策实施之后,rate每⼀单位变化带来的净效应。尽管模型(4)看上去就是最普通的交互项模型,跟传统的DID好像⼀点也不搭,但它确实也是DID⼤家庭中的⼀种。之前就说过,DID⼗分的灵活多变,若是死板地认为模型(1)才是DID,可就贻笑⼤⽅了。模型(4)这种形式较早出现在Nancy Qian的⽂章⾥,她称这种形式“具有DID的⼀切优点”。扩展5:截⾯数据DID是不是有点郁闷?最开始的时候不是说截⾯数据就不要想着⽤DID了?回过头去再看⼀下,说的是“⼀般还是别···”,没说“⼀定”。和模型(1)或(3)⼀样的传统型DID肯定是⽆法适⽤于截⾯数据的,但模型(4)都算DID,截⾯数据做DID也不是不可能的。这⾥还是举个例⼦来说明这种情况。Chen and Zhou有⼀篇⽂章是研究⼤饥荒的影响的,数据是CHNS的截⾯数据。由于⼤饥荒发⽣于1959-1961年间,他们根据⼈们的出⽣年份构造出⼏个出⽣队列虚拟变量,⽐如cohort2(饥荒前2年出⽣)、cohort1(饥荒前1年出⽣)等等(说明⼀下,论⽂中的原设定不是这样随便,这⾥简化了⼀下),然后⽤出⽣队列与省份层⾯的饥荒严重程度进⾏交乘:模型(5)和模型(2)以及(4)是不是很像?这时,交互项的系数反映的便是截⾯意义上的DID效果。对这篇论⽂感兴趣的可以下载原⽂下来看看,论⽂于2007年发表在JHE上。放在计量经济圈论坛上的“经典⽂献”栏⽬。

因篇幅问题不能全部显示,请点此查看更多更全内容