——实证研究者指南
(重译本)
第三章 使回归有意义第四节 回归的细节
正文共11390个字,预计阅读时间29分钟。感谢阅读!
原文:3.4
温馨提示:左右滑动可查看完整公式!
| 保险计划 | 面对面问诊 | 门诊支出(1984$) | 受理(%) | 药物治疗概率(%) | 住院治疗概率(%) | 总支出(1984$) |
|---|---|---|---|---|---|---|
| 免费组 | 4.55 | 340 | 12.8 | 86.8 | 10.3 | 749 |
| (.17) | (10.9) | (.7) | (.8) | (.5) | (39) | |
| 免赔组 | 3.02 | 235 | 11.5 | 72.3 | 9.6 | 608 |
| (.17) | (11.9) | (.8) | (1.5) | (.6) | (46) | |
| 免赔组减去免费组 | -1.53 | -105 | -1.3 | -14.5 | -0.7 | -141 |
| (.24) | (16.1) | (1.0) | (1.7) | (.7) | (60) |
注:改编自Manning等人(1987)中的表2。所有的标准误差(显示在括号中)都经过了跨期和组内相关性的校正。表中的金额以1984年6月美元计算。问诊服务是与保健提供者进行面对面接触;问诊服务仅为放射科、麻醉科,而病理学的问诊被排除在外。问诊相关支出不包括牙科护理和门诊心理治疗。
因为支出结果是非负随机变量,有时等于零,它们的期望可以写为:
好的COP,坏的COP:正数效应
为了进一步分析COP效应,我们写出下式:
Tobit CEF为我们提供了观察支出的平均处理效应的表达式。具体地说,
协变量导致非线性
或者,通过微分 来完成。大多数人在处理连续或多值回归时就会使用导数。
在实践中,这可以用平均导数来近似,
(Stata以两种方式计算边际效应,但默认为(3.4.8)的虚拟回归)。
同样,将方程(3.4.6)推广为有协变量的模型,对于一个非负的LDV,我们有:
表明两个以上儿童的虚拟变量的影响的Probit边际效应与相同关系的OLS估计值是不可区分的。这可以在表3.4.2的第2、3和4列中看到,该表的第一行比较了1980年整个样本的不同方法的估计值。OLS对第三个孩子的影响的估计值是-0.162,而对应的probit边际效应为-0.163和-0.162。这些是在第一种情况下OLS估计使用(3.4.8)得到的估计值以及在第二种情况下(因此也就是对处理组的边际效应)得到的估计值:
生育率和工作时间之间关系的边际效应与相应的OLS估计值非常接近,尽管并不是无法区分的。这可以在第5列和第6列中看到。例如,比较第2列中的Tobit估计值-6.56和-5.87与OLS估计值-5.92。虽然Tobit估计绝对值要大10%,但这似乎不太可能有实质性的重要性。该表的其余列比较OLS估计与一个有序生育变量替代了虚拟变量的边际效应,而不是一个虚拟变量。这些计算都使用导数来导出边际效应(标记为MFX)。在这里,OLS和非线性边际效应估计值对于probit和Tobit也是相似的。
表3.4.2 生育对LDVs影响的不同估计的比较
注:该表报告了生育对母亲劳动供给的影响的OLS估计值、平均处理效应和边际效应(MFX)。A部分的样本包括254,654项观测值,与Angrist和Evans(1998)使用的1980年已婚妇女人口普查样本相同。协变量包括年龄、第一胎年龄、第一胎和第二胎男孩与否的虚拟变量。B部分的样本包括746名非白人女性,她们至少上过大学,年龄在30岁以上,第一次生育年龄在20岁之前。标准离差报告在第1行的括号内。标准误差显示在其他列的括号中。用于估计第4、6和10列处理组的平均效应的样本包括有两个以上孩子的妇女。
因此,给定父母的身高,孩子的身高是父母身高和人口平均身高的加权平均值。因此,高个子父母的孩子一般不会像他们那么高。同样,对于矮个子父母来说他们的孩子也一般不会像他们那样矮。具体来说,身高6英尺3英寸的Pischke可以预期他的孩子们个子会比较高,尽管没有他那么高。不过,值得庆幸的是,身高5英尺6英寸的Angrist可以指望他的孩子比他高。高尔顿称这种特性为“遗传身长向平均水平的回归”。今天我们称之为均值回归。
注释
[1]Altonji和Segal(1996)在广义矩方法的背景下讨论了这一点。
[2] HIE比这里描述的要复杂得多。有14种不同的处理,包括分配给一个预付费的类似于HMO的服务。实验设计不是使用简单的随机分配,而是更复杂的分层分配方案,旨在确保组间协变量平衡。
[3] Tobit的一般化模型是样本选择模型,其中决定参与的潜在变量与决定支出的潜在变量不同。例如,可参看:Maddala,1983。与Tobit一样,在样本选择模型中也出现了与潜在变量效应的解释相关的概念问题。
[4]我们应该注意到,我们最喜欢的回归例子(即工资对数对学校教育的回归)也可能存在COP问题,因为对数工资的样本自然地忽略了那些零收入的人。如果教育程度影响到工作的可能性,就会导致COP式的选择性偏差。因此,在实践中,我们关注的是成人男性的样本,他们的参与率很高,在受教育群体中也相当稳定(例如,图3.1.1中40-49岁的白人男性)。
[5]尤尔的第一篇关于济贫法的应用论文于1895年发表在《经济杂志》(Economic Journal)上,Pischke很自豪自己是该杂志的联合编辑。与此相适应的多元回归理论,出现在尤尔(1897)上。
本专栏主理人简介
企研数据学术顾问 · 李井奎
点击搜索你感兴趣的内容吧
往期推荐
数据Seminar
这里是大数据、分析技术与学术研究的三叉路口
文 | 《基本无害的计量经济学——实证研究者指南(重译本)》
翻译 | 李井奎
校对 | 陈泽 王锐
排版 | 彭绮荣