论文断点回归设计怎么做?
2026-03-30 14:11:29
写实证论文时,如果想找个靠谱的方法来识别因果关系,断点回归设计是个挺巧妙的思路。它不像随机实验那样主动分组,而是利用现实中已经存在的某种规则或自然现象来“被动”分组。只要用好了,它能帮你得出很有说服力的结论,关键在于怎么把这个设计理清楚。
核心得抓住一个“门槛”。断点回归的逻辑基石是存在一个明确的 cutoff point,这个点把所有观测对象切成了两半。一半因为刚好跨过这个线而接受了处理,另一半没跨过就没接受。比如,某个援助政策规定家庭年收入低于 5 万的能拿到补贴,那 5 万就是这个断点。收入 4.9 万的家庭拿不到,5.1 万的也拿不到,而 4.9 万和 5.1 万的家庭在其他方面可能并没有本质区别,这种差异 solely 是由那个门槛造成的。
得证明在断点附近,分组是“准随机”的。这是断点回归成立的灵魂。虽然不是真正随机抽签,但在断点两侧非常窄的范围内,个体可以被看作是随机分布在断点两边的。为了证明这点,得检验断点两侧的协变量是不是平滑的。协变量就是那些可能影响结果但又不应该在断点处突然变化的变量,比如学生的入学成绩、家庭背景等。如果这些变量在断点处没有跳跃,说明没人能精准操纵自己落在哪一边,分组就是可信的。
带宽的选择很关键。断点回归不是用全部样本,而是用断点附近的数据。这个范围就是带宽。带宽选得太宽,会混进太多离断点远、可比性差的样本,引入噪声;选得太窄,样本量又太少,估计结果不稳定。通常的做法是用数据驱动的方法,比如 IK 方法,自动算出一个最优带宽。同时,必须做稳健性检验,用不同的带宽多跑几次,看看核心结论是不是都成立。
模型设定和函数形式也得注意。最简单的做法是用线性回归,在断点两侧分别拟合直线,看断点处的差距。但现实数据往往没那么规整,用局部线性回归或者加上高次项效果更好。现在的主流做法是用三角核函数配合局部线性回归,这样能给离断点近的样本更高的权重。同时,要控制好协变量,虽然在小范围内协变量是平衡的,但加上它们能让估计更精确。