
探求事物的原因,是人类永恒的精神活动之一。从古希腊的哲学到中国先秦的诗歌,都充满了对原因的追问和对因果关系的思考。比如,亚里士多德就在《物理学》(physics)和《形而上学》(metaphysics)两书中反复强调,我们只有知道了事物的原因,才能算真正理解这个事物。又如,屈原在《天问》开篇,就追问日月星辰运行的原因。
长期以来,人们一方面好奇地追问原因和结果的关系,一方面又苦于这些概念的模糊性。于是,这些话题在很长一段时间都仅仅局限在哲学和文学的范围内。精确地描述因果关系,尤其是用数学的语言来描述因果关系,则是非常近代的事情了。这一项思想飞跃,得益于现代统计学的发展。统计学家称之为“因果推断”(causal inference)。
虽然因果推断在现代统计学的萌芽阶段就已经产生,但是它的发展并非一帆风顺:它长期被主流忽视、怀疑甚至攻击。直至最近四十年,尤其是最近十年,它才得到了广泛的认可和大力的研究,成为当今主流的研究方向之一。在最近的一篇文章中,Andrew Gelman和Aki Vehtari评选了过去五十年中,统计学最重要的八个想法,排名第一的就是因果推断1。当今世界,很多年轻的学者加入了因果推断的研究,他们来自统计学、经济学、社会学、政治科学、教育学、流行病学、计算机科学、哲学等等领域。毫不夸张地说,统计因果推断的研究迎来了它发展的黄金时代。
本文将回顾统计因果推断的历史背景,评述中国因果推断研究的现状,并且大胆推测它未来的发展前景。
哲学基础:因果推断何以成为可能?
亚里士多德 《物理学》的一个英译本。这本书的Book II 3的开篇写道:“Knowledge is the object of our inquiry, and men do not think they know a thing till they have grasped the 'why' of it (which is to grasp its primary cause)”,翻译成中文就是,我们探索的目标是知识,只有掌握了“为什么”,才算真正理解一个事物,即,掌握该事物的根本原因。

休谟的名著《人性论》对哲学史产生了深远的影响,他指出了归纳推理的缺陷,认为我们对因果关系的信念仅仅来自于习惯(habit)和传统(custom)
统计学中“哥白尼式的革命”:内曼的“潜在结果”模型

年轻时的内曼。内曼是加州大学伯克利 分校统计系的创始人(照片由该系提供)

统计学的拓荒者:
鲁宾关于观察性研究中的因果推断的研究

鲁宾教授正在作报告(截屏自 https://www.youtube.com/watch?v=N4tQC3elGK4)
:个体 吸烟与否的指示变量; :个体 是否得肺癌的指示变量; :个体 的年龄、性别、教育、收入、家庭病史等等,统计学中称它们为协变量(covariates)。

费希尔否定吸烟导致肺癌
人工智能的“因果革命”:珀尔对图模型的因果解释


珀尔和他的畅销书《为什么》,图片来自:https://momentmag.com/author-interview-judea- pearl/
中国因果推断的研究
屈原的《天问》反映了中国古人对自然和历史的好奇心(图片来网络)

学术界的“四世同堂”:耿直(右二)、学生郭建华(左二,东北师范大学副校长), 学生的学生朱文圣(右一,东北师范大学数学与统计学院副院长),学生的学生的学生王鹏飞(左一,东北财经大学讲师)

注释
1A. Gelman and A. Vehtari, What are the most important statistical ideas of the past 50 years? 见https://arxiv.org/abs/2012.00174。第一作者曾获得年轻统计学家的最高奖 COPSS 奖章。
2“[T]he sole end of science is the honor of the human mind.” —— Carl Jacobi(卡尔? 雅可比)
3 内曼的论文是用波兰语写成的。1990年,D. M. Dabrowska 和 T. P. Speed 将论文翻译成英文,题目是On the Applications of the Theory of Probability to Agricultural Experiments,发表于Statistical Science。潜在结果的基本想法也许在历史中早就产生了,但是将它数学化、且正式地用于统计学,内曼的文章是首次。内曼是现代统计学的奠基人之一,他对假设检验、置信区间、抽样调查和实验设计等领域的研究,成为现代统计学的标准范式。我国概率论和数理统计学的先驱许宝騄教授是内曼在英国指导的学生之一。
4这方面的文献综述是:Li, X. and Ding, P. (2017). General forms of finite population central limit theorems with applications to causal inference. Journal of the American Statistical Association, 112, 1759-1769。
5见内曼的传记:C. Reid (1982), Neyman - From Life。注意,哥白尼和内曼都是波兰人。
6另外一位受内曼影响的是计量经济学家Trygve Haavelmo。他是在计量经济学中讨论因果推断的先驱。他曾在1989年诺贝尔经济学奖的获奖感言中谈及内曼对他的影响:https://www.nobelprize.org/prizes/economic-sciences/1989/haavelmo/facts/。
7文章是Rosenbaum and Rubin (1983) The central role of the propensity score in observational studies for causal effects, Biometrika, 70, 41-55。在纪念Biometrika第一百期的时候,这篇文章的引用数在该杂志排名第二;参看 Titterington (2013) Biometrika highlights from volume 28 onwards, Biometrika, 100, 17-73。截至写作本文的时候,Google Scholar 显示这篇文章已经被引用了28392 次,已经超越了之前引用最高的文章Liang and Zeger (1986) Longitudinal data analysis using generalized linear models, Biometrika, 73, 13–22(Google Scholar显示引用了18345次)。这种改变,反映了近十年来,因果推断的研究在学术界的极端活跃性。另外,Biometrika创刊于1901年,是最早的理论统计杂志之一。
8第一本是Rubin (2006) Matched Sampling for Causal Effects。第二本是 Imbens and Rubin (2016) Causal Inference for Statistics, Social, and Biomedical Sciences: An Introduction。两书均由剑桥大学出版社出版。
9比如A. P. Dempster就用一个无向图来表示联合正态分布中的条件独立性:给定其他变量,如果两个变量条件独立,那么他们之间的边不存在。他的文章是: Dempster, A.P. (1972) Covariance selection. Biometrics, 157-175。
10 珀尔的开创性文章是:Pearl (1995) Causal diagrams for empirical research. Biometrika, 82, 669-688.他的专著是:Pearl (2009) Causality: Models, Reasoning and Inference, 剑桥大学出版社。
11此书英文原名是A System of Logic,直接翻译过来是《一个逻辑体系》,严复先生认为“逻辑学”就是中国的“名学”,这一学派兴起于先秦,代表人物有公孙龙等。这本书在英语世界产生过很深远的影响,其中五条“穆勒方法”总结了归纳推理中,获得因果知识的一些准则。严复先生是北京大学从“京师大学堂”更名后的第一任校长,也曾任复旦大学校长。
12 原书这章的题目是“On observation and experiment”。按照现在的习惯,“experiment”统一翻译成“实验”。前面用到的“临床试验”对应着“clinical trial”。“实验”和“试验”的意思似乎差别不大;中文英文皆如此。
13 Geng (1992) pp. 585-593; Geng and Asano (1993), pp. 741–747; Guo and Geng (1995), pp. 263-267; Geng, Guo and Fung (2002), pp. 3-15; Ma, Xie and Geng (2006), pp. 127-133。
14Prentice曾获得年轻统计学家的最高奖COPSS奖章,终身成就奖“费希尔讲座”,他是美国医学院院士。鲁宾是因果推断的奠基人之一,曾获得终身成就奖“费希尔讲座”,美国科学院院士。Lauritzen 是英国皇家学会院士。
15 Chen, Geng and Jia (2007), pp. 911-932; Ju and Geng (2010), pp. 129-142; Jiang, Ding and Geng (2016) pp. 829-848。
16 文章是VanderWeele (2013) Surrogate measures and consistent surrogates. Biometrics,69, 561-565。VanderWeele曾获COPSS奖章。
17https://terrytao.wordpress.com/2014/06/05/when-is-correlation-transitive/
18Xie and Geng (2008), pp. 459-483; Ma, Xie and Geng (2008), pp. 2847-2880; He and Geng (2008), pp. 2523-2547; Liu et al. (2020)。
19 本希奥的文章Towards Causal Representation Learning出现在https://arxiv.org/abs/2102.11107。
作者简介
丁鹏,2004年至2011年在北京大学数学科学学院获得本科和硕士学位,2015年获哈佛大学统计学博士学位,2016年起任教于加州大学伯克利分校统计系,2021年晋升为副教授。其主要研究方向是因果推断。
致谢
郭建华(东北师范大学)、 蒋智超(美国马萨诸塞大学)、 苗旺(北京大学)、 张俊妮(北京大学)、 潘昆峰(中国人民大学)、 黎波(清华大学)、 刘中华(香港大学)、 鞠念桥(美国哈佛大学)和宁少阳(美国威廉姆斯学院)给作者提出了宝贵的建议。美国密歇根大学生物统计系的宋学坤教授仔细阅读并修改了本文的初稿。
●他们说,哲学不应该只是小圈子的游戏