315中文网 通过搜索各大小说站为您自动抓取各类小说的最快更新供您阅读!

1.1 什么是因果推断

因果推断用于衡量一个行为的价值。即判断一个“因”能导致多少“果”。

比如说我今晚复习数学,明天数学考试能提升多少分。这是一个很难回答的问题,因为我无法同时知道不复习和复习后,我分别能考多少分,当前时刻我只能做一种选择并得到一个结果,另一个选择的结果是永远不可知的,这在因果推断里叫做反事实(conterfactual)。

因果推断往往会衍生出一个研究方向,因果发现。即判断一个行为是否和一个事件互为因果(推断是判断带来了多少果,发现是判断是否为因果)。比如冰棍卖的多和电费高往往同时出现,但他们不是因果关系,因为这种现象主要是天气热带来的。

1.2 为什么要研究因果

1.2.1 因果性 ≠ 相关性[2]

设想一个场景:大数据发现,穿鞋睡觉的人第二天往往会头疼。因此我们可以得出穿鞋睡觉和头疼相关,但这显然是反直觉的,客观规律告诉我们穿鞋睡觉不应该导致头疼。那但数据上为什么会呈现出这个现象呢?

原来是穿鞋睡觉的人大多都喝酒了,所以,真正导致头疼的其实是“隐藏”变量-是否喝酒。(这在因果推断里叫混淆变量,confounder)

深入思考一下,我们为什么会得出”因为穿鞋睡觉所以头疼“的错误结论,那是因为我们隐含的观察到“不穿鞋睡觉不头疼“,两组数据对比下得出结论。但是这个结论错误的关键是,两个集合里喝酒的人分布是不一致的,真实的因果是喝酒所以头疼,因此这里会有数学上的“辛普森悖论”。

因此,这个场景我们只能说穿鞋睡觉和头疼有相关性,但不能说他们互为因果。即相关 ≠ 因果

1.2.2 因果推断 > 相关性分析

为了对比因果推断和其他的机器学习问题,学术界提出了三层的因果之梯[3][4]:

相关(Association,观察):解释p(y|x),即已知x的条件下,y会怎么样。这是大部分场景下机器学习所面对的问题,如上一节所述,相关 ≠ 因果,故常规的机器学习方法无法处理因果问题。以上面的case为例,假设x = 穿鞋睡觉,y=头疼,则该层级会看到两者相关性很高的“假象”。

干预(Intervention,行动):解释p(y|do(x),z),即做某个行为x后,y是怎么样的。比如上面的例子,干预穿鞋睡觉的行为x,单独分析穿鞋睡觉(即do(x) = 1)和不穿鞋睡觉(do(x) = 0),在不同喝酒状态下的头疼(y)分布。这个层面可以分析出穿鞋睡觉对头疼可能无影响。但无法判断每个人穿鞋睡觉会不会导致头疼,因为观察不到。

反事实(counterfactual,想象):解释行为x对结果y的影响,即我做了x和不做x,对结果y的影响程度。这是因果推断要解决的问题,比如上面的例子,我不仅看到每个人不穿鞋睡觉头不痛的现象,还能反事实的推断出每个人穿鞋睡觉头不疼,进而得出穿鞋睡觉对头疼的具体影响程度。

上面的解释说明,相关 < 干预 < 反事实(即解决反事实问题的方法可以处理干预和相关问题,反之不成立)。传统的机器学习方法是处理相关性问题的,而因果推断关注反事实层。因此因果推断能解释的事情,将比传统的机器学习方法更“高级”,也更贴合日常的需要

2. 基础理论

2.1 业界流派

因果推断是根据一个结果发生的条件对因果关系得出结论的过程。存在两种研究方法[5]

实验性研究:通过大量随机对照实验(Rct)得出结论。因果推断的难点在于反事实,因此对照实验需要“足够随机”。对上面的例子而言,我们需要在实验组和对照组中确保喝酒的比例是均等的。这是代价昂贵且费时费力的。

观测性研究:对于已有的观测数据,通过建模进行因果关系的研究。这种方式对数学的要求较高且存在准确率的问题,但可操作性强。

显然,实验性研究是理论上最完美的方式,但实际中我们不可能穷举类似“喝酒状态”这种影响因和果的因素,随机对照试验的成本是极大的,仅存在理论的可能。业界的研究重点是,如何优化观测性研究的方法,使其准确度逐步逼近实验性研究。

当前,观测性研究存在两大流派,分别是pearl创立的结构因果图模型(Scm)和Rubin创建的潜在结果模型(Rcm)。[6][7]

2.2 变量定义与说明

为了便于后续介绍,这里先对因果推断的常用变量做一个说明。黑色粗体为重要定义,treatment Effect是衡量干预效果的指标,也是我们期望优化的目标以及模型的输出[5][7][8][9]

2.3 因果分析流程

介绍推断的具体方法之前,我们先说明因果分析的流程。如下图,主要有两个步骤[1][10]:

Identification(因果识别):基于观测数据,输出不同干预下的统计分布(即“原因因子”状态不同时结果因子的分布),以分布的gap作为衡量因果关系的依据。Scm模型主要解决这部分问题(并不是说Scm不能做后续的推断)

Estimation(因果推断):根据统计结果,做反事实的推断,以反事实与观测的gap作为效果大小的衡量,这个过程叫Estimation。Rcm模型重点在这部分

想减肥想减肥好吃,防护服减减肥进去刺骨寒风

315中文网推荐阅读:我老姐实在太有钱了一不小心嫁冤家重生学神有系统重生之我真没想当大佬啊特级诡兵焚烟散镇国战神我被男神克死后赘婿出山豪门大少的私宠妻穿越之喜当红娘老婆你说实话,孩子到底是谁的?后海有家酒吧妙贞不可言四合院:离谱!我竟然有无限肉吃花开春暖我的26岁总裁妻子假少爷被赶回农村,开启逆袭人生!传奇垂钓:开局钓起十斤大鱼开局获得剪纸术情痒女施主请留步人在海贼,召唤美漫天神诀金玉良缘之肖少霸爱无极异界游相宝2:秘物田园小当家死人经都市最强神龙天庭典狱长巨星夫妻都市之至尊狂少影帝总是贪恋我的美貌重生九零全能学霸重生后郡主被权臣勾引啦江山尽风流我在黑道沉浮的日子高手寂寞3我即天意软妹写手成神记从昆仑走出的绝世强者天命大反派:从吊打男主角开始崛起签到十年:灵气终于复苏了!极品婆婆的重生之路别慌,学霸老爹和我一起穿越了梦回之苟在深圳做房东幽幽情丝三千泪仙途外卖:凡心不灭炼器祖师讨厌女人少奶奶每天都在崩人设
315中文网搜藏榜:都市之归去修仙稼穑人生最强小村医重生八零之军少小萌妻同路人,平凡十年御灵:天使女仆总想把我养成废人被暴君强宠的金丝雀翅膀硬了四合院:我何雨柱,送贾张氏坐牢穿到八零后我成了锦鲤末日?宅舞冒险出道即是巅峰1979全民:开局觉醒sss级召唤天赋我为猎手重生八零:肥妞翻身记逆习大老婆开局东京维修工,邻居太太爆奖励不负荣光,不负你我的黑科技无人机横扫全球盛婚甜宠:先生,早上好变身:武道女帝惯着他治愈他娇妻得宠:盛少别乱来柳条兄弟之兄弟故事会王妃又又又去除妖了恋爱后,学霸她成了撒娇精都市仙主随机职业体验,满级人类震惊网友重生之我是神君万亿打赏金,我在抖音称王!豪门权少密爱成瘾绝色总裁的贴身高手返穿你与流年皆不在重回1998当富翁开局零分学渣,你让我逆袭清北?奉旨抢亲,纨绔太子喜当娘多子多福,我打造三千校花女团!高三毕业后,我拿万族做口粮!团宠大佬你马甲掉了超品战兵红颜三千特种兵王在都市拥有无敌空间后,成为吸宝人的我极品透视妖孽狱神归来对首席大人的攻略争夺战浅浅系统:至高无上话语权重回八零小辣妻法庭索赔1400万,你疯了?
315中文网最新小说:冰山总裁为我崩人设:离婚后她哭原罪君王在东京龙LOONG四合院:旅行青蛙带回我家地契男人没有钱权,就别谈尊严我身后站着的,可是所有道教神仙我金丹修士,众筹修仙学院被打假都市:股市疯狂敛财开局献祭了全世界的蚊子四合院:热带雨林系统灵泉种田什么异能?小爷玩得是道法重生再来,我选斩魄刀砍翻诸天重拾尊严绝世推拿手金三角残阳都重生了,多交几个女友怎么了修真者许飞官场捡漏:从女友背叛到权利巅峰鱼舟唱晚:带半个图书馆当老师我们才高考,你已经证道大帝?完美神豪,只需一个神豪兑换系统我指挥了八年抗日战争神医出世一一傲立凡尘医武双绝重生入职,开局背熟全国积案卷宗甲醇交易笔记神级捡漏:我能听到古董心声谢邀,人在诡异界,刚成新邪神锋岛之王:从香港赌神到大国后盾四合院:我的雨林能产灵肉岷江神工双穿:顶级搬运,暴富后武镇诸天娱乐:歌王舞台,我杀穿全网家破人亡后,我成了禁忌审判官开局股市爆赚千亿,校花跪求复合港综:我是大赢家出狱当天,捡了个绝色美女当老婆觉醒词条系统后,我成了校园男神外卖太香,少妇妈妈们缠着我不放新兵第一年,万人护送战功回老家70年代,我在长白山下当知青从妃那到MyGO!!!羊宫妃那反派大佬总想虐哭主角我的小弟是李承乾分手后,校花小姨子不对劲穿越高武,我靠抽奖成为最强?抗战功德林头等战犯正义!执行!唯我独法,从拯救病态少女开始识天破局开局反重力,国家求我造航母