机器学习真能产生智能决策吗？

发布时间：2022-10-08 09:32 所属栏目：125 来源：互联网

导读：历经三年时间，我们在2022年完成了图灵奖获得者、加州大学洛杉矶分校计算机科学教授，美国国家科学院院士，被誉为贝叶斯网络之父的朱迪亚珀尔大作《因果论：模型、推理和推断》。这本书原版的第1版写于2000年，开创了因果分析和推断的新思想和新方法，一出

　　历经三年时间，我们在2022年完成了图灵奖获得者、加州大学洛杉矶分校计算机科学教授，美国国家科学院院士，被誉为“贝叶斯网络之父”的朱迪亚·珀尔大作《因果论：模型、推理和推断》。

　　这本书原版的第1版写于2000年，开创了因果分析和推断的新思想和新方法，一出版就得到广泛的好评，促进了数据科学、人工智能、机器学习、因果分析等领域新的革命，在学术界产生了很大的影响。

　　后来又于2009年修订出了第2版，内容上结合当时因果研究的新发展，做了较大的改动。目前我们翻译的这本书英文原版是在2009年出版的，到目前已经有十多年了。

　　该书中文版的出版有利于广大中国学者、学生和各领域的实践人员了解和掌握因果模型、推理和推断相关的内容。特别是在当前统计学和机器学习流行的时代，如何实现从“数据拟合”到“数据理解”的转变？如何在下一个十年里，从“所有知识都来自数据本身”这一目前占据主流的假设到一个全新的机器学习范式？是否会引发“第二次人工智能革命”？

　　正如图灵奖授予珀尔时评价他的工作为“人工智能领域的基础性贡献，他提出概率和因果性推理演算法，彻底改变了人工智能最初基于规则和逻辑的方向。” 我们期待这种范式能够为机器学习带来新的技术方向和前进动力，并且最终能够在实际应用中发挥作用。

　　正如珀尔所说“数据拟合目前牢牢地统治着当前的统计学和机器学习领域，是当今大多数机器学习研究者的主要研究范式，尤其是那些从事连接主义、深度学习和神经网络技术的研究者。” 这种以“数据拟合”为核心的范式在计算机视觉、语音识别和自动驾驶等应用领域取得了令人瞩目的成功。但是，许多数据科学领域的研究人员也已经意识到，从当前实践效果来看，机器学习无法产生智能决策所需的那种理解能力。这些问题包括：稳健性、可迁移性、可解释性等。下面我们来看看例子。

　　1.数据统计靠谱吗？
　　近年来自媒体上的很多人都会觉得自己是统计学家。因为“数据拟合”“所有知识都来自数据本身”为许多重大决策提供了数据统计依据。但是，在进行分析时，我们需要谨慎分析。毕竟，事情可能并不总是乍看之下！一个与我们生活息息相关的案例。10年前，某城市市中心的房价是8000元/平米，共销售了1000万平；高新区是4000元/平米，共销售了100万平；整体来看，该市的平均房价为7636元/平米。现在，市中心10000元/平米，但由于市中心的土地供应少了，只销售了200万平；高新区是6000元/平米，但由于新开发的土地变多了，销售了2000万平；整体来看，现在该市的平均房价为6363元/平米。因此，分区来看房价分别都涨了，但从整体上看，会有产生疑惑：为什么现在的房价反而跌了呢？

　　图1 房价趋势按照不同区域划分后与总体结论相悖

　　我们知道这种现象叫作辛普森悖论。这些案例清楚地表明当我们没有给予足够的观察变量时，我们是如何从统计数据中得到了完全错误的模型和结论。就这次新冠大流行而言，我们通常会获得全国范围的统计数据。如果我们按地区或市县进行分组，我们可能会得出截然不同的结论。在全国范围内，我们可以观察到新冠病例数量在下降，尽管某些地区的病例数量会有所增加（这可能预示着下一波浪潮的开始）。如果存在差异很大的群体，例如人口差异很大的地区，则也可能会发生这种情况。在国家数据中，人口密度较低地区的病例激增可能与人口稠密地区的病例下降相形见绌。

　　类似的基于“数据拟合”的统计问题比比皆是。比如下面两个有趣的例子。

　　如果我们每年收集尼古拉斯·凯奇每年出演的电影数量和美国溺死人数的数据，我们会发现这两个变量高度相关，数据拟合程度奇高。

　　图2 尼古拉斯·凯奇每年出演的电影数与美国溺死的人数

　　如果我们收集每个国家人均牛奶销售量和获得诺贝尔奖人数的数据，我们会发现这两个变量高度相关。

　　图片

　　图3 人均牛奶消费量与诺贝尔奖人数

　　从我们人类的常识认知来说，这些都是伪相关，甚至是悖论。但从数学和概率论的角度来看，表现出伪相关或者悖论的案例无论从数据上还是计算上都是没有问题的。如果有一些因果基础的人都知道，发生这种情况是因为数据中隐藏着所谓的潜伏变量，即未被观察到的混杂因子。

　　图片

　　图4 独立变量导致了两个变量之间伪相关

　　珀尔在《因果论》中给出了解决的范式，详细分析和推导了以上问题，强调了因果与统计之间有着本质的区别，虽然因果分析与推断仍然是建立在统计学的语境上。珀尔提出了干预操作（算子）的基本计算模式，包括后门原则和具体的计算公式，这是当前对于因果关系最为数学化的描述。“因果以及相关的概念（例如随机化、混杂、干预等）不是统计概念”，这是贯穿珀尔因果分析思想的一条基本原理，珀尔称之为第一原理[2]。

　　那么，目前基于数据驱动的机器学习方法，特别是那些严重依赖于统计学方法的算法，学习到的模型极大可能也会出现半真半假、误导性或者反转性的结果。这是因为这些模型往往是基于观察数据的分布情况进行学习，而非数据生成的机制。

　　2.机器学习亟需解决的三个问题
　　稳健性：随着深度学习方法的流行，计算机视觉、自然语言处理和语音识别等研究大量利用了最先进的深层神经网络结构。但仍然长期存在这样一个事实问题，即在现实世界中，我们采集到数据的分布通常很少是完整的，与实际世界中的分布可能不一致。在计算机视觉应用中，训练集与测试集数据分布可能受到来自诸如像素差、压缩质量，或来自于摄像机位移、旋转或角度等的影响。这些变量其实就是因果概念中的“干预”问题。由此，人们提出了简单的算法来模拟干预，以专门测试分类和识别模型的泛化能力，如空间偏移、模糊、亮度或对比度的变化、背景控制和旋转，以及在多种环境中采集的图像等。到目前为止，尽管我们利用数据增强、预训练、自监督学习等方法在稳健性上取得了一定的进展，但对于如何解决这些问题还没有明确的共识。有人认为这些修正可能是不够的，在独立同分布假设之外进行泛化不仅需要学习变量之间的统计关联，还需要学习潜在的因果模型，以明确数据生成的机制，并允许通过干预概念模拟分布变化。

　　可迁移性：婴儿对物体的理解基于跟踪随时间变化表现一致的物体，这样的方法可以让婴儿快速学习新的任务，因为他们对物体的知识和直观理解可以重复使用。类似地，能够高效地解决现实世界中的任务需要在新的场景中重用学习到的知识技能。研究已经证明，学习了环境知识的机器学习系统效率更高，通用性更好。如果我们将现实世界模型化，许多模块在不同的任务和环境中表现出相似的行为。因此，面对新环境或新任务，人类或者机器可能只需要调整其内部表示中的几个模块。当学习因果模型时，由于大多数知识（即模块）可以在无须进一步训练的情况下重复使用，从而只需要较少的样本以适应新环境或新任务。

　　可解释性：可解释性是一个微妙的概念，不能仅仅使用布尔逻辑或统计概率的语言完全描述，它需要额外的干预概念，甚至是反事实的概念。因果关系中的可操纵性定义关注的是这样一个事实，即条件概率（“看到人们打开雨伞表明正在下雨”）无法可靠地预测主动干预的结果（“收起雨伞并不能阻止下雨”）。因果关系被视为推理链的组成部分，它可以为与观察到的分布相去甚远的情况提供预测，甚至可以为纯粹假设的场景提供结论。从这个意义上说，发现因果关系意味着获得可靠的知识，这些知识不受观察到的数据分布和训练任务的限制，从而为可解释的学习提供明确的说明。

　　3.因果学习建模的三个层次
　　具体地说，基于统计模型的机器学习模型只能对相关关系进行建模，而相关关系往往会随着数据分布的变化而变化；而因果模型基于因果关系建模，则抓住了数据生成的本质，反映了数据生成机制的关系，这样的关系更加稳健，具有分布外泛化的能力。比如，在决策理论中，因果关系和统计之间的区别更加清楚。决策理论中有两类问题，一类是已知当前环境，拟采取干预，预测结果。另一类是已知当前环境和结果，反推原因。前者称为求果问题，后者称为溯因问题[3]。

　　在独立同分布条件下的预测能力
　　统计模型只是对观察到的现实世界的粗浅描述，因为它们只关注相关关系。对于样本和标签，我们可以通过估计来回答这样的问题：“这张特定的照片中有一只狗的概率是多少？”“已知一些症状，心力衰竭的概率是多少？”。这样的问题是可以通过观察足够多的由所生成的独立同分布数据来回答的。尽管机器学习算法可以把这些事做得很好，但是准确的预测结果对于我们的决策是不够，而因果学习为其提供了一种有益的补充。就前面的例子来说，尼古拉斯·凯奇出演电影的频率和美国溺亡率正相关，我们的确可以训练一个统计学习模型通过尼古拉斯·凯奇出演电影的频率来预测美国溺亡率，但显然这两者并没有什么直接的因果关系。统计模型只有在独立同分布的情况下才是准确的，如果我们做任何的干预来改变数据分布，就会导致统计学习模型出错。

　　在分布偏移/干预下的预测能力
　　我们进一步讨论干预问题，它更具挑战性，因为干预（操作）会使我们跳出统计学习中独立同分布的假设。继续用尼古拉斯·凯奇的例子，“今年增加邀请尼古拉斯·凯奇出演电影的数量会增加美国的溺亡率吗？”就是一个干预问题。显然，人为的干预会使得数据分布发生变化，统计学习赖以生存的条件就会被打破，所以它会失效。另一方面，如果我们可以在存在干预的情况下学习一个预测模型，那么这有可能让我们得到一个在现实环境中对分布变化更加稳健的模型。实际上，这里所谓的干预并不是什么新鲜事，很多事情本身就是随时间变化的，例如人的兴趣偏好，或者模型的训练集与测试集本身在分布上就存在不匹配的现象。我们前面已经提到，神经网络的稳健性已经获得了越来越多的关注，成为一个与因果推断紧密连接的研究话题。在分布偏移的情况下预测不能只局限于在测试集上取得高准确率，如果我们希望在实际应用中使用机器学习算法，那么我们必须相信在环境条件改变的情况下，模型的预测结果也是准确的。实际应用中的分布偏移类别可能多种多样，一个模型仅仅在某些测试集上取得好效果，不能代表我们可以在任何情况下都能够信任这个模型，这些测试集可能只是恰好符合这些测试集样本的分布。为了让我们可以在尽可能多的情况下信任预测模型，就必须采用具有回答干预问题能力的模型，至少仅仅使用统计学习模型是不行的。

　　回答反事实问题的能力
　　反事实问题涉及推理事情为什么会发生，想象实施不同行为所带来的后果，并由此可以决定采取何种行为来达到期望的结果。回答反事实问题比干预更加困难，但也是对于AI非常关键的挑战。如果一个干预问题是“如果我们现在让一个病人有规律地进行锻炼，那么他心力衰竭的概率会如何变化？”，对应的反事实问题就是“如果这个已经发生心力衰竭的病人一年前就开始锻炼，那他还会得心力衰竭吗？”显然回答这样的反事实问题对于强化学习是很重要的，它们可以通过反思自己的决策，制定反事实假说，再通过实践验证，就像我们的科学研究一样。

　　4.因果学习应用
　　最后，我们来看看如何在各个领域上应用因果学习。2021年诺贝尔经济学奖授予了约书亚·安格里斯特（Joshua D.Angrist）和吉多·因本斯（Guido W.Imbens），表彰“他们对因果关系分析的方法论”贡献。他们研究了因果推断在实证劳动经济学中的应用。诺贝尔经济学奖评选委员认为“自然实验（随机试验或者对照试验）有助于回答重要问题”，但如何“使用观测数据回答因果关系”更具有挑战性。经济学中的重要问题是因果关系问题。如移民如何影响当地人的劳动力市场前景？读研究生能够影响收入增加吗？最低工资对技术工人的就业前景有何影响？这些问题很难回答，因为我们缺乏正确的反事实解释方法。

　　自从20世纪70年代以来，统计学家就发明了一套计算“反事实”的框架，以揭示两个变量之间的因果效应。经济学家又在此基础上进一步发展了断点回归、双重差分、倾向得分等方法，并且大量地应用在各种经济政策问题的因果性研究上。从6世纪的宗教文本到2021年的因果机器学习，包括因果自然语言处理，我们可以使用机器学习、统计学和计量经济学来模拟因果效应。经济和其他社会科学的分析主要围绕因果效应的估计，即一个特征变量对于结果变量的干预效应。实际上，在大多数情况下，我们感兴趣的事情是所谓的干预效应。干预效应是指干预或者治疗对结果变量的因果影响。比如在经济学中，分析最多的干预效应之一是对企业进行补贴对企业收入的因果影响。为此，鲁宾（Rubin）提出了潜在结果框架(potential outcome framework)。

　　尽管经济学家和其他社会科学家对因果效应的精确估计能力强于预测能力，但他们对机器学习方法的预测优势也十分感兴趣。例如，精确的样本预测能力或处理大量特征的能力。但正如我们所见到的，经典机器学习模型并非旨在估计因果效应，使用机器学习中现成的预测方法会导致对因果效应的估计存在偏差。那么，我们必须改进现有的机器学习技术，以利用机器学习的优势来持续有效地估计因果效应，这就促使了因果机器学习的诞生！

　　目前，根据要估计的因果效应类型，因果机器学习可以大致分为两个研究方向。一个重要的方向是改进机器学习方法以用于无偏且一致的平均干预效应估计。该研究领域的模型试图回答以下问题：客户对营销活动的平均反应是什么？价格变化对销售额的平均影响是多少？此外，因果机器学习研究的另一条发展路线是侧重于改进机器学习方法以揭示干预效应的特异性，即识别具有大于或小于平均干预效应的个体亚群。这类模型旨在回答以下问题：哪些客户对营销活动的反应最大？价格变化对销售额的影响如何随着顾客年龄的变化而变化？

　　除了这些活生生的例子，我们还可以感觉到因果机器学习引起数据科学家兴趣的一个更深刻的原因是模型的泛化能力。具备描述数据之间因果关系的机器学习模型可泛化到新的环境中，但这仍然是目前机器学习的最大挑战之一。

　　珀尔更深层次地分析这些问题，认为如果机器不会因果推理，我们将永远无法获得达到真正人类水平的人工智能，因为因果关系是我们人类处理和理解周围复杂世界的关键机制。珀尔在《因果论》中文版的序中写到“在下一个十年里，这个框架将与现有的机器学习系统相结合，从而可能引发‘第二次因果革命’。我希望这本书也能使中国读者积极参与到这一场即将到来的革命之中。”

（编辑：ASP站长网）