量子纠缠:从量子物质态到深度学习(2)
与使用一个2N 行的表格相比,图1(a),(b)中所示的两类网络结构都可以用少得多的参数近似表达复杂的多元函数。在实际应用中,我们可以通过调节前馈神经网络中的权重参数,使得它学会从图片像素信息中分辨其中物体的种类。或者,我们也可以调节限制玻尔兹曼机中随机变量之间的相互作用强度,使得显变量的概率分布尽可能重现目标数据集的分布。训练好的玻尔兹曼机可以生成更多遵循目标概率分布的新样本。以上两类任务分别对应了判别型学习(Discriminative Learning) 和生成型学习(Generative Learning)。打个比方,判别型学习相当于学会认字,而生成型学习的目标是学会写字。正如费曼在他的黑板上留下的那句名言“What I can not create,I do not understand”,学会写可比学会读困难得多,也要求更深层次的理解。判别型学习支撑着大量当下成功的商业应用,而探索生成型学习的模型和算法则代表了深度学习研究的前沿和未来。 在实际应用中,人们希望使用通用的人工神经网络结构表达尽可能复杂多变的函数形式。这自然引出一个问题:图1(a),(b)所示的网络都能够表达什么样的函数形式?为此,人们证明了所谓的“普适表示定理”:随着网络中隐层神经元个数的增加,图1(a)中所示的前馈神经网络结构(即使只有单个隐层)可以任意逼近任何的连续函数。类似地,通过增加图1(b)中限制玻尔兹曼机的隐层神经元数目,它也可以表达关于显变量任意复杂的概率分布函数。然而遗憾的是,针对一个具体的函数近似问题,以上这些普适表示定理没办法告诉我们至少需要多少隐层神经元,也没办法告诉我们究竟如何确定这些神经元之间的连接权重。而现实中我们关心的首要问题就是:给定有限的计算时间和存储资源,应该如何最优地分配它们呢? 经过多年的摸索实践,人们有一个关键的发现:在参数个数一样的情况下,深层的神经网络比浅层的网络具有更强的表达能力。训练越来越深的神经网络来近似表达复杂的函数形式,是深度学习这个名词中“深度”的来源。当然,神经网络的表达能力也并不是越强越好。过于复杂的网络结构不仅增加了计算量,还可能造成神经网络过拟合(Over-fitting),这就是典型的“过犹不及”。神经网络的表达能力最好是与需要描述的函数的复杂程度相匹配。为此,人们设计出了种类繁多的神经网络结构。很多这些结构设计主要由工程实践经验驱动,这使得深度学习得到了“经验主义”的名声。利用人工神经网络作函数近似的初衷是利用它们的通用性,不需要太多的人为介入就可以自动寻找到数据中的关键特征(Feature)。可当神经网络结构变得越来越多样之后,面临网络的人为选择问题,我们又回到了起点。 因此,人们迫切需要一些更具指导意义的判别标准,来帮助我们定量化地界定神经网络的表达能力和数据集的复杂程度,以便在不同结构的神经网络之间作出比较和取舍。为此我们需要对于神经网络所表达的对象——现实世界中的多元函数——有更深刻的理解。在我们前面的例子中,虽然所有可能的输入原则上有2N 种,但典型的输入其实通常遵循某一特定分布。关于目标数据分布和函数性质的先验知识(Prior Knowledge)有助于指导我们设计合适的神经网络结构。一个最明显的先验知识就是函数的对称性。比如,在图像识别的例子中,图片的种类与其中物体的具体位置无关。类似地,对于围棋局面的估值对盘面构型也应该具有反演和旋转不变性。在图1(a)的网络中实现这些限制,我们就得到了卷积神经网络(Convolutional Neural Network)。它使用局域感知区(Local Receptive Fields)扫描整张图片寻找特征,通过不同感知区共享权重来保证函数的不变性。如何发掘和利用更多类似的“先验知识”是深度学习成功的关键。 与上述例子类似,量子物理的研究中也常常使用到函数近似。比如,一个量子自旋体系的波函数无非是一个关于自旋构型的多元函数。和深度学习中的目标一样,我们也希望使用尽量简单的参数化方式和尽量少的参数描述尽可能复杂的波函数。总结一句话,那就是“天网恢恢,疏而不漏”。图1(c)显示量子多体物理研究中常用的一种参数化波函数的方法:矩阵乘积态(Matrix Product State)。它的基本组成单元是红色方块所示的三阶张量。竖线代表物理指标,而方块之间的横线则称为“虚拟键”(Vitual Bond)。横线之间的连接代表对于虚拟键指标的求和。不难猜测,随着虚拟键维数(Vitual Bond Dimension)的增大,矩阵乘积态可以表达关于物理指标愈加复杂的函数。除了增加虚拟键维数,另一种增加矩阵乘积态表达能力的方法是将图1(c)中所示的方块推广成为更高阶的张量,也就是增加虚拟键的个数。将所有虚拟键连接起来,求和完所有的内部张量指标,就得到了前文提到的张量网络态。和深度学习中种类繁多的人工神经网络结构一样,物理学家也发明了很多不同结构的张量网络态以及相对应的算法。然而,和深度学习不同的是,物理学家们对于张量网络的表达能力有着更为定量化的理解:关键在于量子纠缠!切割一个张量网络态所断开的虚拟键的个数和维数与这个网络能够描述的纠缠熵直接相关。而另一方面,虽然量子多体问题的希尔伯特空间非常大,但幸运的是大多数人们感兴趣的量子态只是其中的一个很小的子集。这些态的量子纠缠熵并不是任意的,而是遵循前文提到的面积定律。张量网络态恰好抓住了物理问题的这个重要特性,因而获得成功。在实际研究中,物理学家们通常针对具体物理问题的纠缠大小和模式来灵活选择设计张量网络态结构。在这个意义下,量子纠缠其实就是指引物理学家们应用张量网络研究量子多体问题的“先验知识”。 3深度学习助力量子物理 从函数近似的观点看,深度学习和量子物理之间的联系非常显然。即便在上一次连结主义学派研究的低潮期,也曾有过一些使用人工神经网络作为量子体系的变分波函数的尝试。最近,Carleo 和Troyer尝试使用限制玻尔兹曼机作为量子自旋体系的多体变分波函数,得到了非常精确的基态能量和非平衡动力学的结果。值得注意的是,传统的限制玻尔兹曼机只能表达取值为正的概率分布函数,为了让它们适合于描述带有相位信息的波函数,Carleo 等将限制玻尔兹曼机的参数推广到复数域。另外,实际计算中Carleo 等采用的函数形式其实是多个共享权重的限制玻尔兹曼机的乘积。这样的结构等价于一个单隐层的卷积神经网络,从而在结构上保证了物理体系的空间平移不变性。Carleo 和Troyer 的结果激起了人们极大的兴趣,沿着这个思路往下:类似的人工神经网络还能够描述其他丰富多彩的物质态吗? (编辑:ASP站长网) |