大数据“喂养”红利下，知识图谱如何走上新道路？(2)

发布时间：2018-04-04 00:33 所属栏目：125 来源：站长网

导读：当前主流的知识图谱表示学习方法仍存在各种各样的问题，比如不能较好刻画实体与关系之间的语义相关性、无法较好处理复杂关系的表示学习、模型由于引入大量参数导致过于复杂，以及计算效率较低难以扩展到大规模知识

当前主流的知识图谱表示学习方法仍存在各种各样的问题，比如不能较好刻画实体与关系之间的语义相关性、无法较好处理复杂关系的表示学习、模型由于引入大量参数导致过于复杂，以及计算效率较低难以扩展到大规模知识图谱上等等。为了更好地为机器学习或深度学习提供先验知识，知识图谱的表示学习仍是一项任重道远的研究课题。

知识图谱向量化表示的应用

应用 1 问答系统。自然语言问答是人机交互的重要形式。深度学习使得基于问答语料的生成式问答成为可能。然而目前大多数深度问答模型仍然难以利用大量的知识实现准确回答。Yin 等人针对简单事实类问题，提出了一种基于 encoder-decoder 框架，能够充分利用知识图谱中知识的深度学习问答模型[4]。在深度神经网络中，一个问题的语义往往被表示为一个向量。具有相似向量的问题被认为是具有相似语义。这是联结主义的典型方式。另一方面，知识图谱的知识表示是离散的，即知识与知识之间并没有一个渐变的关系。这是符号主义的典型方式。通过将知识图谱向量化，可以将问题与三元组进行匹配（也即计算其向量相似度），从而为某个特定问题找到来自知识库的最佳三元组匹配。匹配过程如图 1 所示。对于问题 Q：“How tallis Yao Ming?”，首先将问题中的单词表示为向量数组 HQ。进一步寻找能与之匹配的知识图谱中的候选三元组。最后为这些候选三元组，分别计算问题与不同属性的语义相似度。其由以下相似度公式决定：

这里，S(Q,τ) 表示问题Q 与候选三元组τ 的相似度；xQ 表示问题的向量( 从HQ计算而得)，uτ 表示知识图谱的三元组的向量，M是待学习参数。

图1 基于知识图谱的神经生成问答模型

应用 2 推荐系统。个性化推荐系统是互联网各大社交媒体和电商网站的重要智能服务之一。随着知识图谱的应用日益广泛，大量研究工作意识到知识图谱中的知识可以用来完善基于内容的推荐系统中对用户和项目的内容（特征）描述，从而提升推荐效果。另一方面，基于深度学习的推荐算法在推荐效果上日益优于基于协同过滤的传统推荐模型[5]。但是，将知识图谱集成到深度学习的框架中的个性化推荐的研究工作,还较为少见。Zhang 等人做出了这样的尝试。作者充分利用了结构化知识(知识图谱)、文本知识和可视化知识（图片）[6]等三类典型知识。作者分别通过网络嵌入（network embedding）获得结构化知识的向量化表示，然后分别用SDAE（Stacked Denoising Auto-Encoder）和层叠卷积自编码器（stackedconvolution-autoencoder）抽取文本知识特征和图片知识特征；并最终将三类特征融合进协同集成学习框架，利用三类知识特征的整合来实现个性化推荐。作者针对电影和图书数据集进行实验，证明了这种融合深度学习和知识图谱的推荐算法具有较好性能。

知识图谱作为深度学习的约束

Hu 等人提出了一种将一阶谓词逻辑融合进深度神经网络的模型，并将其成功用于解决情感分类和命名实体识别等问题[7]。逻辑规则是一种对高阶认知和结构化知识的灵活表示形式，也是一种典型的知识表示形式。将各类人们已积累的逻辑规则引入到深度神经网络中，利用人类意图和领域知识对神经网络模型进行引导具有十分重要的意义。其他一些研究工作则尝试将逻辑规则引入到概率图模型，这类工作的代表是马尔科夫逻辑网络[8]，但是鲜有工作能将逻辑规则引入到深度神经网络中。

Hu 等人所提出的方案框架可以概括为“teacher-student network”，如图 2 所示，包括两个部分 teacher network q(y|x) 和 student network pθ(y|x)。其中 teacher network 负责将逻辑规则所代表的知识建模，student network 利用反向传播方法加上teacher network的约束，实现对逻辑规则的学习。这个框架能够为大部分以深度神经网络为模型的任务引入逻辑规则，包括情感分析、命名实体识别等。通过引入逻辑规则，在深度神经网络模型的基础上实现效果提升。

图2 将逻辑规则引入到深度神经网络的“teacher-student network”模型

其学习过程主要包括如下步骤：

利用 soft logic 将逻辑规则表达为 [0, 1] 之间的连续数值。基于后验正则化（posterior regularization）方法，利用逻辑规则对 teacher network 进行限制，同时保证 teacher network 和 student network 尽量接近。最终优化函数为：

大数据其中，ξl,gl是松弛变量，L 是规则个数，Gl 是第 l 个规则的 grounding 数。KL 函数（Kullback-Leibler Divergence）部分保证 teacher network 和student network 习得模型尽可能一致。后面的正则项表达了来自逻辑规则的约束。

对 student network 进行训练，保证 teacher network 的预测结果和 student network 的预测结果都尽量地好，优化函数如下：

大数据其中，t 是训练轮次，l 是不同任务中的损失函数（如在分类问题中，l 是交叉熵），σθ 是预测函数，sn(t) 是 teacher network 的预测结果。

重复 1~3 过程直到收敛。结束语

随着深度学习研究的进一步深入，如何有效利用大量存在的先验知识，进而降低模型对于大规模标注样本的依赖，逐渐成为主流的研究方向之一。知识图谱的表示学习为这一方向的探索奠定了必要的基础。近期出现的将知识融合进深度神经网络模型的一些开创性工作也颇具启发性。但总体而言，当前的深度学习模型使用先验知识的手段仍然十分有限，学术界在这一方向的探索上仍然面临巨大的挑战。这些挑战主要体现在两个方面:

（编辑：ASP站长网）