刘凯、维涅什·普拉巴卡、Chau Vu、詹妮弗·克劳福德和约瑟夫·韦特
生成知识图谱嵌入 (KGE) 来表示大规模知识图谱数据集中的实体 (节点) 和关系 (边) 一直是表征学习中的一个难题。这主要是因为对大型异构图中的全部数据进行编码所需的嵌入/向量表征需要具有高维数。大量向量的方向需要大量空间,而这可以通过将嵌入投影到更高维度来实现。这不是一个可扩展的解决方案,尤其是当我们预计知识图谱会扩大规模以包含更多数据时。任何将嵌入限制在较低维度的努力都可能存在问题,因为在有限的维度内没有足够的空间来对大量嵌入/向量表征进行空间定位,这可能会导致下游任务(例如链接预测)的推理效果不佳,这些任务利用这些嵌入来预测知识图中两个或多个实体之间存在链接的可能性。大型生物医学知识图谱尤其如此,它涉及多个不同的实体,例如基因、疾病、信号通路、生物功能等,这些实体在临床上与 KG 在药物发现中的应用相关。因此,与典型的基准知识图谱数据集相比,生物医学知识图谱的大小要大得多。这对生成高质量的嵌入/向量表示以表示图的潜在语义结构提出了巨大的挑战。通过增加嵌入的维数来规避这一挑战的尝试通常会导致硬件限制,因为生成高维嵌入在计算上很昂贵,而且往往不可行。为了实际处理表示这种大规模知识图谱 (KG) 的潜在结构,我们的工作提出了一个集成学习模型,其中将完整的知识图谱采样为几个较小的子图,并且 KGE 模型为每个单独的子图生成嵌入。然后汇总在每个子图上训练的 KGE 模型的链接预测结果,以在整个知识图中生成一组合并的链接预测。实验结果表明,基于排序的评估指标在特定任务的链接预测以及四个开源生物医学知识图谱数据集的一般链接预测方面都有了显著的改善。