KG on loveLZZ的个人博客

SimKGC

Fri, 01 Jul 2022 13:37:07 +0800

SimKGC模型

Novelty

使用InfoNCE损失改进原有边际排名损失，使其更专注于hard negative
使用IB,PB和SN三种负样本种类来增加负样本数量
使用图结构重排序来感知图结构

问题和动机

最新的基于文本（预训练模型）的方法可以访问到额外的输入信息
- 归纳学习到训练过中看不到的实体的表示
但性能仍然大幅弱于基于嵌入的方法
- 基于文本的方法中对比学习的效率过低，主要是负样本太少
- 基于嵌入的方法不涉及昂贵的文本编码计算，因此可以使用大量负样本

同一时间默认配置下，RotatE在Wikidata5M数据集上可以训练1000个负样本为64的epoch 基于文本的方法KEPLER只能训练30个epoch，负样本数量为1

PairRE

Thu, 09 Jun 2022 18:40:24 +0800

PairRE

Novelty

既考虑了复杂关系建模的问题，又考虑了多种模式的关系
通过修改RotatE的公式，将关系参数改为头尾两个，从而可以对复杂关系进行建模(RotatE本身就可以对多种模式关系建模)

根据本文分析，RotatE本身可以对N-1关系建模，但是不能对1-N和N-N关系建模

KBGAN

Thu, 09 Jun 2022 18:40:16 +0800

KBGAN模型¹

Novelty

首次使用生成对抗网路的思想，全篇关注负样本的生成质量问题
采用生成对抗网络，采用概率模型作为生成器，采用距离模型作为鉴别器，训练鉴别器
使用强化学习的策略梯度方法来训练生成器

问题和动机

过去知识图谱嵌入领域的负采样仅仅根据概率来采样有以下两个问题
- 假负样本问题，有可能会有正确样本被当成负样本来采样
- 低质量负样本问题，会产生一些质量很低的，对训练意义不大的样本(很容易与正样本区分开的样本，对训练贡献很小)
收到对抗生成网络思想的影响，本文采用生成器来生成高质量负样本，采用鉴别器来计算嵌入
- 生成器使用基于概率的log-loss损失
- 鉴别器使用基于距离的margin-loss损失
- 由于存在离散的生成过程，因此不能使用基于梯度的方法进行优化，本文采用强化学习中的方差减少方法来进行优化。

过去的解决方法

过去采用随机替换来生成负样本，但这样容易产生低质量的样本
对于log-softmax损失函数而言，通常会为一个正样本产生很多个负样本，因此总有高质量的负样本可以使用，因此低质量样本的影响不大

论文²(ComplEx)研究表明，当采用100：1的负/正比例会使得效果更佳

CAKE

Wed, 25 May 2022 15:27:53 +0800

CAKE模型¹

Novelty

首次既考虑了假阴性问题，又考虑了低质量的问题，特别是假阴性问题几乎无人考虑
将数据集做一定的处理，进行标注，为每个实体赋予一到多个概念
基于概念生成常识，也即（概念，关系，概念）的三元组为常识1和（概念组，关系，概念组）为常识2
使用域采样的假设，分别对1-N中1和N中的采用不同的采样方式，首先选取概念，然后从概念组中生成负样本
最后链路预测选择实体时，选择符合常识1的概念中的实体

问题和动机

本论文主要关注KGE中存在的问题

KG on loveLZZ的个人博客

SimKGC

SimKGC模型

Novelty

问题和动机

PairRE

PairRE

Novelty

KBGAN

KBGAN模型1

Novelty

问题和动机

相关工作

过去的解决方法

CAKE

CAKE模型1

Novelty

问题和动机

KBGAN模型¹

CAKE模型¹