深度学习 on loveLZZ的个人博客

Cross-Encoder和Bi-Encoder以及双塔模型和孪生网络

Fri, 28 Oct 2022 10:11:28 +0800

cross-encoder

将query与document交叉输入到encoder中，得到一个得分
使用该得分作为相似度

bi-encoder

将query与document分别输入到两个encoder中，得到两个得分
使用两个得分进行相似度计算

Bi_vs_Cross-Encoder

SimKGC

Fri, 01 Jul 2022 13:37:07 +0800

SimKGC模型

Novelty

使用InfoNCE损失改进原有边际排名损失，使其更专注于hard negative
使用IB,PB和SN三种负样本种类来增加负样本数量
使用图结构重排序来感知图结构

问题和动机

最新的基于文本（预训练模型）的方法可以访问到额外的输入信息
- 归纳学习到训练过中看不到的实体的表示
但性能仍然大幅弱于基于嵌入的方法
- 基于文本的方法中对比学习的效率过低，主要是负样本太少
- 基于嵌入的方法不涉及昂贵的文本编码计算，因此可以使用大量负样本

同一时间默认配置下，RotatE在Wikidata5M数据集上可以训练1000个负样本为64的epoch 基于文本的方法KEPLER只能训练30个epoch，负样本数量为1

PairRE

Thu, 09 Jun 2022 18:40:24 +0800

PairRE

Novelty

既考虑了复杂关系建模的问题，又考虑了多种模式的关系
通过修改RotatE的公式，将关系参数改为头尾两个，从而可以对复杂关系进行建模(RotatE本身就可以对多种模式关系建模)

根据本文分析，RotatE本身可以对N-1关系建模，但是不能对1-N和N-N关系建模

KBGAN

Thu, 09 Jun 2022 18:40:16 +0800

KBGAN模型 1

Novelty

首次使用生成对抗网路的思想，全篇关注负样本的生成质量问题
采用生成对抗网络，采用概率模型作为生成器，采用距离模型作为鉴别器，训练鉴别器
使用强化学习的策略梯度方法来训练生成器

问题和动机

过去知识图谱嵌入领域的负采样仅仅根据概率来采样有以下两个问题
- 假负样本问题，有可能会有正确样本被当成负样本来采样
- 低质量负样本问题，会产生一些质量很低的，对训练意义不大的样本(很容易与正样本区分开的样本，对训练贡献很小)
收到对抗生成网络思想的影响，本文采用生成器来生成高质量负样本，采用鉴别器来计算嵌入
- 生成器使用基于概率的log-loss损失
- 鉴别器使用基于距离的margin-loss损失
- 由于存在离散的生成过程，因此不能使用基于梯度的方法进行优化，本文采用强化学习中的方差减少方法来进行优化。

过去的解决方法

过去采用随机替换来生成负样本，但这样容易产生低质量的样本
对于log-softmax损失函数而言，通常会为一个正样本产生很多个负样本，因此总有高质量的负样本可以使用，因此低质量样本的影响不大

论文²(ComplEx)研究表明，当采用100：1的负/正比例会使得效果更佳

CAKE

Wed, 25 May 2022 15:27:53 +0800

CAKE模型¹

Novelty

首次既考虑了假阴性问题，又考虑了低质量的问题，特别是假阴性问题几乎无人考虑
将数据集做一定的处理，进行标注，为每个实体赋予一到多个概念
基于概念生成常识，也即（概念，关系，概念）的三元组为常识1和（概念组，关系，概念组）为常识2
使用域采样的假设，分别对1-N中1和N中的采用不同的采样方式，首先选取概念，然后从概念组中生成负样本
最后链路预测选择实体时，选择符合常识1的概念中的实体

问题和动机

本论文主要关注KGE中存在的问题

QRNN

Sat, 19 Feb 2022 10:09:43 +0800

QRNN¹

Novelty

将RNN与CNN结合
- 卷积层用一种不使用未来数据的masked卷积来代替LSTM中参数矩阵与上一时刻隐藏层相乘的操作。捕获过去时刻信息的同时简化了LSTM中的的操作，因为在计算过程中删除了隐藏层，仅仅使用输入数据来捕获依赖
- 池化层使用各种门结构，例如LSTM的门结构和GRU的门结构使得梯度流稳定
通过上述操作简化了LSTM的计算，使其可以并行

问题和动机

标准的RNN包括门变种LSTM等因为无法并行计算，因此在长序列的任务中性能受到了限制。
将CNN用于序列模型时
- 并行性更好
- 可以更好地扩展到长序列
- 但因为最大和平均池化时假设了时间不变性，（在一次卷积池化过程中，时间步的顺序会被忽略，移动卷积核的过程中，进行相同的池化操作，不同时间步的重要性不同同样也会被忽略）因此无法充分利用大规模序列的顺序信息。
因此作者提出了一种将CNN和RNN混合的模型QRNN，既能跨时间步和小批量维度进行并行计算，又使得输出取决于总体顺序。性能更优秀且更节省时间

过去的解决方法

将CNN应用到序列模型²character-level CNN(NIPS2015)假设了时间不变性，无法利用顺序信息
该模型主要通过多个卷积层和池化层堆叠，沿时间步对序列进行卷积和池化来实现序列信息的捕获
character-levelCNN模型

SCRN

Thu, 17 Feb 2022 15:42:05 +0800

SCRN模型 1

Novelty

通过为RNN添加一个参数缓慢变化的隐藏层来捕获长距离依赖，公式如下所示

\begin{align*} s_t &= (1-\alpha)Bx_t + \alpha s_{t-1} \\ h_t &= \sigma(Ps_t+Ax_t+Rh_{t-1}) \\ y_t &= f(Uh_t+Vs_t) \end{align*}

约束该隐藏层中的B为对角矩阵，由于B为对角矩阵，且没有使用激活函数，所以该隐藏层的梯度流稳定
RNN和SCRN的架构图
RNN和SCRN的架构图

矩阵求导

Wed, 19 Jan 2022 11:11:45 +0800

矩阵求导

分子布局和分母布局

标量，向量，矩阵之间的求导，相对于标量对标量的求导，需要考虑一个额外的因素，就是求导之后的布局，例如标量对列向量求导之后是按照列向量排列还是按照行向量排列并没有一个确切的规定。因此这里我们引入分子布局和分母布局的概念。

IRNN

Thu, 23 Dec 2021 10:27:32 +0800

IRNN模型 1

Novelty

专注于解决RNN模型中的梯度消失问题
使用单位矩阵来初始化RNN从而部分解决梯度消失和梯度爆炸问题
使用ReLU激活函数代替Sigmoid激活函数也用于解决梯度消失问题（要配合第二点，否则很有可能梯度爆炸）

问题和动机

梯度消失和梯度爆炸的问题导致RNN模型难以学习到远距离依赖
过去的解决方法依赖于复杂的优化技术和网络架构
提出一种较为简单的方式进行优化

过去的解决方法

用Hessian-Free来代替SGD² ³（Hessian-Free可以关注到曲率）

虽然效果上有改进，但并不常用，原因可能如下

深度学习 on loveLZZ的个人博客

Cross-Encoder和Bi-Encoder以及双塔模型和孪生网络

cross-encoder

bi-encoder

SimKGC

SimKGC模型

Novelty

问题和动机

PairRE

PairRE

Novelty

KBGAN

KBGAN模型1

Novelty

问题和动机

相关工作

过去的解决方法

CAKE

CAKE模型1

Novelty

问题和动机

QRNN

QRNN1

Novelty

问题和动机

过去的解决方法

SCRN

SCRN模型1

Novelty

矩阵求导

矩阵求导

分子布局和分母布局

IRNN

IRNN模型1

Novelty

问题和动机

过去的解决方法

KBGAN模型 1

CAKE模型¹

QRNN¹

SCRN模型 1

IRNN模型 1