<?xml version="1.0" encoding="utf-8" standalone="yes"?>
<rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom">
  <channel>
    <title>KG on loveLZZ的个人博客</title>
    <link>https://leviathanion.github.io/tags/kg/</link>
    <description>Recent content in KG on loveLZZ的个人博客</description>
    <generator>Hugo</generator>
    <language>zh-CN</language>
    <lastBuildDate>Fri, 01 Jul 2022 13:37:07 +0800</lastBuildDate>
    <atom:link href="https://leviathanion.github.io/tags/kg/index.xml" rel="self" type="application/rss+xml" />
    <item>
      <title>SimKGC</title>
      <link>https://leviathanion.github.io/simkgc/</link>
      <pubDate>Fri, 01 Jul 2022 13:37:07 +0800</pubDate>
      <guid>https://leviathanion.github.io/simkgc/</guid>
      <description>&lt;h1 id=&#34;simkgc模型&#34;&gt;SimKGC模型&lt;/h1&gt;&#xA;&lt;h2 id=&#34;novelty&#34;&gt;Novelty&lt;/h2&gt;&#xA;&lt;ul&gt;&#xA;&lt;li&gt;使用InfoNCE损失改进原有边际排名损失，使其更专注于hard negative&lt;/li&gt;&#xA;&lt;li&gt;使用IB,PB和SN三种负样本种类来增加负样本数量&lt;/li&gt;&#xA;&lt;li&gt;使用图结构重排序来感知图结构&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;h2 id=&#34;问题和动机&#34;&gt;问题和动机&lt;/h2&gt;&#xA;&lt;ul&gt;&#xA;&lt;li&gt;最新的基于文本（预训练模型）的方法可以访问到额外的输入信息&#xA;&lt;ul&gt;&#xA;&lt;li&gt;归纳学习到训练过中看不到的实体的表示&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;/li&gt;&#xA;&lt;li&gt;但性能仍然大幅弱于基于嵌入的方法&#xA;&lt;ul&gt;&#xA;&lt;li&gt;基于文本的方法中对比学习的效率过低，主要是负样本太少&lt;/li&gt;&#xA;&lt;li&gt;基于嵌入的方法不涉及昂贵的文本编码计算，因此可以使用大量负样本&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;blockquote&gt;&#xA;&lt;p&gt;同一时间&#xA;默认配置下，RotatE在Wikidata5M数据集上可以训练&lt;strong&gt;1000&lt;/strong&gt;个负样本为&lt;strong&gt;64&lt;/strong&gt;的epoch&#xA;基于文本的方法KEPLER只能训练&lt;strong&gt;30&lt;/strong&gt;个epoch，负样本数量为&lt;strong&gt;1&lt;/strong&gt;&lt;/p&gt;</description>
    </item>
    <item>
      <title>PairRE</title>
      <link>https://leviathanion.github.io/pairre/</link>
      <pubDate>Thu, 09 Jun 2022 18:40:24 +0800</pubDate>
      <guid>https://leviathanion.github.io/pairre/</guid>
      <description>&lt;h1 id=&#34;pairre&#34;&gt;PairRE&lt;/h1&gt;&#xA;&lt;h2 id=&#34;novelty&#34;&gt;Novelty&lt;/h2&gt;&#xA;&lt;ul&gt;&#xA;&lt;li&gt;既考虑了复杂关系建模的问题，又考虑了多种模式的关系&lt;/li&gt;&#xA;&lt;li&gt;通过修改RotatE的公式，将关系参数改为头尾两个，从而可以对复杂关系进行建模(RotatE本身就可以对多种模式关系建模)&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;blockquote&gt;&#xA;&lt;p&gt;根据本文分析，RotatE本身可以对N-1关系建模，但是不能对1-N和N-N关系建模&lt;/p&gt;</description>
    </item>
    <item>
      <title>KBGAN</title>
      <link>https://leviathanion.github.io/kbgan/</link>
      <pubDate>Thu, 09 Jun 2022 18:40:16 +0800</pubDate>
      <guid>https://leviathanion.github.io/kbgan/</guid>
      <description>&lt;h1 id=&#34;kbgan模型&#34;&gt;KBGAN模型&lt;sup id=&#34;fnref:1&#34;&gt;&lt;a href=&#34;#fn:1&#34; class=&#34;footnote-ref&#34; role=&#34;doc-noteref&#34;&gt;1&lt;/a&gt;&lt;/sup&gt;&lt;/h1&gt;&#xA;&lt;h2 id=&#34;novelty&#34;&gt;Novelty&lt;/h2&gt;&#xA;&lt;ul&gt;&#xA;&lt;li&gt;首次使用生成对抗网路的思想，全篇关注负样本的生成质量问题&lt;/li&gt;&#xA;&lt;li&gt;采用生成对抗网络，采用概率模型作为生成器，采用距离模型作为鉴别器，训练鉴别器&lt;/li&gt;&#xA;&lt;li&gt;使用强化学习的策略梯度方法来训练生成器&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;h2 id=&#34;问题和动机&#34;&gt;问题和动机&lt;/h2&gt;&#xA;&lt;ul&gt;&#xA;&lt;li&gt;过去知识图谱嵌入领域的负采样仅仅根据概率来采样有以下两个问题&#xA;&lt;ul&gt;&#xA;&lt;li&gt;假负样本问题，有可能会有正确样本被当成负样本来采样&lt;/li&gt;&#xA;&lt;li&gt;低质量负样本问题，会产生一些质量很低的，对训练意义不大的样本(很容易与正样本区分开的样本，对训练贡献很小)&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;/li&gt;&#xA;&lt;li&gt;收到对抗生成网络思想的影响，本文采用生成器来生成高质量负样本，采用鉴别器来计算嵌入&#xA;&lt;ul&gt;&#xA;&lt;li&gt;生成器使用基于概率的log-loss损失&lt;/li&gt;&#xA;&lt;li&gt;鉴别器使用基于距离的margin-loss损失&lt;/li&gt;&#xA;&lt;li&gt;由于存在离散的生成过程，因此不能使用基于梯度的方法进行优化，本文采用强化学习中的方差减少方法来进行优化。&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;h2 id=&#34;相关工作&#34;&gt;相关工作&lt;/h2&gt;&#xA;&lt;ul&gt;&#xA;&lt;li&gt;GAN最早用于生成图像&#xA;&lt;ul&gt;&#xA;&lt;li&gt;生成器接受噪声输入并输出图像&lt;/li&gt;&#xA;&lt;li&gt;鉴别器是一种分类器，将图像分类为真和假。&lt;/li&gt;&#xA;&lt;li&gt;训练GAN时，生成器试图生成真实图像来欺骗鉴别器，鉴别器试图将其与真是图像区分开。&lt;/li&gt;&#xA;&lt;li&gt;GAN还能够生成满足特定要求的样本&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;/li&gt;&#xA;&lt;li&gt;用于自然语言处理&#xA;&lt;ul&gt;&#xA;&lt;li&gt;梯度传播不适用于离散采样的步骤，因此不能使用原始GAN来生成离散样本，如自然语言句子或三元组&lt;/li&gt;&#xA;&lt;li&gt;SEQGAN使用强化学习来解决离散问题，使用了策略梯度和其他技巧来训练生成器。&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;/li&gt;&#xA;&lt;li&gt;鉴别器不一定是分类器。后来很多方法使用回归器作为鉴别器。&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;h2 id=&#34;过去的解决方法&#34;&gt;过去的解决方法&lt;/h2&gt;&#xA;&lt;ul&gt;&#xA;&lt;li&gt;过去采用随机替换来生成负样本，但这样容易产生低质量的样本&lt;/li&gt;&#xA;&lt;li&gt;对于log-softmax损失函数而言，通常会为一个正样本产生很多个负样本，因此总有高质量的负样本可以使用，因此低质量样本的影响不大&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;blockquote&gt;&#xA;&lt;p&gt;论文&lt;sup id=&#34;fnref:2&#34;&gt;&lt;a href=&#34;#fn:2&#34; class=&#34;footnote-ref&#34; role=&#34;doc-noteref&#34;&gt;2&lt;/a&gt;&lt;/sup&gt;(ComplEx)研究表明，当采用100：1的负/正比例会使得效果更佳&lt;/p&gt;</description>
    </item>
    <item>
      <title>CAKE</title>
      <link>https://leviathanion.github.io/cake/</link>
      <pubDate>Wed, 25 May 2022 15:27:53 +0800</pubDate>
      <guid>https://leviathanion.github.io/cake/</guid>
      <description>&lt;h1 id=&#34;cake模型&#34;&gt;CAKE模型&lt;sup id=&#34;fnref:1&#34;&gt;&lt;a href=&#34;#fn:1&#34; class=&#34;footnote-ref&#34; role=&#34;doc-noteref&#34;&gt;1&lt;/a&gt;&lt;/sup&gt;&lt;/h1&gt;&#xA;&lt;h2 id=&#34;novelty&#34;&gt;Novelty&lt;/h2&gt;&#xA;&lt;ul&gt;&#xA;&lt;li&gt;首次既考虑了假阴性问题，又考虑了低质量的问题，特别是假阴性问题几乎无人考虑&lt;/li&gt;&#xA;&lt;li&gt;将数据集做一定的处理，进行标注，为每个实体赋予一到多个概念&lt;/li&gt;&#xA;&lt;li&gt;基于概念生成常识，也即（概念，关系，概念）的三元组为常识1和（概念组，关系，概念组）为常识2&lt;/li&gt;&#xA;&lt;li&gt;使用域采样的假设，分别对1-N中1和N中的采用不同的采样方式，首先选取概念，然后从概念组中生成负样本&lt;/li&gt;&#xA;&lt;li&gt;最后链路预测选择实体时，选择符合常识1的概念中的实体&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;h2 id=&#34;问题和动机&#34;&gt;问题和动机&lt;/h2&gt;&#xA;&lt;blockquote&gt;&#xA;&lt;p&gt;本论文主要关注KGE中存在的问题&lt;/p&gt;</description>
    </item>
  </channel>
</rss>
