本文是一篇计算机论文,本文研究了单网络情境下的自适应网络嵌入与多网络情境下的自适应网络嵌入。针对单网络情境下的自适应网络嵌入,本文提出了基于元学习的自适应网络嵌入模型MLANE;针对多网络情境下的自适应网络嵌入,本文提出了针对有向网络对齐的域自适应网络嵌入模型DADNA。
第1章 绪论
1.1 选题背景及意义
当今世界,网络无处不在,对于各种网络的有效挖掘也受到了越来越多的关注。网络嵌入[1][2],又称为网络表示学习,旨在为节点学习低维的向量表示,从而帮助各种下游的网络分析任务,例如节点分类[3]、链接预测[4]、社区发现[8]、网络对齐[9](又称为锚链接预测)等。网络嵌入由于在各种网络分析任务中表现优秀,已经成为当今的热门研究领域。
根据学习节点表示时利用的网络数量,网络嵌入可以大致分为两类,分别是单一网络情境下的网络嵌入与多网络情境下的网络嵌入。很多的网络分析任务只需要对单一网络进行分析即可,例如节点分类、链接预测、社区发现等,单一网络情境下的网络嵌入是为单一网络中的节点学习低维向量表达,从而帮助这些单一情境下的网络分析任务;然而现实世界中的有些网络分析任务需要同时结合多个网络才能处理,例如网络对齐、跨网络链接预测等。多网络情境下的网络嵌入是同时为二个及以上的网络学习节点低维向量表达,从而帮助各种多网络情境下的网络分析任务。
现有网络嵌入主要存在以下问题:第一,对于单一网络情境下的网络嵌入,现有工作通常只捕捉了节点的同质性[10]或者结构等价性[11]这两种性质之一,然而现实世界的网络中的节点往往同时具有这两种性质;第二,对于多网络情境下的网络嵌入,现有工作通常没有考虑到有向网络中节点的影响力会随着网络中边的方向发生变化,此外,许多现有工作实现了不同网络间的域自适应,但在实现域自适应过程中忽略了有向网络中边的方向。
1.2 本文研究内容
本文研究了单一网络情境下的自适应网络嵌入问题与多网络情境下的自适应网络嵌入问题。针对单一网络情境下的自适应网络嵌入,本文提出一种基于元学习的自适应网络嵌入(Meta-Learning Based Adaptive Network Embedding)模型,简称MLANE。针对多网络情境下的自适应网络嵌入,本文提出一种针对有向网络对齐的域自适应网络嵌入(Domain Adaptive Network Embedding for Directed Network Alignment)模型,简称DADNA。本文的研究内容总结为以下两点:
(1) 提出一种基于元学习的自适应网络嵌入模型MLANE,该模型可以针对不同的单一网络分析任务,为不同的节点自适应地选择不同的采样策略(即广度优先搜索和深度优先搜索)从而自适应地捕捉节点的同质性和结构等价性。
本文研究了单一网络情境下的自适应网络嵌入问题,解决该问题的主要挑战为如何自适应地保持同质性与结构等价性。为了同时解决上述挑战,本文提出了一种基于元学习的自适应网络嵌入模型MLANE,能够针对节点和任务自适应地决定对两种采样策略的偏好。MLANE通过将随机游走形式化为一个强化学习过程,使采样过程可训练,能够针对节点和任务决定对两种采样策略的偏好。为了学习采样策略,本文提出基于元学习的策略学习算法,使MLANE能够将采样策略学习与嵌入学习整合为能够通过基于梯度上升的端到端优化算法解决的同一个优化问题。本文在真实世界数据上的大量实验验证了MLANE的有效性以及MLANE的自适应性。
(2) 提出一种针对有向网络对齐的域自适应网络嵌入模型DADNA,应用于多网络情境下的有向网络对齐任务。
第2章 相关理论与技术
2.1 国内外研究现状
2.1.1 单一网络情境下的网络嵌入研究现状
根据保持的结构性质类型,现有的单一网络情境下的网络嵌入方法可以大致分为两大类,一类是保持节点同质性[10]的方法,而另一类是保持节点结构等价性[11]的方法。
同质性通过节点的局部连接关系约束节点的嵌入,使得具有链接的节点之间具有相似的低维表示,例如,网络嵌入方法DeepWalk[12]通过随机游走采样节点序列,并使同一条序列中的节点嵌入相近,从而保持了节点的同质性。LINE[13]是提出了一阶近似性与二阶近似性,一阶近似性使网络中的有直接链接的节点嵌入相近,二阶近似性则要求网络中具有相似邻居的节点嵌入接近。AttentionWalk[14]通过注意力机制为网络中的每个节点学习采样长度,从而为每个节点自适应地保持同质性。SDNE[15]通过与LINE相似,也提出了一阶近似性与二阶近似性,一阶近似性使网络中的有直接链接的节点嵌入相近,二阶近似性网络中具有相似邻居的节点嵌入接近,但是SDNE是通过深度自编码器实现的一阶近似性与二阶近似性的保持。HOPE[16]通过计算高阶近似性保持节点的对称转移性,并利用奇异值分解学习节点嵌入,保持了节点的同质性。GAT[17]是为网络中任意节点学习了周围邻居节点的权重,再通过聚合邻居的方式学习节点的嵌入。DHPE[18]是应用于动态图的保持同质性的网络嵌入方法,该方法保持了节点间的高阶近似性。保持同质性可以帮助如社区发现、链接预测等网络分析任务,因为具有相似标签或特征的节点之间更有可能存在链接。
然而,保持同质性往往无法帮助如结构角色识别[5][19]这样的任务。在结构角色识别任务中,具有相似局部拓扑的节点会被识别为相同的角色,因为这些节点之间即使没有链接,也执行相似的功能,这就需要在学习节点嵌入时保持节点间的结构等价性。通过保持节点间的结构等价性,网络嵌入方法struc2vec[20]首先根据节点的拓扑结构构建了一个编码了节点间结构相似度的多层图,之后通过在多层图上随机游走生成节点序列,并使位于同一序列的节点嵌入接近,实现了具有相似结构的节点具有相似的嵌入。
2.2 网络分析任务及评价指标
本节将详细介绍本文中所涉及的网络分析任务以及相应的评价指标。
2.2.1 网络分析任务
本小节将分别介绍本文所涉及的网络分析任务,包括单一网络分析任务与多网络分析任务。
2.2.1.1 单一网络分析任务
本文所涉及的单一网络分析任务包括节点分类、链接预测以及节点聚类。
(1) 节点分类。节点分类[3]是非常普遍的网络分析任务,它的目标是为网络中的节点正确分类。图2.1展示了一个节点分类示例,图中不同颜色的节点属于不同的类别,节点分类就是利用已知的网络信息为类别未知的节点正确分类。节点分类在现实应用场景中具有十分重要的意义,例如在角色识别任务[5][19]中,节点分类就是根据节点在网络中表现的具体功能为节点划分其所属角色。在节点分类任务中,网络嵌入的目标是使具有相同标签的节点在嵌入空间中具有相近距离,同时希望具有不同标签的节点的嵌入相距较远。
(2) 链接预测。链接预测[4][6][7]也是十分常见的网络分析任务,它的目标是预测网络中给定的两个节点间是否存在链接。在购物推荐场景中,链接预测就是预测用户是否会点击、购买某一商品;在社交网络中,链接预测可以用于判断用户之间是否存在好友关系;在蛋白质交互网络中,链接预测则为预测两个基因之间是否存在交互。在链接预测任务中,网络嵌入的目标是使具有链接的节点在嵌入空间具有相近的距离,没有链接的节点的嵌入相距较远。
第3章 基于元学习的自适应网络嵌入 ............................... 17
3.1 引言 ........................................ 17
3.2 预备知识和问题定义 ...................................... 19
第4章 针对有向网络对齐的域自适应网络嵌入 ........................ 35
4.1 引言 .................................. 35
4.2 问题定义 ............................. 37
第5章 总结与展望 ................................. 49
5.1 总结 ......................................... 49
5.2 展望 ..................................... 49
第4章 针对有向网络对齐的域自适应网络嵌入
4.1 引言
社交网络对齐[39],又称为社交网络锚链接预测,旨在从多个社交网络中找到属于同一个现实用户的账号,从而帮助各种下游网络分析任务,例如跨网络推荐[34]、跨网络信息传播[35]等。随着社交网络的普及,越来越多的用户同时参与多个社交网络,这也使得社交网络对齐问题受到了越来越多的关注。近年来,由于网络嵌入在各种网络分析任务中表现优秀,很多近期工作尝试将网络嵌入应用于网络对齐并取得了一些成效[25][26][27]。然而,现实世界中很多社交网络都是有向网络,例如微博、Facebook、Twitter等,这些网络都包含关注与被关注两种关系,而现有的基于网络嵌入的网络对齐方法往往无法很好地应对有向网络对齐地问题,这部分是由于以下挑战:
⚫ 有向网络节点影响力与边的方向相关。在有向社交网络对齐任务中,节点对其邻居节点的影响与边的方向相关。例如,在社交网络𝐺𝑃和𝐺𝑄中分别存在账号p和账号q,若二者共同关注了一个已知锚链接的现实用户𝓊,那么当用户𝓊的粉丝较多时,由于关注用户𝓊的账号较多,我们很难判定账号p和账号q属于同一个现实用户,而当用户𝓊的粉丝很少时,账号p和账号q就更有可能属于同一个现实用户。类似地,如果账号p和账号q被同一个已知锚链接的用户𝓋关注,那么当用户𝓋关注的账号较多时,我们很难判定账号p和账号q属于同一个用户,当用户𝓋关注的账号很少时,账号p和账号q更有可能属于同一个用户。因此,将节点的影响力与边的方向结合考虑对于网络对齐任务是有意义的,而现有方法往往忽略了这一点。
第5章 总结与展望
5.1 总结
本文研究了单网络情境下的自适应网络嵌入与多网络情境下的自适应网络嵌入。针对单网络情境下的自适应网络嵌入,本文提出了基于元学习的自适应网络嵌入模型MLANE;针对多网络情境下的自适应网络嵌入,本文提出了针对有向网络对齐的域自适应网络嵌入模型DADNA。
本文第三章研究了单网络情境下的自适应网络嵌入,并提出了基于元学习的自适应网络嵌入模型MLANE。MLANE通过在元学习的框架下使采样过程可学习,为每个节点自适应地学习其特有的采样策略,使得节点的嵌入能够针对不同的任务有区别地保持同质性和结构等价性。为了使采样策略可学习,MLANE将随机游走形式化为一个强化学习过程,将采样过程参数化,从而能够针对节点和任务自适应地学习特定的采样策略。MLANE最终将采样策略学习与嵌入学习通过元学习的框架整合为同一个优化问题,该优化问题可以通过基于梯度上升的端到端的优化算法解决。本文在真实数据集上的大量实验验证了MLANE在各种单一网络情境下的网络分析任务上的有效性以及MLANE的自适应性。
本文第四章研究了多网络情境下的自适应网络嵌入,并提出针对有向网络对齐的域自适应网络嵌入模型DADNA。DADNA针对有向网络对齐任务,通过设计加权邻接矩阵,利用图卷积网络为每个节点分别学习了出向嵌入和入向嵌入;DADNA利用已观测到的锚链接,将不同网络中节点的嵌入调整到同一个嵌入空间,使得节点嵌入之间可以进行距离度量;最后,DADNA通过生成对抗网络将不同网络中节点的出向嵌入与入向嵌入分别对齐。本文在真实数据集上的大量实验验证了DADNA的网络对齐性能。
参考文献(略)