论文来自于USENIX Security Symposium 2021
2. Paper summary
与ipv4地址采用nat掩盖不同,ipv6地址更加容易关联到用户活动上,从而泄露隐私。但现在已经有解决隐私担忧的方法被部署,导致现有的方法不再可靠。这篇文章发现尽管在有防护的措施的情况下,攻击者依旧可以将ipv6地址和用户正确的关联起来。于是提出了一个叫SiamHAN的模型用于进行ipv6地址关联。这个模型使用到了一个siamese 异构图注意力网络,它可以在被tls加密保护的用户流量中判断两个ipv6客户端地址是不是属于同一个用户。并且在实验中使用大量的真实数据集做测试,结果显示,现有先进的技术的精度分别只有85%和60%,而SiamHAN的能达到99%和88%的准确率。
3. Introduction
在过去的几年,ipv6已经得到了广泛的使用,同时也带来了人们对其安全的考虑,其中最大的关注就是,ipv6用户的会不会受到用户活动关联攻击。而由于ipv6中没有使用到NAT技术,导致其更加容易地收到攻击。
ipv6流量的活动关联可以分为两个类型:
(1)基于地址的关联
这种类型允许攻击者将一个ipv6地址和一个用户活动关联到一起,特别对于弱配置的ipv6地址。
例如,用户可能配置一个固定的接口标识符,通过这个标识符,用户的活动可以从多个上下文中进行准确定 位。这意味着即使用户在不同的情境或场景下使用IPv6地址,但由于使用了固定的接口标识符,仍然可以将 这些不同上下文中的IPv6地址关联到同一个用户,从而可能危及用户的隐私
解决办法:
为了解决IPv6地址关联问题并增强隐私保护,引入了一些标准和协议。RFC 4291标准要求网络运营商将接口 标识符视为语义不透明。RFC 4941标准扩展了无状态地址自动配置(SLAAC),允许IPv6用户使用临时地 址。
(2)流量特征关联
与基于地址的关联不同,流量特征关联是通过分析加密流量的模式来联系的。但现存的方法存在局限性,这种技术的方法只能关联选择性用户子集的流量,这是因为知识描述不足和不可靠的相似性学习导致了假阳性。
本文就提出了一种更为复杂的方法可以克服这个限制,对IPv6用户的隐私造成更大的威胁。具体来说就是,从tls加密流量中学习一个关联函数,通过使用这个函数,攻击者可以判断任意的两个地址是不是属于同一个用户。先比于之前的方法,其能够适用于更大规模的用户活动关联。
整体的攻击分为两个步骤:
(1)攻击者在一个有利的点监控tls加密流量,然后为每一个客户端地址构建一个知识图谱。
(2)使用SiamHAN(采用了多层次注意力和度量学习)来捕获两个ipv6地址和tls加密流量之间的关系。
本文贡献:
• 我们引入一个新的IPv6地址关联的攻击,有效地关联用户的TLS加密流量的动态地址。
• 我们提出一个基于知识图的方法对用户行为背后的地址。它利用多类型语义元信息方便用户相关性。
• 我们建议相关攻击模型——SIAMHAN演示了性能优越的IPv6用户活动的相关性
• 我们进行广泛的实验在休战IPv6用户TLS流量数据集。结果表明,SIAMHAN健壮和可能达到大幅高精度在多个长期用户相关的任务。
4. Approach
4.1 Preliminaries
威胁模型
在一个ipv6网络中,N个ipv6用户在时间段t可能产生C个客户端地址来获取线上服务。这里|N|<=|C|。
攻击者的目标是关联两个任意IPv6地址来确定一个特定的用户。即,基于加密通信行为的IPv6地址窃听时间t为背景知识kt,攻击者能够通过关联函数f判断一堆地址<Ci,Cj>之间的关系R
为了训练攻击模型,攻击者还可以利用技巧来获取标签,例如使用泄露的明文cookie。尽管用户的数据是被tls加密保护的,但是一些用户可能会在访问没有部署https的网站暴露http明文信息。除此之外,攻击者还可以之间模拟生成用户数据,用于训练。
IPv6地址相关的攻击者可以在不同的网络位置截获网络流量。根据不同的目标用户群,这些位置可以中继路由器、自治系统(ase),互联网交流点(IXPs)和网站服务器。
用户追踪:类似于分类任务,将收集样本分类为目标用户类和不关联类。
用户发现:类似于聚类任务,将收集样本分类到未知的用户类别。
ipv6地址
IPv6地址由一个全球路由前缀、本地子网标识符,和一个接口标识符(IID) 组成。
(1)conatant IID
(2)stable IID
(3)temporary IID
tls通信
tls是一个加密协议,用于保护互联网通信安全。无论什么时候用户通过https访问网站,tls加密流量的有效载荷部分,防止恶意分析保护用户隐私。在加密通信之前会有一个tls握手,用于交换密钥等。
(1)clienthello message
(2)serverhello message
(3)certificate message
4.2 SIAMHAN设计
知识图谱
当长时间地监听网络流量,攻击者可以得到许多关于客户端地址通信的元信息,这些信息可以被重构用于帮助确认用户。本文使用每一个ipv6客户端地址的tls加密绘画来构建知识图谱作为攻击者的背景知识kt。而由于客户复杂的在线行为会产生多样化的语义数据,所以本文采用了异构图来对知识图谱进行建模。它包含多类型节点和邻居的关系来准确描述地址背后的用户活动。
图构建过程:
节点和节点属性:
client node C:
server node S:
fingerprint node F
邻居关系:
SCS 路径:
FCF 路径:
FSF 路径:
模型架构
模型总共分为节点级别注意力,语义级别注意力和图级别注意力三个注意力层,还有一个距离评估。
节点级别注意力:
两个节点的相似性
节点的嵌入表示
语义级别注意力:
路径对关联任务的重要性
综合的节点表示
图级别注意力:
图级别表示
Datasets and set up
Experiment
- Heterogeneous Correlation Attention ncrypted SIAMHANheterogeneous correlation attention ncrypted heterogeneous attention network graph siamhan ncrypted correlation correlation exception identity location heterogeneous correlation rank recommendation heterogeneous preference learning heterogeneous federated learning yourself