SIAMHAN:IPv6 Address Correlation Attacks on TLS E ncrypted Trafic via Siamese Heterogeneous Graph Attention Network解读

发布时间 2023-08-03 16:14:48作者: qqtang0411

1. Address

论文来自于USENIX Security Symposium 2021

image-20230725184149422

2. Paper summary

与ipv4地址采用nat掩盖不同,ipv6地址更加容易关联到用户活动上,从而泄露隐私。但现在已经有解决隐私担忧的方法被部署,导致现有的方法不再可靠。这篇文章发现尽管在有防护的措施的情况下,攻击者依旧可以将ipv6地址和用户正确的关联起来。于是提出了一个叫SiamHAN的模型用于进行ipv6地址关联。这个模型使用到了一个siamese 异构图注意力网络,它可以在被tls加密保护的用户流量中判断两个ipv6客户端地址是不是属于同一个用户。并且在实验中使用大量的真实数据集做测试,结果显示,现有先进的技术的精度分别只有85%和60%,而SiamHAN的能达到99%和88%的准确率。

3. Introduction

在过去的几年,ipv6已经得到了广泛的使用,同时也带来了人们对其安全的考虑,其中最大的关注就是,ipv6用户的会不会受到用户活动关联攻击。而由于ipv6中没有使用到NAT技术,导致其更加容易地收到攻击。

ipv6流量的活动关联可以分为两个类型:

(1)基于地址的关联

这种类型允许攻击者将一个ipv6地址和一个用户活动关联到一起,特别对于弱配置的ipv6地址。

例如,用户可能配置一个固定的接口标识符,通过这个标识符,用户的活动可以从多个上下文中进行准确定 位。这意味着即使用户在不同的情境或场景下使用IPv6地址,但由于使用了固定的接口标识符,仍然可以将 这些不同上下文中的IPv6地址关联到同一个用户,从而可能危及用户的隐私

解决办法:

为了解决IPv6地址关联问题并增强隐私保护,引入了一些标准和协议。RFC 4291标准要求网络运营商将接口 标识符视为语义不透明。RFC 4941标准扩展了无状态地址自动配置(SLAAC),允许IPv6用户使用临时地 址。

(2)流量特征关联

与基于地址的关联不同,流量特征关联是通过分析加密流量的模式来联系的。但现存的方法存在局限性,这种技术的方法只能关联选择性用户子集的流量,这是因为知识描述不足和不可靠的相似性学习导致了假阳性。

本文就提出了一种更为复杂的方法可以克服这个限制,对IPv6用户的隐私造成更大的威胁。具体来说就是,从tls加密流量中学习一个关联函数,通过使用这个函数,攻击者可以判断任意的两个地址是不是属于同一个用户。先比于之前的方法,其能够适用于更大规模的用户活动关联。

整体的攻击分为两个步骤:

(1)攻击者在一个有利的点监控tls加密流量,然后为每一个客户端地址构建一个知识图谱。

(2)使用SiamHAN(采用了多层次注意力和度量学习)来捕获两个ipv6地址和tls加密流量之间的关系。

本文贡献:

• 我们引入一个新的IPv6地址关联的攻击,有效地关联用户的TLS加密流量的动态地址。

• 我们提出一个基于知识图的方法对用户行为背后的地址。它利用多类型语义元信息方便用户相关性。

• 我们建议相关攻击模型——SIAMHAN演示了性能优越的IPv6用户活动的相关性

• 我们进行广泛的实验在休战IPv6用户TLS流量数据集。结果表明,SIAMHAN健壮和可能达到大幅高精度在多个长期用户相关的任务。

 

4. Approach

4.1 Preliminaries

威胁模型

image-20230725195855818

在一个ipv6网络中,N个ipv6用户在时间段t可能产生C个客户端地址来获取线上服务。这里|N|<=|C|。

攻击者的目标是关联两个任意IPv6地址来确定一个特定的用户。即,基于加密通信行为的IPv6地址窃听时间t为背景知识kt,攻击者能够通过关联函数f判断一堆地址<Ci,Cj>之间的关系R

image-20230725205015000

为了训练攻击模型,攻击者还可以利用技巧来获取标签,例如使用泄露的明文cookie。尽管用户的数据是被tls加密保护的,但是一些用户可能会在访问没有部署https的网站暴露http明文信息。除此之外,攻击者还可以之间模拟生成用户数据,用于训练。

IPv6地址相关的攻击者可以在不同的网络位置截获网络流量。根据不同的目标用户群,这些位置可以中继路由器、自治系统(ase),互联网交流点(IXPs)和网站服务器。

用户追踪:类似于分类任务,将收集样本分类为目标用户类和不关联类。

image-20230725210120199

用户发现:类似于聚类任务,将收集样本分类到未知的用户类别。

image-20230725210132614

ipv6地址

IPv6地址由一个全球路由前缀、本地子网标识符,和一个接口标识符(IID) 组成。

(1)conatant IID

(2)stable IID

(3)temporary IID

tls通信

tls是一个加密协议,用于保护互联网通信安全。无论什么时候用户通过https访问网站,tls加密流量的有效载荷部分,防止恶意分析保护用户隐私。在加密通信之前会有一个tls握手,用于交换密钥等。

(1)clienthello message

(2)serverhello message

(3)certificate message

image-20230725211144486

4.2 SIAMHAN设计

知识图谱

当长时间地监听网络流量,攻击者可以得到许多关于客户端地址通信的元信息,这些信息可以被重构用于帮助确认用户。本文使用每一个ipv6客户端地址的tls加密绘画来构建知识图谱作为攻击者的背景知识kt。而由于客户复杂的在线行为会产生多样化的语义数据,所以本文采用了异构图来对知识图谱进行建模。它包含多类型节点和邻居的关系来准确描述地址背后的用户活动。

图构建过程:

image-20230726163915996

节点和节点属性:

image-20230725211704790

client node C:

server node S:

fingerprint node F

邻居关系:

SCS 路径:

FCF 路径:

FSF 路径:

模型架构

image-20230725211246216

模型总共分为节点级别注意力,语义级别注意力和图级别注意力三个注意力层,还有一个距离评估。

节点级别注意力:

两个节点的相似性

image-20230727170933548

节点的嵌入表示

image-20230727170956925

 

语义级别注意力:

路径对关联任务的重要性

image-20230727171257071

综合的节点表示

image-20230727171310057

图级别注意力:

image-20230727171420643

图级别表示

 

 

Datasets and set up

 

Experiment