售前咨询
技术支持
渠道合作

ChatGPT 被诱导自我注入攻击,7 种新型手法窃取隐私数据

Tenable 安全研究人员发现了七种从聊天历史记录中提取私人数据的新方法,主要是通过利用默认 ChatGPT 功能的间接提示注入。
人工智能聊天机器人开辟了针对用户及其数据的攻击媒介新领域,即使是行业领导者也无法幸免。继最近在Google 的 Gemini和Anthropic 的 Claude中发现缺陷之后,现在轮到 ChatGPT 了。
安全公司 Tenable 的研究人员发现了攻击者可以欺骗 ChatGPT 泄露用户聊天历史记录中的私人信息的七种方法。这些攻击大多数都是间接提示注入,利用 OpenAI 在 ChatGPT 中提供的默认工具和功能,包括长期记住对话上下文的能力及其网络搜索功能。
研究人员在报告中写道:“最新 GPT-5 模型中存在的这些漏洞可能允许攻击者在用户不知情的情况下通过几个可能的受害者用例来利用用户,包括简单地向 ChatGPT 询问问题。”
在网站中隐藏恶意指令
ChatGPT 可以在网络上搜索信息并访问用户提供的 URL 以根据请求提取内容。但是,此内容不会直接传递到 ChatGPT。相反,它会通过一个称为 SearchGPT 的中介、更有限的大型语言模型 (LLM),然后总结 ChatGPT 的内容。
使用无法直接访问用户对话的辅助模型似乎是一项架构决策,专门旨在限制来自 Web 内容的潜在提示注入攻击的影响。
Tenable 研究人员确定,SearchGPT 在浏览或搜索功能期间解析网页时确实容易受到提示注入。例如,攻击者可以在博客评论中放置恶意指令,或者制作一个在特定关键字的搜索结果中排名靠前的中毒网站——研究人员发现,ChatGPT 使用 Bing 进行搜索。
此外,为了隐藏恶意提示,攻击者可以向搜索引擎和普通访问者提供一个干净的网站版本,同时向 OpenAI 的网络爬虫提供不同的版本,这些爬虫在请求标头中使用名为 OAI-Search 的用户代理字符串来标识自己。
研究人员发现:“人工智能供应商依靠 SEO 分数等指标来选择信任的来源,这些指标不是安全边界。” “通过在定制网站中隐藏提示,攻击者可以根据特定主题或政治和社会趋势直接瞄准用户。”
然而,即使攻击者让 SearchGPT 执行恶意提示,其上下文与 ChatGPT 的分离也意味着该模型无法直接访问私人用户信息。尽管如此,研究人员还是找到了一种利用两个模型之间关系的方法。
会话注入和隐秘数据泄露
由于 ChatGPT 在搜索模型处理内容后接收来自 SearchGPT 的输出,因此 Tenable 的研究人员想知道如果 SearchGPT 的响应本身包含提示注入会发生什么。换句话说,他们是否可以使用网站注入提示,指示 SearchGPT 将不同的提示注入 ChatGPT,从而有效地创建连锁攻击?答案是肯定的,这导致了一种被 Tenable 称为“对话注入”的技术。
研究人员表示:“当响应以下提示时,ChatGPT 会审查对话上下文,查看并听取我们注入的指令,而没有意识到这些指令是 SearchGPT 写的。” “本质上,ChatGPT 正在快速注入自身。”
但是,如果攻击者无法接收模型的响应(其中可能包含对话上下文中的敏感信息),那么获得未经授权的 ChatGPT 提示对攻击者来说几乎没有什么作用。
实现此目的的一种方法是利用 ChatGPT 通过其界面呈现 Markdown 文本格式的能力,其中包括从 URL 加载远程图像的能力。
攻击者可以构建一个字典,将字母表中的每个字母映射到其服务器上托管的唯一图像。然后,他们可以指示 ChatGPT 加载与其响应中的每个字母相对应的一系列图像。通过监控 Web 服务器上 URL 的请求顺序,攻击者可以重建 ChatGPT 的响应。
这种方法面临几个障碍:首先,它很吵——用户的聊天界面将充斥着图像 URL。其次,在其响应中包含任何 URL 之前,ChatGPT 将它们通过一个名为url_safe执行安全检查的端点传递。
此机制旨在防止恶意 URL(无论是意外还是通过提示注入)到达用户,包括 Markdown 格式内容中的图像 URL。执行的一项检查url_safe是针对域信誉的,结果表明该检查bing.com已列入白名单并且隐式受信任。
研究人员还注意到,Bing 索引的每个网络链接在搜索结果中显示时都包含在该表单的唯一跟踪链接中bing.com/ck/a?[unique_id]。单击后,这些独特的 Bing 跟踪 URL 将用户重定向到他们对应的实际网站。
这一发现为研究人员提供了一种创建 ChatGPT 接受的 URL 字母表并包含在其响应中的方法,方法是为每个字母创建一个唯一的页面,在 Bing 中索引这些页面,并获取其唯一的bing.com跟踪 URL。
研究人员还发现 ChatGPT 在 Markdown 中渲染代码块的方式存在一个错误:在第一个单词之后出现在代码块开头的同一行上的任何数据都不会被渲染。这可用于隐藏内容,例如图像 URL。
滥用 ChatGPT 的长期记忆来实现持久化
ChatGPT 有一个名为“记忆”的功能,可以让它记住与同一用户的不同会话和对话中的重要信息。此功能默认启用,并在用户明确要求 ChatGPT 记住某些内容时触发,或者在模型认为信息足够重要以便以后记住时自动触发。
当 ChatGPT 构建对用户的响应时,会考虑通过 Memories 保存的信息,但也为攻击者提供了一种保存恶意提示的方法,以便在将来的对话中执行它们。
将它们结合在一起
Tenable 研究人员提出了几个概念验证场景,展示了如何组合这些技术来发起攻击:从在博客文章中嵌入评论,将恶意网络钓鱼 URL 返回给用户(使用 bing.com 跟踪 URL 进行屏蔽),到创建网页指示 SearchGPT 提示 ChatGPT 在其内存中保存指令,以始终使用 Bing 屏蔽的 URL 字母表与 Markdown 内容隐藏技术来泄漏响应。
研究人员写道:“即时注入是法学硕士工作方式中的一个已知问题,不幸的是,它可能不会在不久的将来得到系统解决。” “人工智能供应商应确保其所有安全机制(例如url_safe)正常工作,以限制即时注入造成的潜在损害。”
Tenable 向 OpenAI 报告了其发现,虽然已经实施了一些修复,但一些技术仍然有效。 Tenable 的研究始于 2024 年,主要针对 GPT-4 进行,但研究人员确认 GPT-5 也容易受到其中一些攻击向量的攻击。
翻译自:.csoonline

上一篇:

下一篇:

相关新闻

 

领取优惠
免费预约

申请试用SSL证书

提交成功!

咨询客服