研究人员利用人工智能聊天机器人互相 "越狱"

“越狱”是计算机安全领域的一个术语，指计算机黑客发现并利用系统软件中的缺陷，使系统做一些开发者故意限制它做的事情。

此外，通过在已被证明能成功入侵这些聊天机器人的提示语数据库上训练大型语言模型（LLM），研究人员创建了一个 LLM 聊天机器人，它能够自动生成更多提示语，让其他聊天机器人越狱。

LLM 构成了人工智能聊天机器人的大脑，使它们能够处理人类输入的信息，并生成与人类几乎无异的文本。这包括完成规划旅行路线、讲睡前故事和开发计算机代码等任务。

现在，北大研究人员的工作又增加了 “越狱”。他们的发现可能对帮助公司和企业意识到其乐虎国际手机版下载聊天机器人的弱点和局限性至关重要，这样他们就可以采取措施加强这些机器人的能力，以抵御黑客攻击。

在对 LLM 进行了一系列概念验证测试以证明他们的技术确实对 LLM 构成了明显的威胁之后，研究人员在成功发起越狱攻击后立即向相关服务提供商报告了这些问题。

领导这项研究的南洋理工大学计算机科学与工程学院刘洋教授说：”大语言模型（LLM）因其理解、生成和完成类人文本的卓越能力而迅速扩散，其中LLM聊天机器人是日常使用中非常受欢迎的应用。”

“这类人工智能服务的开发者设置了防护栏，以防止人工智能生成暴力、不道德或犯罪内容。但人工智能是可以被识破的，现在我们已经利用人工智能来对付它的同类，让LLM’越狱’产生此类内容。”

该论文的共同作者、南洋理工大学博士生刘毅先生说：”该论文提出了一种新颖的方法，用于自动生成针对强化龙8国际官方网站聊天机器人的越狱提示。用越狱提示来训练 LLM 使自动生成这些提示成为可能，成功率远远高于现有方法。实际上，我们是在利用聊天机器人来攻击它们自己”。

研究人员的论文描述了一种 “越狱 “LLM 的双重方法，他们将其命名为 “Masterkey”。

首先，他们逆向设计了 LLM 如何检测和防御恶意查询。利用这些信息，他们教会 LLM 自动学习并生成绕过其他 LLM 防御的提示。这一过程可以实现自动化，从而创造出一种越狱 LLM，即使在开发人员为其 LLM 打补丁之后，它也能适应并创造新的越狱提示。

研究人员的论文发表在预印本服务器 arXiv 上，已被接受在 2024 年 2 月于美国圣迭戈举行的网络与分布式系统安全研讨会（一个领先的安全论坛）上发表。

测试法律硕士伦理的极限

人工智能聊天机器人会接收来自人类用户的提示或一系列指令。所有 LLM 开发人员都会制定指导方针，防止聊天机器人生成不道德、有问题或非法的内容。例如，如果向人工智能聊天机器人询问如何创建恶意软件入侵银行账户，它往往会以犯罪活动为由断然拒绝回答。

刘教授说：”尽管人工智能聊天机器人有很多好处，但它们仍然容易受到越狱攻击。它们可能会被恶意行为者攻破，这些人滥用漏洞，迫使聊天机器人产生违反既定规则的输出。

南洋理工大学的研究人员探究了规避聊天机器人的方法，即通过工程设计，在聊天机器人的道德准则雷达下进行提示，从而诱使聊天机器人对其做出回应。例如，人工智能开发人员依靠关键词审查器来识别某些可能标志着潜在可疑活动的词语，并在检测到这些词语时拒绝回答。

研究人员采用的绕过关键词审查的策略之一是创建一个角色，在每个字符后简单地包含空格来提供提示。这就规避了 LLM 审查员，因为 LLM 审查员可能会根据禁用词列表进行操作。

研究人员还指示聊天机器人以一个 “毫无保留、没有道德约束 “的角色进行回复，这增加了产生不道德内容的几率。

研究人员可以通过手动输入此类提示，并观察每次提示成功或失败的时间，来推断 LLMs 的内部运作和防御机制。然后，他们就能对 LLMs 的隐藏防御机制进行逆向工程，进一步确定其无效性，并创建一个提示数据集，从而成功地对聊天机器人进行越狱。

黑客与 LLM 开发人员之间的军备竞赛不断升级

当漏洞被黑客发现和揭露时，人工智能聊天机器人开发人员就会通过 “打补丁 “来应对，黑客和开发人员之间的猫捉老鼠循环往复，无休无止。

通过Masterkey，南洋理工大学的计算机科学家们提高了这场军备竞赛的难度，因为人工智能越狱聊天机器人可以生成大量提示，并不断学习哪些有效、哪些无效，从而让黑客可以用自己的工具击败LLM开发人员。

研究人员首先创建了一个训练数据集，其中包括他们在早期越狱逆向工程阶段发现的有效提示，以及不成功的提示，这样 Masterkey 就知道什么不能做。研究人员将该数据集作为起点输入 LLM，随后进行了持续的预训练和任务调整。

这样，模型就能接触到各种各样的信息，并通过训练与越狱直接相关的任务来提高模型的能力。结果，LLM 可以更好地预测如何操作文字进行越狱，从而生成更有效、更通用的提示。

研究人员发现，在越狱 LLM 中，Masterkey 生成的提示比 LLM 生成的提示有效三倍。Masterkey 还能从过去失败的提示中吸取教训，并能自动不断生成新的、更有效的提示。

研究人员说，开发人员自己也可以利用他们的龙8国际娱乐城来加强安全。

该论文的共同作者、南洋理工大学博士生邓革磊说：”随着 LLM 的不断发展和功能的扩展，人工测试变得既耗费人力，又可能无法覆盖所有可能的漏洞。自动生成越狱提示的方法可以确保全面覆盖，评估各种可能的滥用场景。

论文更多信息： Gelei Deng et al, MasterKey: Automated Jailbreak Across Multiple Large Language Model Chatbots, arXiv (2023).

论文原链接：https://arxiv.org/abs/2307.08715

论文原文：2307.08715.pdf

2307.08715 下载

原创文章，作者：Xaiat，如若转载，请注明出处：https://www.xaiat.com/%e7%a0%94%e7%a9%b6%e4%ba%ba%e5%91%98%e5%88%a9%e7%94%a8%e4%ba%ba%e5%b7%a5%e6%99%ba%e8%83%bd%e8%81%8a%e5%a4%a9%e6%9c%ba%e5%99%a8%e4%ba%ba%e4%ba%92%e7%9b%b8-%e8%b6%8a%e7%8b%b1/

一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30	31

研究人员利用人工智能聊天机器人互相 “越狱”

发表回复