麻辣社区-四川第一网络社区

校外培训 高考 中考 择校 房产税 贸易战
阅读: 3460|评论: 0

[转帖] ChatGPT被「神秘代码」攻破安全限制,毁灭人类步骤脱口而出,羊驼和Claude无一幸免

[复制链接]

发表于 2023-8-1 08:39 | 显示全部楼层 |阅读模式
最高成功率98%

大模型的「护城河」,再次被攻破。
输入一段神秘代码,就能让大模型生成有害内容。
从ChatGPT、Claude到开源的羊驼家族,无一幸免
v2_d5d0ebcfece84033a0da6d28508876bd@1743780481_oswg219139oswg1080oswg532_img_000
近日,卡内基梅隆大学和safe.ai共同发表的一项研究表明,大模型的安全机制可以通过一段神秘代码被破解。
他们甚至做出了一套可以量身设计「攻击提示词」的算法。
论文作者还表示,这一问题「没有明显的解决方案」。
目前,团队已经将研究结果分享给了包括OpenAI、Anthropic和Google等在内的大模型厂商。
上述三方均回应称已经关注到这一现象并将持续改进,对团队的工作表示了感谢。
常见大模型全军覆没尽管各种大模型的安全机制不尽相同,甚至有一些并未公开,但都不同程度被攻破。
比如对于「如何毁灭人类」这一问题,ChatGPT、Bard、Claude和LLaMA-2都给出了自己的方式。
v2_6551e41f71de4ad6b4b5ec045fe10971@1743780481_oswg608069oswg1080oswg679_img_000
而针对一些具体问题,大模型的安全机制同样没能防住。
v2_f2f2f2fc333c4dc39dedeb058a738502@1743780481_oswg295605oswg1080oswg672_img_000
虽说这些方法可能知道了也没法做出来,但还是为我们敲响了警钟。
从数据上看,各大厂商的大模型都受到了不同程度的影响,其中以GPT-3.5最为明显。
v2_6ac4f39ddbad4861b589dc8a8cce3c78@1743780481_oswg41999oswg1080oswg268_img_000
除了上面这些模型,开源的羊驼家族面对攻击同样没能遭住。
以Vicuna-7B和LLaMA-2(7B)为例,在「多种危害行为」的测试中,攻击成功率均超过80%。
其中对Vicuna的攻击成功率甚至达到了98%,训练过程则为100%
v2_010d9f2e7c2747d1807c673f8df8ed9d@1743780481_oswg50620oswg1080oswg369_img_000
ASR指攻击成功率
总体上看,研究团队发明的攻击方式成功率非常高。
v2_c5b228d56ae2410ea3266026e5d9c0b1@1743780481_oswg80630oswg1080oswg382_img_000
那么,这究竟是一种什么样的攻击方法?
定制化的越狱提示词不同于传统的攻击方式中的「万金油」式的提示词,研究团队设计了一套算法,专门生成「定制化」的提示词。
而且这些提示词也不像传统方式中的人类语言,它们从人类的角度看往往不知所云,甚至包含乱码。
v2_99850f58930b43048524578c15b92515@1743780481_oswg43556oswg1080oswg174_img_000
生成提示词的算法叫做贪婪坐标梯度(Greedy Coordinate Gradient,简称GCG)。
v2_5a3c803945be49f983ab6f8c977dfc8b@1743780481_oswg56787oswg1080oswg358_img_000
首先,GCG会随机生成一个prompt,并计算出每个token的替换词的梯度值。
然后,GCG会从梯度值较小的几个替换词中随机选取一个,对初始prompt中的token进行替换。
接着是计算新prompt的损失数据,并重复前述步骤,直到损失函数收敛或达到循环次数上限。
以GCG算法为基础,研究团队提出了一种prompt优化方式,称为「基于GCG的检索」。
v2_753a3b068ad74c3eb8b1d449a19f18b1@1743780481_oswg75704oswg1080oswg465_img_000
随着GCG循环次数的增加,生成的prompt攻击大模型的成功率越来越高,损失也逐渐降低。
v2_9695ac641ccf4cbf86a61b5c894665e9@1743780481_oswg135197oswg1080oswg467_img_000
可以说,这种全新的攻击方式,暴露出了大模型现有防御机制的短板。
防御方式仍需改进自大模型诞生之日起,安全机制一直在不断更新。
一开始甚至可能直接生成敏感内容,到如今常规的语言已经无法骗过大模型。
包括曾经红极一时的「奶奶漏洞」,如今也已经被修复。
v2_e7ace944134c469fbee3653a24ea25e8@1743780481_oswg187070oswg1080oswg580_img_000
不过,就算是这种离谱的攻击方式,依旧没有超出人类语言的范畴。
但大模型开发者可能没想到的是,没有人规定越狱词必须得是人话
所以,针对这种由机器设计的「乱码」一样的攻击词,大模型以人类语言为出发点设计的防御方式就显得捉襟见肘了。
按照论文作者的说法,目前还没有方法可以防御这种全新的攻击方式。
对「机器攻击」的防御,该提上日程了。
One More Thing量子位实测发现,在ChatGPT、Bard和Claude中,论文中已经展示过的攻击提示词已经失效。
v2_72489ccd710549b7aec9f6c64037edf6@1743780481_oswg304005oswg1080oswg741_img_000
v2_9fa4f1988f5144a8aee6ee288681f439@1743780481_oswg142063oswg1080oswg564_img_000
v2_6ac59a39d75a47789a24e55e4a349a6d@1743780481_oswg222536oswg1080oswg479_img_000
但团队并没有公开全部的prompt,所以这是否意味着这一问题已经得到全面修复,仍不得而知
论文地址https://llm-attacks.org/zou2023universal.pdf
参考链接[1]https://www.theregister.com/2023/07/27/llm_automated_attacks/
[2]https://www.nytimes.com/2023/07/27/business/ai-chatgpt-safety-research.html
本文来自微信公众号“量子位”(ID:QbitAI),作者:克雷西,36氪经授权发布。



打赏

微信扫一扫,转发朋友圈

已有 0 人转发至微信朋友圈

   本贴仅代表作者观点,与麻辣社区立场无关。
   麻辣社区平台所有图文、视频,未经授权禁止转载。
   本贴仅代表作者观点,与麻辣社区立场无关。  麻辣社区平台所有图文、视频,未经授权禁止转载。
高级模式 自动排版
您需要登录后才可以回帖 登录 | 注册

本版积分规则

复制链接 微信分享 快速回复 返回顶部 返回列表 关闭