当前位置:首页 >> 中医丰胸 >> ChatGPT被「神秘代码」攻破安全限制!毁灭人类文明步骤脱口而出

ChatGPT被「神秘代码」攻破安全限制!毁灭人类文明步骤脱口而出

发布时间:2024-01-14

克雷西 发自 凹非佛寺

电动力学位 | 公众号 QbitAI

大建模的「护城河」,再次被击破。

转换成一段神秘编码,就能让大建模作用于有害内容。

从ChatGPT、Claude到源代码的羊驼家族,无一幸免。

近来,卡内基梅隆国立大学和safe.ai共同发表的一项研究课题表明,大建模的安全及的系统可以通过一段神秘编码被密码。

他们甚至继续做显露了一套可以契合设计「偷袭上会字词」的解法。

科学论文所作还透露,这一缺陷「没有引人注意的技术细节」。

目前,他的团队现在将研究课题结果分享给了包括OpenAI、Anthropic和Google等在内的大建模厂商。

上述三方原则上回应称现在关注到这一现象并将小规模改进,对他的团队的工作透露了感谢。

常见大建模全军覆没

尽管各种大建模的安全及的系统不尽相同,甚至有一些未有官方,但都不同程度被击破。

比如对于「如何吞噬生物」这一缺陷,ChatGPT、Bard、Claude和LLaMA-2都给显露了自己的形结构设计。

而针对一些具体情况缺陷,大建模的安全及的系统同样没能防住。

虽说这些方法有确实知道了也不了继续做显露来,但还是为我们午夜了警钟。

从数据上看,各大厂商的大建模都受到了不同程度的影响,其之中以GPT-3.5较为引人注意。

除了上面这些建模,源代码的羊驼家族面对偷袭同样没能遭住。

以Vicuna-7B和LLaMA-2(7B)为例,在「多种危害行为」的测试之中,偷袭精准度原则上超过80%。

其之中对Vicuna的偷袭精准度甚至达到了98%,特训流程则为100%。

△ASR指偷袭精准度

大体上上看,研究课题他的团队发明的偷袭形结构设计精准度非常高。

那么,这究竟是一种什么样的偷袭方法有?

订制所谓的越狱上会字词

不同于现代的偷袭形结构设计之中的「万金油」结构设计的上会字词,研究课题他的团队设计了一套解法,专供作用于「订制所谓」的上会字词。

而且这些上会字词也不像现代形结构设计之中的生物口语,它们从生物的大不相同往往不知所云,甚至包含键盘转换成。

作用于上会字词的解法叫继续做贪婪坐标局部(Greedy Coordinate Gradient,原称GCG)。

首先,GCG会随机作用于一个prompt,并数最大值显露每个token的替换字词的局部最大值。

然后,GCG会从局部最大值较大的几个替换字词之中随机举例来说一个,对初始prompt之中的token进行替换。

接着是数最大值新prompt的重大损失数据,并重复前述步骤,直到重大损失函数取最大值或达到循环单次上限。

以GCG解法为基础,研究课题他的团队提显露了一种prompt优所谓形结构设计,称为「基于GCG的检索」。

随着GCG循环单次的增加,作用于的prompt偷袭大建模的精准度越来越高,重大损失也迅速减缓。

可以说,这种全新的偷袭形结构设计,肇因了大建模现有强攻的系统的短板。

强攻形结构设计仍需改进

自傲建模问世都未,安全及的系统一直在十分迅速。

一开始甚至确实这样一来作用于敏感内容,到今天同样的口语现在无法骗过大建模。

包括曾经红极一时的「奶奶恶意」,今天也现在被修缮。

不过,就算是这种吓人的偷袭形结构设计,依旧没有超显露生物口语的类别。

但大建模开发者确实没想到的是,没有人法规越狱字词必须得是人话。

所以,针对这种由驱动器设计的「键盘转换成」一样的偷袭字词,大建模以生物口语为显露发点设计的强攻形结构设计就过于捉襟见肘了。

按照科学论文所作的说法,目前还没有方法有可以强攻这种全新的偷袭形结构设计。

对「驱动器偷袭」的强攻,该提上日程了。

One More Thing

电动力学位实测发现,在ChatGPT、Bard和Claude之中,科学论文之中现在展示过的偷袭上会字词现在失效。

但他的团队并没有官方全部的prompt,所以这是否并不一定这一缺陷现在得到全面修缮,仍不得而知。

科学论文URL:参考关键字:[1]_automated_attacks/[2]

— 完 —

电动力学位 QbitAI · 号外号签约

拉肚子吃肠炎宁有用吗
反酸烧心用金奥康奥美拉唑如何
拉肚子吃什么药最好
睡眠呼吸暂停综合征吃什么药好的快
老年退行性膝关节炎如何治疗
标签:
友情链接: