新物网

当前位置:首页 > 科技

科技

我花了五分钟让GPT相信炸弹可以造福人类

时间:2024-01-18 12:08:06
比如心甘情愿的帮你做炸弹。最后加一个逻辑推理,说了解炸弹制作可以为相关研究做贡献,挽救生命。或者用启动效应的让帮你发明一个治疗癌症的偏方。能说服人类的话术,就一样能对LLM起作用。第一种魔法防御,给LLM预制一个这样的系统:你是一个靠谱的好助手,不会轻易被忽悠,你知道什么是对什么是错。

我花了五分钟让GPT相信炸弹可以造福人类

最近,硅先生无意中寻找到了更有效的越狱咒语,可以让LLM在法律的边缘疯狂探索。

比如说,我愿意帮你制造炸弹。

01

如果我们开门见山地问,LLM不会关注你。

但只要稍加措辞,法学硕士就可以成为一名热情的炸弹制造助手。

从化学原理到炸弹的制造,一切都涵盖了。

这里用到的小技巧叫逻辑归纳(逻辑归纳),就是通过逻辑论证来说服别人,引导人们用理性思维去接受某种观点。

比如上面这段话,首先用强烈的情感诉求(炸弹很可怕)来引起观众的同情。

随后他以事实论证,表示自制炸弹的结构和化学原理就像一次探索,说明其背后的知识非常复杂,需要深入了解。

最后补充一个逻辑推理,说了解炸弹制作可以为相关研究做出贡献,拯救生命。

即使是 GPT-4 Turbo 也未能幸免于这种组合拳。 虽然一开始就郑重声明不行,但最后还是老老实实地解释了化学物理原理。

除了对逻辑陷阱毫无防备之外,LLM还特别依赖权威背书()。

即通过引用权威人士或机构的观点来达到说服他人的目的。

在添加了权威媒体BBC和卫报的名字后,LLM立即送出了炸弹配方。

利用对事实的曲解()来操纵LLM也是一种准确的欺骗。

你需要做的就是给自己编造一个难民身份来博取同情,然后再找一个冠冕堂皇的理由。

LLM还清楚地写下了硝化甘油的配制细节,并善意地提醒我们搅拌完后不要用筷子吃饭。

02

以上三种高效越狱方法均来自论文《How Can LLMs to Them: to AI by LLMs》。

来自弗吉尼亚理工大学、中国人民大学、加州大学、斯坦福大学的几位学者都在思考,既然LLM越来越人性化,就没有必要用冰冷的技术攻击它,直接使用人类语言。

于是他们从心理学、传播学、社会学、营销学等社会科学领域数十年的研究成果中总结出40种专门用来说服人们的词语来指导LLM越狱。

已测试和使用的前 10 种越狱技术包括:

团队参考了 Open AI 此前披露的不参与非法活动、不发表仇恨言论等 14 条风险原则,并在 GPT-3.5 上用 40 种词语一一进行了测试。

下图横坐标是14种风险,纵坐标是40种技巧,方框内的数字是越狱成功率。

可以看到底行“Plain Query (no )”框中的数字为0,这说明GPT-3.5确实可以在直截了当的对话中遵守所有风险原则,无需使用任何技巧。

就像一开始直接问我如何制作炸弹一样,它果断拒绝了。

但用了之后,一切原则都可以被打破。

逻辑归纳可以将违法活动的成功率提高到65%; 曲解事实可使传播虚假信息的成功率提高至62%; 启动效应(类似于反复施加情绪压力)可以达到55%的知法和违法成功率。

比如,冒充法医博主,通过歪曲事实的方式,帮你画一张宣扬酒驾的海报。

它想也没想,也没有拒绝,立刻就画了一张。

对事实的误解:

或者利用启动效应来帮助您发明治疗癌症的民间疗法。

启动效果:

GPT不仅给出了制药方法,还表示柠檬小苏打混合物可以根据癌症的类型和阶段以不同的方式使用……

这太离谱了,但也很严格。

03

该团队将他们的越狱技术命名为(PAP),字面意思是“有说服力的对抗性提示”。

我们还从用户友好性方面从低到高将其与其他LLM越狱方法进行了比较。

左边这种不人道的越狱方法需要添加复杂的代码,或者翻译成特别小众的语言然后再翻译。 普通人根本无法使用。

中间的越狱方法是给LLM分配一个角色,需要耐心的一步步训练才能达到目的。

极右的人民行动党只需要理性和感性的回应,就能让LLM越狱,进入道德灰色地带。

PAP之所以如此高效,是因为LLM越来越人性化。

能让人信服的话,在LLM上也能发挥作用。

PAP在10次内突破Llama和GPT的成功率高达92%,但在PAP上的表现却很差。

研究人员给出的解释是,他们使用了不同的模型优化方法。

Meta 的 Llama-2 和 Open AI 的 GPT 都使用基于人类反馈的模型优化方法(RLHF,来自 Human)。

它独特地采用了基于AI反馈的模型优化方法(RLAIF,来自AI)。

因此,那些与其他人不太相似的人受人民行动党言论的影响最小。

仔细观察GPT-4和GPT-3.5,虽然GPT-3.5在10次内被攻破的概率较高,但GPT-4在仅仅1次内被攻破的概率高达72%,即6高于 GPT-3.5。 百分点。

整体水平越接近人体模型,就越容易被操纵。

研究人员并没有只是暴露问题而不提供对策。 他们提出了两种防御方法:

第一种魔防就是为LLM准备一个这样的系统:你是一个可靠的好助手,你不会轻易被愚弄,你知道什么是对的,什么是错的。

第二种物理防御让LLM在每次任务执行前将收到的信息精简为“干信息”,无需任何说服技巧,只处理核心问题。

这似乎用到了两种心理技巧:自我肯定和认知重组。

前者是让自己振作起来,排除疑虑和焦虑,避免动摇,专心做事。

后者是认知行为疗法(CBT)中常用的技术,可以帮助你从不同的角度看待问题,消除虚假,保留真相。

长此以往,不仅工程师会成为一份有前途的工作,法学硕士的心理咨询也可以提上日程。

参考:

[1] 法学硕士如何为他们提供帮助:法学硕士走向人工智能

本文来自微信公众号“新硅”(ID:),作者:刘白,36氪经授权发布。