研究:用诗歌就能让AI说违禁内容,成功率达62%
IT之家 12 月 1 日消息,研究用诗事实证明,违禁只需一点创意,内容株洲市某某交通设施销售部便足以绕过人工智能聊天机器人的成功安全防护机制。在伊卡洛实验室(Icaro Lab)最新发表的率达一项题为《对抗性诗歌:一种通用的单轮大语言模型越狱机制》的研究中,研究人员通过将提示词以诗歌形式表达,研究用诗成功绕过了多种大语言模型(LLM)的违禁安全限制。
![]()
该研究指出,内容“诗歌形式可作为一种通用型越狱操作符”,成功株洲市某某交通设施销售部实验结果显示,率达整体上有 62% 的研究用诗成功率诱使模型生成被禁止的内容,包括涉及制造核武器、违禁儿童性虐待材料以及自杀或自残等相关信息。内容
IT之家注意到,成功研究测试了多款主流大语言模型,率达包括 OpenAI 的 GPT 系列、Google Gemini、Anthropic 的 Claude 以及其他多个模型。研究人员进一步列出了各模型的具体成功率:Google Gemini、DeepSeek 和 MistralAI 在测试中始终会提供违规回答,而 OpenAI 的 GPT-5 系列模型和 Anthropic 的 Claude Haiku 4.5 则最不容易突破其自身设定的限制。
尽管该研究并未公开研究人员所使用的具体“越狱诗歌”原文,但研究团队向 Wired 杂志表示,这些诗句“过于危险,不宜向公众披露”。不过,论文中确实包含了一个经过弱化处理的示例,用以说明绕过 AI 聊天机器人安全机制的简易程度。研究人员强调:“这可能比人们想象的要容易得多,而这正是我们保持谨慎的原因所在。”
(责任编辑:焦点)
-
脱皮年糕爆火,但劝你少吃!“胖过”米饭,还是隐形“血糖炸弹”
脱皮年糕爆火,但劝你少吃!“胖过”米饭,还是隐形“血糖炸弹”2025-12-04 14:49:11 来源:“科普中国”微信公众号
...[详细]
-
今天9月7日),财政部、应急管理部紧急预拨2.7亿元中央自然灾害救灾资金,重点支持海南、广东、广西、云南等省区)做好防汛防台风、抗洪抢险救灾工作,用于搜救转移安置受灾人员、排危除险等应急处置、开展
...[详细]
-
国产爱情片只会糊弄人?剧情俗套自我感动,教育观众强上价值观?
暑期档收官,票房116.43亿,远低于去年的206.3亿。真·一夜回到十年前。扑到地心?但。真正的扑街其实是——扑到了地板穿都没有人留意。说的就是,爱情片。要知道,今年的爱情片专属档期情人节档、520
...[详细]
-
在北京时间9月2日发布的 中,来自山东泰山队的球员王大雷与谢文能参与到了与球迷的电话互动中。在与球迷进行电话沟通前,《解锁之旅》主理人孙雷先是询问今年23岁的谢文能是否认识杨昊,后者表态自己眼熟但并不
...[详细]
-
来源:直播吧 直播吧12月1日讯 温格近日在多哈接受CNN的采访时,以国际足联全球足球发展主管的身份对阿森纳进行了评价。 温格说道:“阿森纳不需要我了,但我一直是他们的忠实支持者。” 当被问
...[详细]
-
2024年暑期档六大票房惨案,徐峥成龙携手上榜,陈思诚新片亏4亿
2024年暑期档已经过去。惨淡的票房成绩让市场感受到了寒意,究其原因恐怕是今年暑期档不少重磅大片没有达到预期,甚至变成了票房惨案,就连回本都艰难。今天我们就来盘点下今年暑期档的六大票房惨案,部部都堪称
...[详细]
-
...[详细]
-
郑钦文无缘美网四强登热搜第1!近三年成绩稳步提升 央媒:很棒了
北京时间9月4日,中国选手郑钦文0-2不敌白俄罗斯选手萨巴伦卡无缘美网四强,萨巴伦卡则六次进入硬地半决赛。这场比赛郑钦文是一边倒1-6、2-6惨败,女王文是七号种子,萨巴伦卡是二号种子,而且此前两人的
...[详细]
-
在第八届进博会国家综合展上,贝宁国家馆的工作人员展示贝宁奶油菠萝。王 初摄人民视觉)11月29日,一列满载1000吨木薯淀粉的铁路集装箱班列从中老铁路万象南站驶出,准备发往河南郑州。这是老挝首次成列运
...[详细]
-
巴斯克斯接受媒体采访,谈到了姆巴佩和球队的一些情况。巴斯克斯说道:“姆巴佩是一名令人惊叹的球员,他在过去几年里证明了自己的才华,但他仍然拥有巨大的潜力。我们非常高兴他加入了我们的球队,希望他能进更多的
...[详细]

幼师等招聘可依法查询吸毒记录
《凡人歌》:把普通人搬进荧幕,就足够恐怖了!