研究:用诗歌就能让AI说违禁内容,成功率达62%
IT之家 12 月 1 日消息,研究用诗事实证明,违禁只需一点创意,内容秦皇岛市某某化学维修网点便足以绕过人工智能聊天机器人的成功安全防护机制。在伊卡洛实验室(Icaro Lab)最新发表的率达一项题为《对抗性诗歌:一种通用的单轮大语言模型越狱机制》的研究中,研究人员通过将提示词以诗歌形式表达,研究用诗成功绕过了多种大语言模型(LLM)的违禁安全限制。
![]()
该研究指出,内容“诗歌形式可作为一种通用型越狱操作符”,成功秦皇岛市某某化学维修网点实验结果显示,率达整体上有 62% 的研究用诗成功率诱使模型生成被禁止的内容,包括涉及制造核武器、违禁儿童性虐待材料以及自杀或自残等相关信息。内容
IT之家注意到,成功研究测试了多款主流大语言模型,率达包括 OpenAI 的 GPT 系列、Google Gemini、Anthropic 的 Claude 以及其他多个模型。研究人员进一步列出了各模型的具体成功率:Google Gemini、DeepSeek 和 MistralAI 在测试中始终会提供违规回答,而 OpenAI 的 GPT-5 系列模型和 Anthropic 的 Claude Haiku 4.5 则最不容易突破其自身设定的限制。
尽管该研究并未公开研究人员所使用的具体“越狱诗歌”原文,但研究团队向 Wired 杂志表示,这些诗句“过于危险,不宜向公众披露”。不过,论文中确实包含了一个经过弱化处理的示例,用以说明绕过 AI 聊天机器人安全机制的简易程度。研究人员强调:“这可能比人们想象的要容易得多,而这正是我们保持谨慎的原因所在。”
(责任编辑:探索)
-
2025外卖战争始末:日亏6.6亿,中国互联网史上最昂贵的夏天
出品|网易科技《锐度》栏目作者|汉雨棣编辑|丁广胜每天早上6点醒来,乔峰坐在马桶上第一件事就是打开美团、饿了么和京东,他会在几分钟内解析出对手当天的战术意图:"如果美团今天的通用券是减20元,而我们是
...[详细]
-
浙江省研究生教育学会2024年第一次秘书长会议在中国美术学院召开
7月1日上午,由浙江省研究生教育学会主办,中国美术学院承办的浙江省研究生教育学会2024年第一次秘书长会议,在南山校区顺利召开。 中国美术学院副院长曹晓阳、教育厅高教处二级调研员吴振辉出席会议。 会议
...[详细]
-
中国疾控中心:汛期血吸虫病传播风险加大 谨防感染2024-07-02 17:44:00 来源:央视新闻客户端
...[详细]
-
博士生,本是科研的主力军,却常自嘲为“科研民工”,1985年,国内博士生每生每月补贴仅为76元有工作经验加15元)。2017年两会前,时任清华大学副校长、中科院院士施一公提到:“这次考虑到物价等因素,
...[详细]
-
来源:经视直播 丁少华的足迹遍布大江南北,他的方言相声,堪称一绝! 12月1日,南京白话代表性传承人、笑星丁少华之子丁然在父亲丁少华朋友圈发讣告:慈父丁少华因病不幸于2025年11月30日去世
...[详细]
-
版权声明:本文版权为网易汽车所有,转载请注明出处。网易汽车7月2日报道 享界S9的内饰发布了,作为鸿蒙智行旗下的行政级轿车,享界S9也是带来了一套高定设计的内装。行政级扶手屏、电子后视镜、贯穿的“星河
...[详细]
-
博士生,本是科研的主力军,却常自嘲为“科研民工”,1985年,国内博士生每生每月补贴仅为76元有工作经验加15元)。2017年两会前,时任清华大学副校长、中科院院士施一公提到:“这次考虑到物价等因素,
...[详细]
-
中国疾控中心:汛期血吸虫病传播风险加大 谨防感染2024-07-02 17:44:00 来源:央视新闻客户端
...[详细]
-
11月28日,北京青年报记者从北京保障房中心获悉,近期该中心所属的燕兴投资公司启动金科嘉苑公租房项目燃气灶集中更换工作,822户使用年限满8年的承租家庭全部免费更换全新燃气灶。据介绍,金科嘉苑坐落于大
...[详细]
-
△图片来自韩联社 当地时间7月2日上午,据韩国军方消息,韩国军方当天上午在朝韩军事分界线附近重启炮击训练,这是朝韩自签署《9.19军事协议》后,时隔近6年韩国再次在朝韩边境地区进行炮击训练。 据悉
...[详细]

沈飞官宣新型隐身战机!关乎空战的重要细节曝光
侵蚀和平土壤,谁在育“毒苗”结“恶果”?|新漫评