研究:用诗歌就能让AI说违禁内容,成功率达62%
IT之家 12 月 1 日消息,研究用诗事实证明,违禁只需一点创意,内容河池市某某电梯制造厂便足以绕过人工智能聊天机器人的成功安全防护机制。在伊卡洛实验室(Icaro Lab)最新发表的率达一项题为《对抗性诗歌:一种通用的单轮大语言模型越狱机制》的研究中,研究人员通过将提示词以诗歌形式表达,研究用诗成功绕过了多种大语言模型(LLM)的违禁安全限制。
![]()
该研究指出,内容“诗歌形式可作为一种通用型越狱操作符”,成功河池市某某电梯制造厂实验结果显示,率达整体上有 62% 的研究用诗成功率诱使模型生成被禁止的内容,包括涉及制造核武器、违禁儿童性虐待材料以及自杀或自残等相关信息。内容
IT之家注意到,成功研究测试了多款主流大语言模型,率达包括 OpenAI 的 GPT 系列、Google Gemini、Anthropic 的 Claude 以及其他多个模型。研究人员进一步列出了各模型的具体成功率:Google Gemini、DeepSeek 和 MistralAI 在测试中始终会提供违规回答,而 OpenAI 的 GPT-5 系列模型和 Anthropic 的 Claude Haiku 4.5 则最不容易突破其自身设定的限制。
尽管该研究并未公开研究人员所使用的具体“越狱诗歌”原文,但研究团队向 Wired 杂志表示,这些诗句“过于危险,不宜向公众披露”。不过,论文中确实包含了一个经过弱化处理的示例,用以说明绕过 AI 聊天机器人安全机制的简易程度。研究人员强调:“这可能比人们想象的要容易得多,而这正是我们保持谨慎的原因所在。”
(责任编辑:热点)
-
本文转自:人民网-北京频道人民网北京11月28日电 记者尹星云)11月27日,北京市文化和旅游局举办“2025—2026京张冰雪文化旅游季”启动仪式。本次活动旨在集中展示京张两地冰雪旅游高质量发展的最
...[详细]
-
中新经纬5月7日电 万可义)近期,31省份2024年经济“一季报”已陆续出炉。GDP总量方面,广东、江苏进入“3万亿俱乐部”;增速方面,16省份高于“全国线”,吉林势头最猛,增速达到6.5%。
...[详细]
-
哈马斯同意的停火协议草案内容曝光:分三阶段执行,每个阶段持续42天
据央视新闻,当地时间5月6日,据半岛电视台披露,由埃及、卡塔尔等斡旋方提出、并得到巴勒斯坦伊斯兰抵抗运动哈马斯)同意的加沙地带停火协议草案,将分三阶段执行。每个阶段持续42天。 第一阶段,冲突双
...[详细]
-
@央视网体育 5月7日消息,日前,央视主持人康辉在节目中透露,受到巴黎奥组委的邀请,他将在今年7月作为火炬手,再次来到巴黎,传递火炬。
...[详细]
-
来源:封面新闻 [#赵薇关联公司被限高# 涉案金额9801元]#赵薇持股公司成老赖# 企查查APP显示,近日,赵薇持股4.51%的合宝文娱集团有限公司及其法定代表人赵智被限制高消费,涉案金额98
...[详细]
-
@央视网体育 5月7日消息,日前,央视主持人康辉在节目中透露,受到巴黎奥组委的邀请,他将在今年7月作为火炬手,再次来到巴黎,传递火炬。
...[详细]
-
煤炭科学研究总院出版传媒集团成立于2015年旗下有20种期刊,出版传媒集团以“打造品牌、争创一流、做优名刊”为指导思想,以“统一管理、原位运营、分步实现”为运营思路,与各期刊主办单位一起齐抓共管
...[详细]
-
上半年全球电影市场一般都是波澜不惊。如果最近非要找一部充满娱乐精神的电影,那么《破墓》算是不错的选择。《破墓》自2月于韩国上映,商业表现颇为亮眼,成了韩国本年度首部观影人次突破千万的大卖之作。考虑到本
...[详细]
-
【#大使馆通报仝卓表弟已获救#】在中柬双方共同努力下,11月26日,在柬失联的中国公民李某某成功获救并抵达中国驻柬使馆。驻柬使馆已为其办理回国证件,并协调柬方为其办理回国手续。中国驻柬使馆再次提醒
...[详细]
-
世界首例自体再生胰岛移植成功,25年糖尿病病史患者被治愈2024-05-07 14:52:02 来源:澎湃新闻
...[详细]

“夜游”新场景 激发“假日经济”新活力
多地文旅市场持续火热 假日里的中国活力满满