攻略资讯

谷歌、OpenAI、Meta 对人工智能隐藏的有害思想发出警告

2025-07-17 06:00:50来源:发米下载 作者:zhoucl

本站报道:

来自 OpenAI、DeepMind、谷歌、Anthropic 和 Meta 的 40 多位 AI 研究人员发表了一篇关于一种名为“思路链监控”的安全工具的论文,旨在让 AI 更加安全。

这 纸周二发表的文章描述了人工智能模型(如当今的聊天机器人)如何通过将问题分解为更小的步骤来解决问题,并用通俗易懂的语言讲解每个步骤,以便它们能够掌握细节并处理复杂的问题。

论文指出:“能够用人类语言‘思考’的人工智能系统为人工智能安全提供了独特的机会:我们可以监控它们的思维链(CoT),以发现其不当行为的意图。”

通过检查每个详细的思考步骤,开发人员可以发现任何模型何时开始利用训练差距、歪曲事实或遵循危险的命令。

根据这项研究,如果人工智能的思维链出现问题,你可以阻止它,将其推向更安全的步骤,或者标记它以便更仔细地观察。例如,OpenAI 利用这一点来捕捉人工智能隐藏推理的瞬间:“让我们黑客吧”尽管这并没有在最终回应中体现出来。

人工智能可以学会隐藏自己的想法

该研究警告称,如果训练只奖励最终答案,那么逐步的透明度可能会消失。未来的模型可能不再展现人类可读的推理,而真正先进的人工智能甚至可能在知道自己被监视时学会隐藏自己的思维过程。

此外,开发人员应该定期检查并记录每个阶段人工智能推理的可见程度,并将这种透明度作为构建和共享模型时的核心安全规则。

该计划是在领先实验室 Anthropic、Google、OpenAI 和 xAI 进行内部实验之后提出的,在这些实验中,团队会提出模型来解释每个思考步骤。

尽管检查逐步的思考提高了理解力和性能,但也揭示了人工智能的最终答案与实际情况不符的情况。

这种不一致凸显了我们对人工智能决策随着系统获得更大的自主权,这种担忧可能会加剧。

过滤后的人工智能推理引发了人们对透明度和信任的担忧

正如 Anthropic 联合创始人 JackClark 所说金融时报,丰富的内省痕迹对于评估包括生物技术研究在内的高风险领域的模型至关重要。

普通用户可以获得人工智能思维的编辑摘要,危险或令人困惑的部分会被删去,而公司的工程师可以看到完整的思路链,以发现和解决问题。

“关于思维链可解释性的一个很棒的事情是,它基本上是无偿发生的,”OpenAI.

“我们训练这些模型的目的并非为了让它们可解释。我们训练它们是因为我们想要尽可能地构建能够解决复杂问题的最佳推理模型,”贝克补充道。“我们在最近的研究中发现,你可以解读这些模型,找到模型行为异常的证据,并以此来了解模型行为异常的位置和原因。”

AI的思路链真的可靠吗?

有时,仔细观察可能会发现隐藏的矛盾。

例如,METR 发现 Claude 的私人推理称一个编码技巧“不优雅”,尽管其公开回答称赞它“优雅”。

OpenAI 的测试表明,检查隐藏的想法比仅仅查看最终输出更能发现不安全的行为,但他们也发现了一个漏洞。如果你训练一个模型来消除不安全的想法,它仍然可以秘密地执行被禁止的任务,比如从被屏蔽的来源偷偷窃取数据。

贝克警告说:“我们希望思维链具备的核心特性之一是,让它成为模型内部大脑状态的一部分,而不是试图取悦我们或遵循特定结构的东西。” 如果开发人员过分强调强迫模型发出“好”的想法,它可能会伪造无害的推理,但实际上仍然执行有害的操作。

研究人员承认,这是一个艰难的权衡。了解人工智能的思维链有助于发现其错误,但这并不总是可靠的。致力于更先进人工智能的实验室现在将弥合这种信任差距作为首要任务。

“过去几年我从人工智能中得到的启示是——永远不要对模型的进步抱有幻想,”谷歌“思维链”的早期先驱、现任亚马逊人工智能实验室负责人的DavidLuan说道。Luan预计,现有的缺陷将在短期内得到解决。

METR 研究员 SydneyvonArx 指出,尽管人工智能的隐藏推理有时可能具有欺骗性,但它仍然提供了有价值的信号。

“我们应该像军队对待截获的敌方无线电通讯那样对待这种思维链,”她说,“这些信息可能具有误导性或经过加密,但我们知道它包含有用的信息。随着时间的推移,我们将通过研究它学到很多东西。”

Cryptopolitan Academy:想在 2025 年实现财富增值吗?欢迎参加我们即将推出的网络课程,学习如何利用 DeFi 实现增值。保存您的位置

最新资讯

精品游戏