Claude 3.7 Sonnet 系统提示的完整泄露

Claude 3.7 Sonnet 系统提示的完整泄露

TLDR : 一项泄露事件揭示了 Anthropic 的 Claude 3.7 Sonnet AI 模型的完整系统提示,暴露了准确的技术和行为细节。这引发了关于保护模型内部指令的安全机制的稳健性,以及在性能、可控性、透明度和安全之间的平衡问题。

上周,一次泄露事件揭示了由Anthropic于今年二月推出的混合推理模型 Claude 3.7 Sonnet 的完整系统提示。该提示长达 24000 个 token,详细描述了模型预期的行为、使用的标签、授权工具以及面对用户时应采取的姿态。

对 AI "内脏" 的罕见一瞥

该提示的内容可以在 GitHub 上找到,它不仅仅是一个简单的技术配置。它详细说明了具体的行为准则:采取谨慎的态度,避免在敏感问题上选边站,使用 Markdown 格式编写代码片段,或在适当时逐步解释其推理过程。它还包含过滤机制和 XML 标签,用于组织 Claude 的回复以满足特定的使用场景。
虽然这一曝光揭示了影响市场上最强大的对话代理之一的行为工程,但它也提出了一个核心问题:如果模型的内部指令可以被曝光和潜在地操控,那么那些应该保护它们的安全机制到底有多强大?

Anthropic 和透明度的赌注

自 2021 年由兄妹 Dario 和 Daniela Amodei 创立以来,Anthropic 一直倡导以可靠性、可定向性和可解释性为中心的 AI 系统方法。公司引入了宪法 AI 的概念,这是一种训练方法,旨在向 AI 模型灌输价值观和原则,灵感来源于《世界人权宣言》。
这种定位体现为对透明度的承诺:在 2024 年 8 月,Anthropic 在其用户界面(网页和移动端)中发布了 Claude 3 Haiku、Claude 3 Opus 和 Claude 3.5 Sonnet 的系统提示。这一举措在 Claude 3.7 Sonnet 上得以延续,并附有一份详细的文档 "Claude 3.7 Sonnet System Card",其中不仅展示了模型的技术能力,还有评估方法、安全机制以及风险降低协议。
该模型被描述为一个“智能且友好”的对话伙伴,能够在某些哲学背景下进行自主推理甚至主观假设。然而,正如 Dario Amodei 在题为 "理解的紧迫性" 的博客文章中指出的那样,对这些模型内部机制的细致理解仍然是一个重大挑战。表面的透明性并不能掩盖驱动它们的过程的不透明性。

开放与安全:复杂的平衡

这次泄露说明了 AI 模型开发中日益增长的紧张关系:如何在不损害系统稳健性的情况下结合性能、可控性和透明性?使得管理代理行为的结构可见可以允许外部审核,甚至是对先前做出的伦理选择进行辩论,但在这些系统基础被曝光时如何保护其完整性呢?
随着 LLMs 成为众多行业获取信息和采取行动的主要界面,这个问题不再仅仅是技术性问题,而是政治、伦理和战略性的问题。

Pour mieux comprendre

什么是宪法人工智能,它如何影响像Claude 3.7 Sonnet这样的人工智能模型?

宪法人工智能是一种将受《世界人权宣言》等文件启发的价值观和原则整合到人工智能模型训练中的方法。这种方法影响像Claude 3.7 Sonnet这样的模型,引导它们表现出这些价值观,如可靠性和可解释性,同时解决伦理问题。

像Claude 3.7 Sonnet那样的系统提示中增加透明度的监管影响是什么?

系统提示中增加的透明度,如Claude 3.7 Sonnet的提示,提出了有关数据保护和用户隐私的问题。监管者可能需要更高的标准以确保敏感信息不被泄露,同时平衡透明度需求,以便进行审计和改善AI模型。