تسريب يكشف عن الدعوة النظامية الكاملة لـ Claude 3.7 Sonnet

TLDR : كشف تسريب عن النظام الكامل لنموذج الذكاء الاصطناعي Claude 3.7 Sonnet من Anthropic، كاشفاً عن تفاصيل تقنية وسلوكية دقيقة. يثير ذلك تساؤلات حول متانة آليات الأمان التي تحمي التعليمات الداخلية للنموذج وتوازنها بين الأداء، القابلية للتحكم، الشفافية والأمان.

في الأسبوع الماضي، كشف تسريب عن الدعوة النظامية الكاملة لنموذج التفكير الهجين Claude 3.7 Sonnet، الذي قدمته شركة Anthropic في فبراير الماضي. وبطول غير معتاد يصل إلى 24,000 tokens، تصف الدعوة بشكل دقيق السلوكيات المتوقعة للنموذج، والعلامات التي يستخدمها، والأدوات المسموح بها، والموقف الذي يجب تبنيه تجاه المستخدمين.

نظرة نادرة على "أحشاء" الذكاء الاصطناعي

محتوى الدعوة الذي يمكن العثور عليه على GitHub يتجاوز مجرد تكوين تقني بسيط. فهو يوضح إرشادات سلوكية دقيقة: تبني موقف متوازن، تجنب اتخاذ مواقف حول موضوعات حساسة، استخدام تنسيق Markdown لمقتطفات الكود، أو توضيح الأسباب خطوة بخطوة عندما يكون ذلك مناسبًا. كما يحتوي على آليات تصفية وعلامات XML، تهدف إلى تنظيم ردود Claude لاستخدامات محددة.

إذا كان هذا الكشف يظهر الهندسة السلوكية التي تملي ردود أحد أكثر وكلاء المحادثة كفاءة في السوق، فإنه يثير سؤالاً أساسيًا: إذا كانت التعليمات الداخلية لنموذج ما يمكن كشفها وربما التلاعب بها، فما مدى قوة آليات الأمان المفترض أنها تحميها بالفعل؟

Anthropic ورهان الشفافية

منذ تأسيسها في عام 2021 من قبل الأشقاء داريو ودانييلا أمودي، تعزز شركة Anthropic نهجًا يركز على الموثوقية والتوجيهية وقابلية التفسير لأنظمة الذكاء الاصطناعي. وقد قدمت الشركة مفهوم الذكاء الاصطناعي الدستوري، وهو نهج تدريبي يهدف إلى غرس القيم والمبادئ في نماذج الذكاء الاصطناعي، مستوحى بشكل خاص من الإعلان العالمي لحقوق الإنسان.

موقف تُرجم إلى التزام نحو الشفافية: ففي أغسطس 2024، نشرت Anthropic الدعوات النظامية لـ Claude 3 Haiku وClaude 3 Opus وClaude 3.5 Sonnet في واجهات المستخدمين (الويب والجوال). واستمرت هذه المبادرة لـ Claude 3.7 Sonnet، مصحوبة بوثيقة تفصيلية، "Claude 3.7 Sonnet System Card", حيث تعرض ليس فقط القدرات التقنية للنموذج، ولكن أيضًا طرق التقييم وآليات الأمان وبروتوكولات الحد من المخاطر لـ Claude 3.7 Sonnet.

يتم وصف النموذج هناك كشريك محادثة "ذكي ولطيف"، قادر على المبادرات الخطابية، والتفكير المستقل، بل وحتى الافتراضات الذاتية في بعض السياقات الفلسفية. ومع ذلك، كما يوضح داريو أمودي في منشور مدونة بعنوان "الحاجة الملحة للتفسير", فإن الفهم الدقيق للآليات الداخلية لهذه النماذج لا يزال تحديًا كبيرًا. الشفافية المعلنة لا تخفي غموض العمليات التي تحكمها.

الانفتاح والأمان: توازن معقد

يظهر هذا التسريب توتراً متزايداً في تطوير نماذج الذكاء الاصطناعي: كيف يمكن الجمع بين الأداء، القابلية للتحكم، والشفافية دون الإضرار بصلابة الأنظمة؟ إظهار الهياكل التي تحكم سلوك وكيل يمكن أن يسمح بتدقيق خارجي، بل وحتى نقاش حول الخيارات الأخلاقية التي اتخذت مسبقًا، ولكن كيف يمكن الحفاظ على سلامة هذه الأنظمة عندما تكون أساساتها مكشوفة؟

بينما تصبح LLMs الواجهات الرئيسية للوصول إلى المعلومات والعمل في العديد من القطاعات، لم تعد المسألة تقنية فقط بل سياسية وأخلاقية واستراتيجية.

ترجمة من Une fuite divulguerait l'intégralité de l'invite système de Claude 3.7 Sonnet

لتحسين الفهم

ما هي الذكاء الاصطناعي الدستوري وكيف يؤثر على نماذج الذكاء الاصطناعي مثل Claude 3.7 Sonnet؟

الذكاء الاصطناعي الدستوري هو نهج يهدف إلى دمج القيم والمبادئ المستوحاة من مستندات مثل الإعلان العالمي لحقوق الإنسان في تدريب نماذج الذكاء الاصطناعي. هذه الطريقة تؤثر في نماذج مثل Claude 3.7 Sonnet من خلال توجيهها نحو سلوكيات تعكس هذه القيم، مثل الموثوقية والقابلية للتفسير، أثناء معالجة المخاوف الأخلاقية.

ما هي التبعات التنظيمية لزيادة الشفافية في الأوامر النظامية مثل تلك المستخدمة في Claude 3.7 Sonnet؟

زيادة الشفافية في الأوامر النظامية، مثل تلك الخاصة بـ Claude 3.7 Sonnet، تثير قضايا تتعلق بحماية البيانات وخصوصية المستخدم. قد يطلب المنظمون معايير أعلى لضمان عدم تعرض المعلومات الحساسة للخطر، مع تحقيق توازن مع الحاجة إلى الشفافية لأغراض التدقيق وتحسين نماذج الذكاء الاصطناعي.