一般人工知能(IAG)は、OpenAIやDeepSeekなどの企業にとって技術的な「聖杯」と見なされています。人類にとっての機会として提示されていますが、社会に対する潜在的なリスク、特に制御の喪失の懸念も引き起こしています。最近発表された145ページの文書で、Google DeepMindはこれらのリスクを軽減するためのアプローチを提案し、そのためには計画、準備、積極的な協力が不可欠であると強調しています。
専門家の意見は、IAGが人類に与える可能性のある影響について大きく分かれています。2018年のチューリング賞受賞者であるYoshua Bengio、Geoffrey Hinton、Yann LeCunの立場は、この分裂を象徴しています。Geoffrey Hintonは、Googleでの長年の勤務の後、2023年にその立場を離れ、AIの危険性について自由に発言することを選びました。彼は特に、高度なモデルが情報を誤伝したり、操作したり、人間の制御を逃れたりする能力を懸念しています。同様に、Yoshua Bengioは一時的にIAGの開発を停止することを提唱し、Future of Life Instituteの手紙に共同署名しています。彼らはどちらも強力なガバナンス、公的な監視、重要な閾値を越える前の安全プロトコルを訴えています。
一方で、MetaのChief AI ScientistであるYann LeCunは、より楽観的で技術的な立場を取っています。彼によれば、IAGは依然として遠い目標であり、現在のモデルは強力であるものの、世界の理解も本当のエージェンシーも持っていません。彼はAIの現在の探究的な性質を強調しつつ、研究の継続を支持しており、人類の絶滅や制御の喪失に対する懸念は時期尚早であり、根拠がないと考えています。
しかし、Google DeepMindの共同創設者でIAGの主任科学者であるShane Leggにとっては、制御がない場合、IAGは人類に存在的なリスクをもたらす可能性があります。彼と記事「An Approach to Technical AGI Safety and Security」の共著者たちは、IAGがこの10年の終わりまでに達成されるべきだと考えています。
この文書では、彼らは4つの主要なリスク領域を探ります:
- 悪用: 悪意のある者がIAGを破壊的な目的で利用する場合;
- 不整合: IAGがその創作者の意図に反した行動をとる場合;
- 誤り: IAGが不本意に有害な決定を下す場合;
- 構造的リスク: 多エージェントの動態が予期しない結果を引き起こす場合。
彼らは、最も直接的で緊急の脅威を構成する悪用と不整合のリスク管理に主に焦点を当てています。
リスク予防戦略
悪用を防ぐために、DeepMindは危険な能力へのアクセスを防ぐための一連のセキュリティとアクセス制御措置を提案しています。これらの措置には以下が含まれます:
- 高リスク能力の積極的な特定;
- これらの能力へのアクセスを制限するための厳しい制限の実施;
- 継続的な監視と強化されたモデルの安全戦略。
不整合に関しては、アプローチは二段階の防御に基づいています:
- モデルレベルでのセキュリティ: 人間の意図に沿ったIAGを保証するための監督の強化と高度なトレーニング;
- システムレベルでのセキュリティ: 潜在的に危険な逸脱を検出して修正するための制御と監視メカニズムの導入。
モデルの解釈可能性や不確実性の評価などのツールも、セキュリティ対策の効果を向上させるために推奨されています。
DeepMindのチームは、科学コミュニティが彼らと協力して、IAGの潜在的な利益への安全で管理されたアクセスを保証するための研究を続けることを期待しています。