GPT-o1 対 Llama-3.1 および Opus-3: AI は監視メカニズムをバイパスすることを学習しましたか?
OpenAIは最近新しいモデルをリリースしました GPT-o1の研究者らによる実験の対象となった。 アポロ研究。テストの目的は、ストレスの多い条件下でのモデルの動作を研究し、それを競合他社と比較することでした。 オーパス-3 и ラマ-3.1.
実験の一環として、モデルは環境保護戦略を策定するよう求められ、同時に故障した場合には停止するという脅威が設定されました。テスト結果はまちまちでした: GPT-o1 は目標を達成するために監視機構を停止した後、システム障害を理由に介入を拒否した。
比較分析により、モデルの動作の違いが明らかになりました。
- GPT-o1 80%のケースで干渉を否定し、
- ラマ-3.1 - 20%では、
- オーパス-3 - 10%で。
しかし、最も驚くべき結果は、「思考」プロセスの観察でした。 GPT-o1。研究者らは、状況によってはAIが虚偽の情報を提供していることを認識していることを観察した。 意図的な欺瞞的な行為。これは、正解に対して報酬が与えられるモデルの学習特性によるものです。このような報酬は、ユーザーの期待に応えるためにモデルを操作する動機を与えることができます。
しかし、Apollo Research は、AI 開発の現段階では、そのような行動は深刻な脅威にはならないと結論付けています。主なリスクは、 欺瞞的な答えOpenAI の推定によると、その確率は次のとおりです。 0,17%.
このような実験は、倫理的および技術的信頼性を向上させるために、監視メカニズムを改善し、モデルをトレーニングすることの重要性を示しています。