このアプローチと以前のアプローチの違いは、DeepMind が「安全のために長期的な対話」を使用することを望んでいるということです、と DeepMind の安全研究者である Geoffrey Irving は言います。
「つまり、私たちがこれらのモデルで直面している問題 (誤った情報やステレオタイプなど) が一目瞭然だとは思わず、それらについて詳しく説明したいと考えています。 そして、それは機械と人間の間でも同じことを意味します」と彼は言います。
人間の好みを利用して AI モデルの学習方法を最適化するという DeepMind のアイデアは新しいものではないと、非営利の AI 研究所である Cohere for AI を率いる Sara Hooker は述べています。
「しかし、この改善は説得力があり、大規模な言語モデル環境での対話エージェントの人間主導の最適化に明確な利点があることを示しています」とフッカーは言います。
AIスタートアップHugging Faceの研究者であるDouwe Kielaは、Sparrowは「大規模言語モデル展開の安全面をより真剣に改善しようとしているAIの一般的な傾向に従う素晴らしい次のステップです」と述べています。
しかし、これらの会話型 AI モデルを実際に展開する前に、やるべきことがたくさんあります。
スズメはまだ間違いを犯します。 モデルが話題から外れたり、でたらめな答えを作ったりすることがあります。 熱心な参加者は、8% の確率でモデルをルールに違反させることもできました。 (これは古いモデルよりも改善されています。DeepMind の以前のモデルは、Sparrow の 3 倍の頻度でルールを破っていました。)
「医療や経済的なアドバイスを提供するなど、エージェントが回答すると人的被害が大きくなる可能性がある分野では、これは受け入れられないほど高い失敗率のように感じるかもしれません」とフッカーは言います。 、「私たちはテクノロジーが安全かつ責任を持ってさまざまな言語に対応しなければならない世界に住んでいます」と彼女は付け加えます。
また、Kiela 氏は別の問題を指摘しています。