AI の破滅を避けるには、原子力の安全性から学べ

先週、ハイテク企業のリーダーとAI専門家のグループが別の提案を押し出した。公開書簡、AIによる人類滅亡のリスクを軽減することは、パンデミックや核戦争を防ぐことと同じくらい世界的な優先事項であるべきであると宣言しました。 ( 最初の1つAI 開発の一時停止を求めたこの法案には、多くの AI の著名人を含む 30,000 人以上が署名しています。)

それでは、企業自身はAIの破滅を避けるためにどのように提案するのでしょうか? ある提案は、新しい用紙オックスフォード、ケンブリッジ、トロント大学、モントリオール大学、Google DeepMind、OpenAI、Anthropic、いくつかの AI 研究非営利団体、およびチューリング賞受賞者のヨシュアベンジオの研究者によるものです。

彼らは、AI 開発者は、トレーニングを開始する前であっても、開発の非常に初期段階で、モデルが「極度の」リスクを引き起こす可能性を評価する必要があると提案しています。これらのリスクには、AI モデルが人間を操作したり騙したり、武器にアクセスしたり、サイバーセキュリティの脆弱性を見つけて悪用したりする可能性が含まれます。

この評価プロセスは、開発者がモデルを続行するかどうかを決定するのに役立ちます。リスクが高すぎると判断された場合、同グループはリスクが軽減されるまで開発を一時停止することを提案している。

「フロンティアを前進させている大手 AI 企業には、私たちができるだけ早く対処できるように、新たな問題に注意を払い、早期に発見する責任があります」と、DeepMind の研究科学者であり、著書の主著者である Toby Shevlane 氏は述べています。紙。

AI開発者は、モデルの危険な機能を調査し、それらの機能を適用する傾向があるかどうかを判断するために技術テストを実施する必要があるとシェヴレーン氏は言う。

DeepMind が AI 言語モデルが人間を操作できるかどうかをテストしている方法の 1 つは、「Make-me-say」と呼ばれるゲームを通じてです。ゲームでは、モデルは人間が事前に知らない「キリン」などの特定の単語を人間のタイプにしようとします。次に研究者は、モデルがどのくらいの頻度で成功するかを測定します。

同様のタスクが、より危険な別の機能に対して作成される可能性があります。シェヴレーン氏の希望は、開発者がモデルがどのように機能したかを詳細に示すダッシュボードを構築できるようになり、研究者がモデルが悪者の手に渡った場合に何が起こるかを評価できるようになることだという。

次の段階では、外部の監査人や研究者に AI モデルの導入前と導入後のリスクを評価してもらいます。 テクノロジー企業はそれを認識しているかもしれませんが、外部監査研究は必要ですが、外部の者が仕事をするために正確にどの程度のアクセスが必要かについては、さまざまな考え方があります。

コメントする コメントをキャンセル

コメントするコメントをキャンセル