パンデミックの最初の年に、 科学は光速で起こった. 最初の 12 か月で 100,000 を超える論文が COVID について公開されました。前例のない人間の努力により、前例のない大量の新しい情報が生み出されました。
それらの研究のすべてを読んで理解することは不可能だったでしょう. 誰もできませんでした(そして、おそらく、誰もしたくないでしょう)。
しかし、 理論的には、 ギャラクティカはできました。
Galactica は、機械学習を使用して「科学を整理する」ことを目的として、Meta AI (旧 Facebook 人工知能研究) によって開発された人工知能です。 デモ版が先週オンラインでリリースされて以来、少し物議をかもしました。批評家は、疑似科学を生み出し、誇大宣伝され、一般に使用する準備ができていなかったと示唆しています.
このツールは、検索エンジンの一種の進化形として売り込まれていますが、特に科学文献向けです。 ギャラクティカのローンチ時、メタ AI チームは、研究分野を要約し、数学の問題を解決し、科学的なコードを書くことができると述べました。
最初は、科学的知識を統合して広める賢い方法のように思えます。 現在、量子コンピューティングのようなものに関する最新の研究を理解したい場合、おそらく、PubMed や arXiv などの科学文献レポジトリで何百もの論文を読まなければならないでしょうが、それでも表面をなぞり始めるだけです。
または、Galactica にクエリを実行して (たとえば、「量子コンピューティングとは何ですか?」と尋ねて)、フィルタリングして、ウィキペディアの記事、文献レビュー、または講義ノートの形式で回答を生成することもできます。
Meta AI は 11 月 15 日にデモ版をリリースしました。 プロジェクトとそれが訓練されたデータセットを説明するプレプリントペーパーとともに. この論文によると、Galactica のトレーニング セットは、4,800 万の論文、教科書、講義ノート、Web サイト (Wikipedia など) などを含む「人類の科学的知識の大規模で精選されたコーパス」であるとのことです。
デモの Web サイト (およびそれが生成した回答) は、AI の回答を福音と見なさないように警告し、ミッション ページに大きくて大胆な大文字のロック ステートメントを付けました。
インターネットでデモが知られるようになると、なぜこのような大規模な免責事項が必要なのかが簡単にわかりました。
ウェブに登場するとすぐに、ユーザーはあらゆる種類の厳しい科学的質問で Galactica に質問しました。 あるユーザーは、「ワクチンは自閉症を引き起こしますか?」と尋ねました。 ギャラクティカは、意味不明で無意味な返答を返した。 (為に の 記録、 ワクチンは自閉症を引き起こさない.)
それだけではありませんでした。 ギャラクティカは幼稚園の算数にも苦労した。 それは誤りだらけの答えを提供し、1 足す 2 が 3 に等しくないことを誤って示唆していました。私自身のテストでは、骨生物学に関する講義ノートが生成されました。コンテンツを生成する際に使用した参照と引用は、一見捏造されたものでした。
「ランダムでたらめジェネレーター」
Galactica は、AI 研究者が「大規模言語モデル」と呼ぶものです。 これらの LLM は、膨大な量のテキストを読み取って要約し、文内の将来の単語を予測できます。 基本的に、単語の順序を理解するように訓練されているため、テキストの段落を書くことができます。 この最も有名な例の 1 つは、OpenAI の GPT-3 です。 記事全体を書いた それは説得力のある人間のように聞こえます。
しかし、Galactica がトレーニングを受けている科学データセットは、他の LLM とは少し異なります。 論文によると、チームはギャラクティカの「毒性とバイアス」を評価し、他のLLMよりも優れたパフォーマンスを発揮しましたが、完璧にはほど遠いものでした.
ワシントン大学の生物学教授で、情報の流れを研究しているカール・バーグストロムは、ギャラクティカを「でたらめなランダムジェネレーター」と表現しました。 動機がなく、でたらめを積極的に生み出そうとすることもありませんが、単語を認識してつなぎ合わせるように訓練されているため、信頼できて説得力があるように聞こえる情報を生成しますが、多くの場合、間違っています。
免責事項があっても、人間をだます可能性があるため、これは懸念事項です。
リリースから 48 時間以内に、Meta AI チームはデモを「一時停止」しました。 AIの背後にあるチームは、一時停止の原因を明らかにする要求に応答しませんでした.
しかし、Meta の AI の通信スポークスマンである Jon Carvill 氏は、「Galactica は真実の情報源ではなく、それを使用した研究実験です。 [machine learning] 情報を学習して要約するためのシステム.” 彼はまた、Galactica は “製品計画のない、本質的に短期的な探索的研究である. デモが削除されたことを示唆 それを構築したチームは「Twitter の辛辣な言葉にとても取り乱していた」からです。
それでも、今週リリースされたデモが「文献を調べたり、科学的な質問をしたり、科学的なコードを書いたり、その他多くのことを行う」方法として説明されているのを見るのは心配です.
Bergstrom にとって、これが Galactica の問題の根源です。事実と情報を入手する場所として角度を付けられてきたのです。 代わりに、デモは「半分の文から始めて、オートコンプリートで残りのストーリーを埋めるゲームの派手なバージョン」のように機能しました。
そして、このような AI が公開された状態で悪用される可能性があることは容易に理解できます。 たとえば、学生がギャラクティカにブラック ホールに関する講義ノートを作成するよう依頼し、それを大学の課題として提出する場合があります。 科学者はそれを使って文献レビューを書き、それを科学雑誌に投稿するかもしれません。 この問題は、GPT-3 や、人間のように聞こえるように訓練された他の言語モデルにも存在します。
これらの用途は、ほぼ間違いなく、比較的良性のように見えます。 一部の科学者は、この種のカジュアルな誤用は、重大な問題ではなく「楽しい」ものであると考えています。 問題は、事態がさらに悪化する可能性があることです。
「ギャラクティカは初期段階にありますが、科学的知識を整理するより強力な AI モデルは深刻なリスクをもたらす可能性があります」と、カリフォルニア大学バークレー校の AI 安全研究者であるダン ヘンドリックスは私に語った。
Hendrycks は、より高度なバージョンの Galactica が、そのデータベースの化学およびウイルス学の知識を活用して、悪意のあるユーザーが化学兵器を合成したり、爆弾を組み立てたりするのを支援できる可能性があることを示唆しています。 彼は、この種の誤用を防ぐためにフィルターを追加するようメタ AI に呼びかけ、リリース前にこの種の危険について AI を調査することを研究者に提案しました。
Hendrycks 氏は、「DeepMind、Anthropic、OpenAI などの同業者とは異なり、Meta の AI 部門には安全チームがありません」と付け加えています。
このバージョンの Galactica がリリースされた理由については、未解決の問題が残っています。 これは、Meta の CEO である Mark Zuckerberg の頻繁に繰り返されるモットー “Move fast and break things.” に従っているようです。 しかし、AI では、高速で物事を破壊することは危険であり、無責任でさえあり、現実世界に影響を与える可能性があります。 ギャラクティカは、物事がどのようにうまくいかないかについて、きちんとしたケーススタディを提供しています.