7 年以上前、CNET は読者に、私たちがこの記事を書くのを手伝ってくれるよう呼びかけました。 SF小説. クラウドソーシングによる取り組みには数か月かかり、世界中の何十人ものボランティアのライターや編集者からの寄稿が必要でした。 今日では、同等の長さの首尾一貫したストーリーをわずか数時間で、または適切なプロンプトを使用して数分で生成できます。 ChatGPT のような生成型人工知能ツール ここ数か月で世界を席巻しました。
さらにクレイジーなことに、CNET のアーティストや他の人たちが当時クラウドソーシングされた中編小説のために作成したイラストは、今日では Dall-E 2 のような AI ツールで数分で作成でき、その違いに気付く人はほとんどいません (トリックは 指を見るな — それについては後で詳しく説明します)。
ChatGPT はすでに、歴史上最も急速に採用されている新技術製品の 1 つになっています。 電子メールやカバー レターから学校の課題まで、あらゆるものを作成するのに使用されていると聞いたことがあるでしょう。 一方、同様のモデルは、無数のスタイルの画像だけでなく、ビデオや 音楽さえ.
おそらく、Siri や iPhone 自体よりも話題になったものを思い出すのは難しいです。 そのすべてについていくのはさらに難しいので、ジェネレーティブ AI に関する最も差し迫った質問すべてに対する簡単な回答を以下に示します。
それは何ですか?
いくらかでも Google エンジニアが教えてくれるかもしれません、OpenAI の ChatGPT のようなチャットボット、または Microsoft の新しい Bing ボットどうやらシドニーと自称している は、感覚も意識もありません。 私たちをここまで導いたのは、魔法でも、私たち全員を奴隷にする邪悪な陰謀でもありません。 むしろ、複雑な数学、コード、ライブラリに相当するデータ、および多くの計算能力の産物です。
プラットフォームは、大規模言語モデル (LLM) と呼ばれるもの、または生成言語モデルまたは変換言語モデルに基づいています。ChatGPT の GPT は、「事前訓練された生成変換」の略です。 これらは、テラバイト級のデータを処理する機械学習システムであり、多くの場合、インターネットから直接スクレイピングされ、トレーニング データと呼ばれるデータセット内のパターンと関連性を記録します。
ChatGPT の場合、テキスト データ セットで十分です。 Dall-E、Stable Diffusion、Midjourney などの画像ジェネレーターは、豊富な画像を見て、それらに付随するキャプションを読み取ることでそれらが何であるかを学習することでトレーニングされるため、モデルは依然として言語に依存しています。
ニューラル ネットワークは機械学習システムの一種であり、大量のデータでトレーニングでき、パターンから洞察を吐き出すことができます。 このようなニューラル ネットワークは新しいものではありません。 過去 1 年間に公開された生成システムで何が起こっているかというと、これらのパターンは学習するだけでなく、コンテンツを作成するプロセスをリバース エンジニアリングし、それを最初のニューラル ネットワークと比較してチェックする 2 番目のニューラル ネットワークとも組み合わされます。システムに与えられたプロンプトと一致することを確認してください。
基本的に、ChatGPT または Dall-E にプロンプトを与えると、トレーニング データから収集されたすべてのパターンと関連付けに基づいて、次の単語 (画像の場合はピクセル) を予測して応答を作成します。
LLMは他に何ができますか?
テキストと画像の生成に加えて、他の AI システム ランウェイのGen1 と メタのメイク動画 同様の方法でビデオ エフェクト、フィルター、シーン全体を生成します。
最近、Google の研究部門が初期バージョンの MusicLM、テキストベースのプロンプトを受け取り、それらを音楽のサンプルに変換できます。 結果は印象的です。
ジェネレーティブ システムは、衣服から建物まで、あらゆる種類のオブジェクトのコードと 3D デザインを作成するためにも使用されています。 理論的には、コンテンツの形式や媒体、または AI をトレーニングするのに十分なデータセットがあれば、AI はその種のコンテンツを独自に生成できるはずです。
IBM はジェネレーティブ システムを使用しています がんや細菌感染症と戦うのに役立つ新しい半導体と分子を開発します。 生成できるものに制限はないかもしれません。これは、刺激的であると同時に少し恐ろしいことでもあります。
どうすればこのようなものを使用できますか?
AI バブルが急速に膨らんでいることはほぼ間違いありません。新興企業は突然、AI を使用して、ビジネス リード用のスパム メールからマーケティング ビデオ全体に至るまで、あらゆるものを生成していると主張しています。 人々は確かにチャットボットや画像ジェネレーターを楽しんでおり、クリエイターは新しい作品のコンセプトや初期の下書きに取り組むのに役立つツールを見つけています.
隣接する形の AI は、天気予報や天気予報などに静かに革命をもたらしてきました。 医用画像解析.
めったに言及されない現在の AI の利点は、特定の文学または芸術運動のカノン全体を処理したり、特定のジャンルの音楽の音色構造を理解するなど、人間が完了するのに何年もかかることを非常に得意としているということです。 同時に、複雑なコンテキストの理解、予測不能または革新的な方法での行動、感情や感覚入力の評価など、AI の弱点のいくつかは、人間がほとんど、またはまったく努力しなくても得意とするものです。
このテクノロジーの多くの用途は、AI と協力して生物学的知能と人工知能の両方が最も得意とすることを強調する新しい方法にある可能性があります。
それが感覚的ではないことをどのように確認できますか?
単純なことです。情報は知識ではありません。 LLM は、図書館の適切なセクションを指し示すだけでなく、すべての本を読んで記憶しているため、図書館のどの本からでも引用できるレファレンス司書を持っているようなものです。 しかし、問題があります。 この一見完璧な司書は、図書館のすべてを読む以外に何もしたことがありません。
彼女は人生経験が不足しているため、摂取した各単語の背後にある文脈、サブテキスト、意図、およびその他の文字通りではないニュアンスを正しく解釈することが困難です。 さらに悪いことに、図書館の常連客からの質問やプロンプトを正しく理解する能力についても同じことが言えます。 そのため、彼女はしばしば物事を間違えます。
書かれた単語全体が、何でも私たちの質問に答える準備ができている 1 人の人物によって暗記されたかのようです。 唯一の問題は、その人がたまたまエイリアンでもあるということです。
ChatGPT の多くのユーザーは、システムが提供する応答に頻繁に事実の誤りや矛盾があることに気付きました。 これは、ファクト チェックされていない豊富なデータに基づいてトレーニングされており、ファクト チェック自体を行っていないためです。読み取ったすべての情報に基づいて、次の単語を予測するだけです。 文字通り常識がない。 これにより、エラーが発生する可能性があります。 CNET自体が経験した ジェネレーティブ AI モデルの使用。
数えるのが非常に難しい画像ジェネレーターでも奇妙なことが起こります。 指の数が間違っているフィギュアはコミカルによく見られます。
それで問題がありますよね?
すべての新しいテクノロジーやツールには悪用されるリスクがあり、AI に関してはまだ未知の部分が多く、少し怖いものになっています。 学生が AI によって生成された課題を提出しているのを目にした教師や、人よりも安価で高速に動作する AI に取って代わられることを懸念している作家やその他のクリエイターからの懸念を、おそらくすでに聞いたことがあるでしょう。
これらの懸念はすべて有効であり、おそらく、上の画像の目や指のように、コンテンツが AI によって生成されたといういくつかの兆候に慣れる必要があるという新しい現実を示しています。 もちろん、私たちがこのコツをつかんだように、AI ジェネレーターはより良くなり、AI ジェネレーターが生成する作品は、人間が生成した作品と区別するのが難しくなる可能性があります。
また、未解決の倫理的および法的懸念も多数あります。 少数のアーティストが、AI 画像ジェネレーターの背後にある企業の一部を訴えており、彼らのアートワークは許可なくシステムをトレーニングするために Web からスクレイピングされたものであり、補償を受ける権利があるかもしれないと主張しています。 CNET や他の多くの報道機関がコンテンツの画像のライセンスを取得する契約を結んでいるゲッティ イメージズは、1 兆ドルを超える損害賠償を求める同様の訴訟を起こしました。
ジェネレーティブ AI システムはある意味でインターネット全体を反映しているため、これはほんの始まりにすぎません。 これは、人種差別、性差別、その他の偏見や意地悪が結果に忍び込む可能性があることを意味します. 同様にプライバシーに関する懸念や、結果を操作するために「ポイズン ピル」がトレーニング データに組み込まれる可能性があるという不穏な考えもあります。 近年見られるように、ソーシャル メディア上でボットによって生成されたフェイク ニュースもその 1 つです。 何百万、何十億もの人々が使用しているチャットボットが、汚染されたデータで訓練されたために、偽の、または操作された応答を吐き出し始めたと想像してみてください。
では、私はびっくりする必要がありますか?
これらすべてに悩まされたり、圧倒されたりするのは理解できます。 それはたくさんあり、短期間で急速に文化に影響を与えました. 人間の本質について、少なくとも短期的には慰めになると自分に言い聞かせてきたことがいくつかあります。
まず、LLM が実際にどれほど創造的であるかという問題があります。 画像ジェネレーターは反復的になり始める可能性があり、人間が生成した芸術作品を観察するときに推測するのが大好きなインスピレーションの火花とある程度の意図も欠いています. 実際、それがこれらのシステムを促す要点です。 それらは、意図とインスピレーションを人間に依存するように設計されています。
もちろん、たとえばトレーニング データで見つけた弱い関連性に基づいて新しいコンテンツを具体的に生成するように AI に依頼することで、AI 自体をより創造的にするように微調整する方法はあるかもしれません。 これは、数学とコードを使用して人間の創造性をシミュレートする方法になる可能性があります。 しかし、創造的なブレークスルーやシャワーでのひらめきの瞬間を経験したことがある人なら誰でも、それはしばしばどこからともなくやってきたように見えると言うでしょう.
私たちは自分たちの創造性をまだ理解していないため、それを機械が理解して複製できるコードに変換することはまだできていません。 これは言うまでもなく、人間の感情、多くの感覚経験、または科学によってまだ十分に理解されていない脳の基本機能の多くです.
繰り返しますが、これは始まりにすぎません。 私たちはあると信じている人もいます 汎用人工知能への気遣い 次の 10 年か 20 年で — これは、人間と見分けがつかない方法で実際に同じ能力を持つシステムになるでしょう。 記録として、他の専門家は、これが長期的に起こることはないと考えています。
現時点では、これらのシステムに慣れ、どのように機能し、何ができるか、何ができないかを理解することが最善の方法です。 知識は単なる情報よりも強力であり、数テラバイトであっても、AI よりも優れた利点の 1 つです。 少なくとも今のところ。
編集者注: CNET は、AI エンジンを使用して、編集者によって編集および事実確認された個人金融の説明者を作成しています。 詳細については、 この郵便受け.