GPT-3 から VALL-E まで知っておくべきジェネレーティブ AI

ブロックには新しい AI があり、誰かが話している短いオーディオクリップからその人の声を模倣することができます。現在、画像と言葉の両方を含むものを生成できる奇抜な AI がたくさんあるように聞こえる場合は、その通りです。混乱を招く可能性があるため、クイックガイドを作成しました。ここでは、過去 12 か月間に出現した最も顕著な AI をいくつか紹介します。

VALL-E

最新の参入者、 VALL-E はマイクロソフトの研究者による新しい AI です 3 秒間のシードクリップから誰かの声の完全なモデルを生成できます。そうだった 60,000時間以上のトレーニング 7,000 人以上の話者からの英語のスピーチと、シードクリップの内容を個別のコンポーネントに変換することによって動作します。トークン化、テキストをトークンと呼ばれる小さな単位に分解します。次に、AI のニューラルネットワークは、短いクリップからのいくつかのトークンに基づいて、完全なモデルを作成するために必要な他のトークンがどのように聞こえるかを推測します。結果 – あなたはでチェックアウトすることができます VALL-E ウェブサイト—かなり驚くべきことです。

VALL-E のような AI モデルのディープフェイクが明らかに使用されているため、Microsoft はそれを公開していません。 (マイクロソフトは以前に投資した DALL-E および ChatGPT 所有者の OpenAI であり、また伝えられるところによると交渉中さらに数十億ドルを投資する必要があります。) それでも、これらのジェネレーティブ AI が最小のシードでも可能な種類のことを示しています。

ダルイー2

OpenAI の DALL-E 2 は、最新の AI ブームの火付け役となったと言っても過言ではありません去年の4月に発表されたとき. 現実的なものが必要か、完全にそこにあるかに関係なく、テキストプロンプトからオリジナルの画像を作成できます. アウトペインティングと呼ばれる技法を使用して、既存のアートワークの境界を拡張することもできます。

DALL-E 2 の最大の利点は、誰でも無料で試用できることです。最初の 1 か月で、1 つのテキストプロンプトから 4 つの画像バリエーションを生成できる 50 クレジットを取得します。その後は、1 か月あたり 15 個の無料クレジットを取得できます。

安定拡散

OpenAIがDALL-E 2へのアクセスを制御しながら、スタビリティAI は、画像生成ツールである Stable Diffusion で別のアプローチを取り、オープンソースにしました。誰でもStable Diffusionをダウンロードでき、信じられないほどリアルな画像を作成するを使った想像力豊かな作品かなり強力なラップトップ.

Stable Diffusion はオープンソースであるため、他の企業も Stable Diffusion を使用してジェネレーティブ AI ツールを立ち上げています。ここでの最大の名前は、Lensa’s Magic Avatars です。スマートフォンアプリを使用すると、10 ～ 20 枚の写真をアップロードして、カスタムの Stable Diffusion モデルをトレーニングし、数十の風変わりな芸術的アバターを生成することができます。

途中

画像生成のもう 1 つのビッグネームは、途中、まだベータ版であり、 Discordチャンネルからアクセス可能. そのアルゴリズムは過去1年間で大幅に改善されました. 個人的には、現在のモデルであるバージョン 4 で作成された画像は、他の一般的な画像ジェネレーターと比較して、最も説得力があり自然主義的であると思います。残念ながら、特に Stable Diffusion や DALL-E 2 と比較すると、Discord からアクセスするのは奇妙なハードルです。

GPT-3

OpenAI の Generative Pre-trained Transformer 3 または GPT-3 言語モデルは、実際には 2020 年にリリースされましたが、見出しをつけた誰でも使用できるチャットボットである ChatGPT がリリースされてから数か月が経ちました。さまざまな質問やプロンプトに対する回答は正確であることが多く、多くの場合、人間が書いたものと見分けがつかない. 始まりました真剣な会話大学が盗作を今後どのように検出するかについて（おそらく AI-finding AI）。さらに、それは面白い詩を書くことができます.

ChatGPT は世界で最も明白な GPT-3 のインスタンスですが、強力な機能も備えています。その他の AI ツール. リストにあるすべてのジェネレーティブ AI のうち、 ポップサイエンス これは、今後さらに多くのことを耳にすることになると思います。

コーデックス

OpenAI の GPT-3 は、ばかげた歌や短いエッセイを生成するのが得意なだけではありません。また、プログラマーがコードを書くのを支援する機能もあります。の Codexというモデルは、自然言語プロンプトから、JavaScript や Python を含む多数の言語でコードを生成できます。デモページでは、コードを 1 行も書かずにブラウザゲームを作成している短いビデオを見ることができます。それはかなり印象的です!Codex はすでに公開されています。 GitHub コパイロットこれを使用して、コードの完全なチャンクを自動的に提案します。ステロイドのオートコンプリートのようなものです。

VALL-E

ダルイー2

安定拡散

途中

GPT-3

コーデックス

コメントする コメントをキャンセル

コメントするコメントをキャンセル