ブロックには新しい AI があり、誰かが話している短いオーディオ クリップからその人の声を模倣することができます。 現在、画像と言葉の両方を含むものを生成できる奇抜な AI がたくさんあるように聞こえる場合は、その通りです。 混乱を招く可能性があるため、クイック ガイドを作成しました。 ここでは、過去 12 か月間に出現した最も顕著な AI をいくつか紹介します。
VALL-E
最新の参入者、 VALL-E はマイクロソフトの研究者による新しい AI です 3 秒間のシード クリップから誰かの声の完全なモデルを生成できます。 そうだった 60,000時間以上のトレーニング 7,000 人以上の話者からの英語のスピーチと、シード クリップの内容を個別のコンポーネントに変換することによって動作します。 トークン化、テキストをトークンと呼ばれる小さな単位に分解します。 次に、AI のニューラル ネットワークは、短いクリップからのいくつかのトークンに基づいて、完全なモデルを作成するために必要な他のトークンがどのように聞こえるかを推測します。 結果 – あなたはでチェックアウトすることができます VALL-E ウェブサイト—かなり驚くべきことです。
VALL-E のような AI モデルのディープ フェイクが明らかに使用されているため、Microsoft はそれを公開していません。 (マイクロソフトは 以前に投資した DALL-E および ChatGPT 所有者の OpenAI であり、また 伝えられるところによると交渉中 さらに数十億ドルを投資する必要があります。) それでも、これらのジェネレーティブ AI が最小のシードでも可能な種類のことを示しています。
ダルイー2
OpenAI の DALL-E 2 は、最新の AI ブームの火付け役となったと言っても過言ではありません 去年の4月に発表されたとき. 現実的なものが必要か、完全にそこにあるかに関係なく、テキストプロンプトからオリジナルの画像を作成できます. アウトペインティングと呼ばれる技法を使用して、既存のアートワークの境界を拡張することもできます。
DALL-E 2 の最大の利点は、誰でも無料で試用できることです。 最初の 1 か月で、1 つのテキスト プロンプトから 4 つの画像バリエーションを生成できる 50 クレジットを取得します。 その後は、1 か月あたり 15 個の無料クレジットを取得できます。
安定拡散
OpenAIがDALL-E 2へのアクセスを制御しながら、 スタビリティAI は、画像生成ツールである Stable Diffusion で別のアプローチを取り、オープン ソースにしました。 誰でもStable Diffusionをダウンロードでき、 信じられないほどリアルな画像を作成する を使った想像力豊かな作品 かなり強力なラップトップ.
Stable Diffusion はオープン ソースであるため、他の企業も Stable Diffusion を使用してジェネレーティブ AI ツールを立ち上げています。 ここでの最大の名前は、Lensa’s Magic Avatars です。 スマートフォン アプリを使用すると、10 ~ 20 枚の写真をアップロードして、カスタムの Stable Diffusion モデルをトレーニングし、数十の風変わりな芸術的アバターを生成することができます。
途中
画像生成のもう 1 つのビッグ ネームは、 途中、まだベータ版であり、 Discordチャンネルからアクセス可能. そのアルゴリズムは過去1年間で大幅に改善されました. 個人的には、現在のモデルであるバージョン 4 で作成された画像は、他の一般的な画像ジェネレーターと比較して、最も説得力があり自然主義的であると思います。 残念ながら、特に Stable Diffusion や DALL-E 2 と比較すると、Discord からアクセスするのは奇妙なハードルです。
GPT-3
OpenAI の Generative Pre-trained Transformer 3 または GPT-3 言語モデルは、実際には 2020 年にリリースされましたが、 見出しをつけた 誰でも使用できるチャットボットである ChatGPT がリリースされてから数か月が経ちました。 さまざまな質問やプロンプトに対する回答は正確であることが多く、多くの場合、 人間が書いたものと見分けがつかない. 始まりました 真剣な会話 大学が盗作を今後どのように検出するかについて(おそらく AI-finding AI)。 さらに、それは 面白い詩を書くことができます.
ChatGPT は世界で最も明白な GPT-3 のインスタンスですが、強力な機能も備えています。 その他の AI ツール. リストにあるすべてのジェネレーティブ AI のうち、 ポップサイエンス これは、今後さらに多くのことを耳にすることになると思います。
コーデックス
OpenAI の GPT-3 は、ばかげた歌や短いエッセイを生成するのが得意なだけではありません。 また、プログラマーがコードを書くのを支援する機能もあります。 の Codexというモデル は、自然言語プロンプトから、JavaScript や Python を含む多数の言語でコードを生成できます。 デモ ページでは、コードを 1 行も書かずにブラウザ ゲームを作成している短いビデオを見ることができます。 それはかなり印象的です!Codex はすでに公開されています。 GitHub コパイロット これを使用して、コードの完全なチャンクを自動的に提案します。 ステロイドのオートコンプリートのようなものです。