ピクチャー・リー・アンクリッチ、 ピクサーで最も著名なアニメーターの 1 人で、中学 1 年生でした。 彼は、学校の最初のコンピューターの画面に表示された機関車の画像を見つめています。 わお、 彼が考えている。 しかし、リーが「電車の写真」を求めただけでは画像が表示されなかったことを知ったとき、魔法の一部は薄れました。 代わりに、勤勉な人間によって、骨の折れるコーディングとレンダリングを行う必要がありました。
43 年後の今、Lee が DALL-E に出くわしたことを想像してみてください。DALL-E は、文字通り「電車の絵」と同じくらい単純な、人間が提供するプロンプトに基づいてオリジナルの芸術作品を生成する人工知能です。 彼が単語を入力して画像を次々と作成していくと、 おお 戻ってきました。 今回だけは消えません。 「奇跡のように感じます」と彼は言いました。 言う. 「結果が出たとき、息が詰まり、涙がこみ上げてきました。 それはとても魔法です。」
私たちのマシンは限界を超えました。 私たちはこれまでの人生で、コンピューターが真に創造的であることは不可能であると確信してきました。 しかし、突然、何百万人もの人々が新しい種類の AI を使用して、これまでに見たことのない見事な写真を生成しています。 これらのユーザーのほとんどは、Lee Unkrich のようにプロのアーティストではありません。それがポイントです。そうである必要はありません。 誰もがオスカー受賞者のような作品を書き、監督し、編集できるわけではありません トイ・ストーリー3 また ココ、でもみんな できる AI 画像ジェネレーターを起動し、アイデアを入力します。 画面に表示されるものは、そのリアリズムと細部の深さに驚くべきものです。 したがって、普遍的な応答: わお. Midjourney、Stable Diffusion、Artbreeder、DALL-E の 4 つのサービスだけでも、AI を使用する人間は現在、毎日 2,000 万を超える画像を共同作成しています。 絵筆を手にすると、人工知能がすごいエンジンになりました。
これらの驚きを生み出す AI は、人間が作成した数十億枚の写真から芸術を学習したため、出力は、写真がどのように見えるかについて私たちが期待するものにとどまります。 しかし、彼らはエイリアンの AI であり、作成者にとっても根本的に謎に包まれているため、人間が考えられないような方法で新しい画像を再構成し、私たちのほとんどが想像する芸術性やスキルを持っていない詳細を埋めています。実行します。 また、好きなもののより多くのバリエーションを、好きなスタイルで、数秒で生成するように指示することもできます。 最終的に、これが彼らの最も強力な利点です。彼らは、親しみやすく理解しやすい新しいものを作ることができますが、同時にまったく予期しないものを作ることができます。
これらの新しい AI 生成画像は非常に予想外であり、実際、その直後の静かな畏敬の念の中で おお—それらに遭遇したほぼすべての人に別の考えが浮かびます。人工の芸術は今や終わったに違いありません。 これらのマシンのスピード、安さ、スケール、そしてもちろん、ワイルドなクリエイティビティに対抗できるのは誰でしょうか? 芸術は、ロボットに譲らなければならないもう 1 つの人間の追求ですか? そして次の明白な質問: コンピューターが創造的であるとすれば、私たちができないと言われたこと以外に何ができるでしょうか?
私は過去 6 か月間、AI を使用して何千もの印象的な画像を作成してきました。 もう1つだけ コードに秘められた美しさ。 そして、これらのジェネレーターの作成者、パワー ユーザー、およびその他のアーリー アダプターにインタビューした後、非常に明確な予測を立てることができます。ジェネレーティブ AI は、ほぼすべての設計方法を変更します。 ああ、この新しいテクノロジーのせいで人間のアーティストが職を失うことはありません。
いいえ AIの助けを借りて生成された画像を呼び出す誇張 共創. この新しい力の冷静な秘密は、その最適なアプリケーションは、1 つのプロンプトで入力するのではなく、人間と機械の間の非常に長い会話の結果であるということです。 各画像の進歩は、何年にもわたる機械学習の進歩に裏打ちされた、非常に多くの反復、行き来、回り道、時間、場合によっては数日間のチームワークによってもたらされます。
AI 画像ジェネレーターは、2 つの異なる技術の融合から生まれました。 1 つは一貫性のあるリアルな画像を生成できるディープ ラーニング ニューラル ネットワークの歴史的なラインであり、もう 1 つは画像エンジンへのインターフェイスとして機能する自然言語モデルでした。 この 2 つは、言語駆動型のイメージ ジェネレーターに結合されました。 研究者は、キャプションなどの隣接するテキストを含むすべての画像をインターネットからスクレイピングし、これらの数十億の例を使用して、視覚的なフォームを単語に、単語をフォームに関連付けました。 この新しい組み合わせにより、人間のユーザーは、探している画像を説明する一連の単語 (プロンプト) を入力することができ、プロンプトはそれらの単語に基づいて画像を生成します。