AI のように急速に変化する業界に追いつくのは至難の業です。 そこで、AI がそれをやってくれるようになるまで、機械学習の世界に関する先週の記事と、単独では取り上げなかった注目すべき研究や実験を簡単にまとめておきます。
まだ明らかではないかもしれませんが、AI、特に生成 AI として知られるサブ分野の競争環境は激化しています。 そして暑くなってきました。 今週、Dropbox は初のコーポレート ベンチャー ファンドである Dropbox Ventures を立ち上げ、「仕事の未来を形作る」AI を活用した製品を構築する新興企業に焦点を当てると同社は述べた。 AWS も負けじと、パートナーと顧客が主導する生成 AI イニシアチブに資金を提供する 1 億ドルのプログラムをデビューさせました。
確かに、AI 分野では多額の資金が投じられています。 SalesforceのVC部門であるSalesforce Venturesは、生成AI技術を開発する新興企業に5億ドルを注ぎ込む計画だ。 勤務日 最近 特に AI と機械学習のスタートアップを支援するために、既存の VC ファンドに 2 億 5,000 万ドルを追加しました。 そして、アクセンチュアとPwCは、それぞれAIに30億ドルと10億ドルを投資する計画であると発表した。
しかし、AI 分野の未解決の課題をお金が解決できるかどうか疑問に思う人もいるでしょう。
今週サンフランシスコで開催されたブルームバーグカンファレンスの啓発パネルで、安全なメッセージングアプリ「シグナル」の社長メレディス・ウィテカー氏は、今日最も話題のAIアプリの一部を支える技術が危険なほど不透明になりつつあると主張した。 彼女は、銀行に行って融資を求める人の例を挙げました。
その人は融資を拒否され、「このような制度があることを全く知らない」可能性があります。 [the] おそらく、スクレイピングされたソーシャル メディアに基づいて、私が信用に値しないと判断した Microsoft API を利用して戻ってきたのでしょう」とウィテカー氏は語った。 「決して知るつもりはない [because] 私にはそれを知る仕組みがありません。」
問題は資本ではない。 むしろ、それは現在の権力階層だ、とウィテカー氏は言う。
「私は15年、20年ほどテーブルについています。 私は その間 テーブルで。 力のない状態でテーブルに座ることは何の意味もありません」と彼女は続けた。
もちろん、構造変化を達成することは、現金を探し回るよりもはるかに困難です。特に構造変化が必ずしも大国に有利になるわけではない場合にはそうです。 そしてウィテカー氏は、十分な反発がなかった場合に何が起こるかを警告している。
AIの進歩が加速するにつれて、社会への影響も加速し、私たちは今後も「誇大広告に満ちたAIへの道」を歩み続けるだろうと彼女は述べた。ポイント [of having] 私たちの個人的および集団的な生活に対する主体性は、非常にわずかです。」
それか したほうがいい 業界に一時停止を与えてください。 本当にそうなのかどうか 意思 それは別の問題です。 それはおそらく、9月に彼女がDisruptのステージに上がるときに議論されるのを聞くことになるだろう。
過去数日間の他の注目すべき AI のヘッドラインは次のとおりです。
- DeepMind の AI はロボットを制御します。 DeepMind は、ロボット アームのさまざまなモデルにわたってさまざまなタスクを実行できる、RoboCat と呼ばれる AI モデルを開発したと述べています。 それだけでは特に目新しいものではありません。 しかしDeepMindは、このモデルが、現実世界の異なるロボットを使用して複数のタスクを解決して適応できる初めてのモデルだと主張している。
- ロボットは YouTube から学習します。 ロボットと言えば、今週 CMU ロボティクス研究所助教授のディーパック・パタック氏が語ります。 展示されたVRB (Vision-Robotics Bridge) は、人間の録画を見てロボット システムをトレーニングするように設計された AI システムです。 ロボットは、接触点や軌道などのいくつかの重要な情報を監視し、タスクの実行を試みます。
- ラッコはチャットボット ゲームに参加します。 自動文字起こしサービス カワウソ は今週、参加者が会議中および会議後に質問し、チームメイトとの共同作業を支援できる、AI を活用した新しいチャットボットを発表しました。
- EUはAI規制を求める: 欧州の規制当局は、この地域で AI をどのように規制し、最終的には商業的および非商業的に使用するかについて岐路に立っています。 今週、EU最大の消費者団体である欧州消費者組織(BEUC)は、 自らの立場を重視した:足を引っ張るのはやめて、今すぐ「生成型 AI のリスクについて緊急調査を開始」すると書かれています。
- Vimeo が AI を活用した機能を開始: 今週、Vimeo は、ユーザーがスクリプトを作成し、内蔵テレプロンプターを使用して映像を録画し、録画から長い一時停止や「あー」や「うーん」などの不要な不一致を除去できるように設計された、AI を活用した一連のツールを発表しました。
- 合成音声の資本: イレブンラボ合成音声を作成するための AI を活用したバイラル プラットフォームである が、新たな資金調達ラウンドで 1,900 万ドルを調達しました。 イレブンラボは1月下旬の立ち上げ後、すぐに勢いを取り戻した。 しかし、その評判は常に好意的だったわけではありません。特にかつては 悪い俳優 彼らは自分たちの目的のためにプラットフォームを悪用し始めました。
- 音声をテキストに変換する: フランスの AI スタートアップである Gladia は、OpenAI の Whisper 文字起こしモデルを活用して、API を介してあらゆる音声をほぼリアルタイムでテキストに変換するプラットフォームを立ち上げました。 Gladia は、0.61 ドルで 1 時間の音声を文字起こしできると約束しており、文字起こしプロセスには約 60 秒かかります。
- Harness は生成 AI を採用しています。 ハーネスは、開発者がより効率的に業務を行えるよう支援するツールキットを開発している新興企業で、今週自社のプラットフォームに小さな AI を導入しました。 現在、Harness はビルドと展開の失敗を自動的に解決し、セキュリティの脆弱性を見つけて修正し、クラウドのコストを制御するための提案を行うことができます。
その他の機械学習
今週はカナダのバンクーバーで CVPR が開催されていましたが、講演や論文が非常に面白そうなので、行っておけばよかったです。 1 つしか視聴できない場合は、チェックしてください チェ・イェジン氏の基調講演 AIの可能性、不可能性、パラドックスについて。
ウィスコンシン大学の教授であり、マッカーサー ジーニアス助成金の受領者でもある彼は、まず、今日の最も有能なモデルの予期せぬ制限をいくつか取り上げました。 特に GPT-4 は掛け算が非常に苦手です。 2 つの 3 桁の数値の積を正しく見つけることが驚くほどの確率で失敗しますが、少しなだめれば 95% の確率で正しく計算できます。 言語モデルが数学を実行できないことがなぜ重要なのでしょうか? なぜなら、現在の AI 市場全体は、言語モデルが税金や会計などの多くの興味深いタスクにうまく一般化できるという考えに基づいているからです。 Choi 氏の指摘は、AI の能力についてより詳しく知ることができるので、AI の限界を探して内部に取り組むべきであり、その逆ではないということでした。
彼女の講演の他の部分も同様に興味深く、考えさせられるものでした。 ここですべてを見ることができます。
「誇大宣伝の殺し屋」として紹介されたロッド・ブルックス 機械学習の中核概念のいくつかについて興味深い歴史を説明しました — この概念が新しいように見えるのは、それが発明されたときには、それを適用しているほとんどの人が存在していなかったからだ。 彼は数十年を遡り、マカロック、ミンスキー、さらにはヘブについても触れ、そのアイデアが時代を超えてどのように意味を持ち続けたかを示しています。 これは、機械学習が戦後に遡る巨人の肩の上に立つ分野であることを思い出させるのに役立ちます。
非常に多くの論文が CVPR に投稿され、発表されました。受賞者だけを見るのは還元的ですが、これはニュースのまとめであり、包括的な文献レビューではありません。 そこで、カンファレンスの審査員が最も興味深いと考えたのは次のとおりです。
ビスプログAI2 の研究者による、多目的コード ツールボックスを使用して複雑な視覚操作タスクを実行する一種のメタモデルです。 草の上にハイイログマの写真があるとします (写真を参照)。「クマを雪の上のシロクマに置き換える」だけで、機能し始めます。 画像の部分を識別し、それらを視覚的に分離し、適切な置換を検索して生成し、ユーザー側でそれ以上のプロンプトを表示することなく、全体をインテリジェントに再度つなぎ合わせます。 ブレードランナーの「強化」インターフェイスは、まったく平凡なものに見え始めています。 そして、それはその多くの機能のうちの 1 つにすぎません。
「計画型自動運転」 中国の複数の機関からなる研究グループからの研究チームは、自動運転車に対して私たちが取ってきたかなり断片的なアプローチのさまざまな部分を統合しようと試みています。 通常、「認識、予測、計画」という段階的なプロセスがあり、それぞれに多数のサブタスク (人々のセグメント化、障害物の特定など) が含まれる場合があります。 彼らのモデルは、これらすべてを 1 つのモデルにまとめようとしています。これは、テキスト、オーディオ、または画像を入出力として使用できるマルチモーダル モデルに似ています。 同様に、このモデルは、最新の自動運転スタックの複雑な相互依存関係をある意味で単純化します。
ダイバール は、「ダイナミック ニューラル ラディアンス フィールド」(NeRF)を使用してビデオを操作する高品質で堅牢な方法を示しています。 ビデオ内のオブジェクトを深く理解すると、安定化、ドリー動作、およびビデオがすでに録画されている場合には通常は不可能であると予想されるその他のことが可能になります。 もう一度…「強化」。 これは間違いなく Apple があなたを雇い、次の WWDC でその功績を称える類のものです。
ドリームブース 今年の少し初めにプロジェクトのページが公開されたときのことを覚えているかもしれません。 これは、ディープフェイクを作成するためには、これまでで最高のシステムだと言わざるを得ません。 もちろん、この種の画像操作を実行することは楽しいことは言うまでもなく、価値があり強力です。Google のような研究者は、それをよりシームレスで現実的なものにするために取り組んでいます。 結果は…後になるかもしれません。
最優秀学生論文賞は、メッシュまたは 3D 点群を比較および照合する方法に贈られます。率直に言って、専門的すぎて説明できませんが、これは現実世界の認識にとって重要な機能であり、改善は歓迎されます。 例と詳細については、こちらの論文をご覧ください。
あと 2 つのナゲット: インテルが見せた この興味深いモデル、LDM3D、仮想環境のような 3D 360 画像を生成します。 したがって、メタバース内で「ジャングルの生い茂る廃墟に私たちを置け」と言った場合、要求に応じて新しいものが作成されるだけです。
そしてメタが解放された Voiceboxという音声合成ツール これは、入力がきれいでない場合でも、音声の特徴を抽出して複製するのに非常に優れています。 通常、音声をレプリケーションするには、十分な量と種類のクリーンな音声録音が必要ですが、Voicebox は他の多くのものよりも少ないデータ (2 秒程度と考えてください) でそれを実現します。 幸いなことに、彼らは今のところこの魔神を瓶の中に保管しています。 自分の声を複製する必要があるかもしれないと考えている人は、Acapela をチェックしてください。