ChatGPT API の展開に合わせて、OpenAI は本日、同社が 9 月にリリースしたオープン ソースの Whisper 音声テキスト変換モデルのホスト バージョンである Whisper API を開始しました。
1 分あたり 0.006 ドルの価格の Whisper は、OpenAI が主張する自動音声認識システムであり、複数の言語での「堅牢な」書き起こしと、それらの言語から英語への翻訳を可能にします。 M4A、MP3、MP4、MPEG、MPGA、WAV、WEBM など、さまざまな形式のファイルを使用できます。
無数の組織が、Google、Amazon、Meta などの巨大テクノロジー企業のソフトウェアやサービスの中核をなす、高度な機能を備えた音声認識システムを開発しています。 しかし、OpenAI の社長兼会長である Greg Brockman 氏によると、Whisper が他と違うのは、ウェブから収集された 680,000 時間分の多言語および「マルチタスク」データに基づいてトレーニングされていることです。これにより、固有のアクセント、バックグラウンド ノイズ、および専門用語の認識が改善されました。
「私たちはモデルをリリースしましたが、開発者のエコシステム全体をその周りに構築するには、実際には十分ではありませんでした」とブロックマンは、昨日の午後の TechCrunch とのビデオ通話で語った。 「Whisper API は、オープン ソースを入手できるのと同じ大規模なモデルですが、極限まで最適化されています。 はるかに速く、非常に便利です。」
Brockman 氏の指摘によれば、企業が音声文字起こし技術を採用する際には、障壁がたくさんあります。 2020 Statistaによると 調査、企業は、技術読み上げのような技術を採用していない主な理由として、正確さ、アクセントまたは方言に関連する認識の問題、およびコストを挙げています。
ただし、Whisper には限界があります。特に「次の単語」の予測の領域ではそうです。 システムは大量のノイズの多いデータでトレーニングされているため、OpenAI は、Whisper が実際に話されていない単語を書き起こしに含める可能性があると警告しています。おそらく、音声内の次の単語を予測し、音声録音自体を書き起こそうとしているためです。 さらに、Whisper は言語間で同じように機能するわけではなく、トレーニング データで十分に表現されていない言語の話者に関してはエラー率が高くなります。
残念ながら、最後の部分は音声認識の世界では目新しいものではありません。 バイアスは、2020 年のスタンフォード大学で、最高のシステムでさえ長い間悩まされてきました。 勉強 Amazon、Apple、Google、IBM、Microsoft のシステムを検索すると、黒人のユーザーよりも白人のユーザーの方がはるかに少ないエラー (約 19%) が発生しました。
それにもかかわらず、OpenAI は、Whisper の文字起こし機能が既存のアプリ、サービス、製品、およびツールを改善するために使用されていると考えています。 すでに、AI を利用した語学学習アプリ Speak は、Whisper API を使用して、アプリ内の新しい仮想会話コンパニオンを強化しています。
OpenAI が音声からテキストへの市場に大々的に参入できれば、Microsoft が支援する同社にとってかなりの利益になる可能性があります。 によると あるレポートによると、このセグメントの価値は 2021 年の 22 億ドルから 2026 年までに 54 億ドルになる可能性があります。
「私たちのイメージは、私たちが本当にこの普遍的な知性になりたいということです」とブロックマンは言いました. 「わどんな種類のデータを持っていても、どんな種類のタスクを達成したいとしても、非常に柔軟に取り入れ、その注意力を倍増させたいと思っています。」