音声認識は、AI と機械学習において依然として困難な問題です。 それを解決するための一歩として、OpenAI 今日 同社が主張する自動音声認識システムであるウィスパーは、複数の言語での「堅牢な」文字起こしと、それらの言語から英語への翻訳を可能にします。
無数の組織が、Google、Amazon、Meta などの巨大テクノロジー企業のソフトウェアやサービスの中核をなす、高度な機能を備えた音声認識システムを開発しています。 しかし、OpenAI によると、Whisper の違いは、Web から収集された 680,000 時間の多言語および「マルチタスク」データに基づいてトレーニングされていることです。これにより、固有のアクセント、バックグラウンド ノイズ、および専門用語の認識が改善されます。
「の主な意図されたユーザー [the Whisper] モデルは、現在のモデルの堅牢性、一般化、機能、バイアス、および制約を研究する AI 研究者です。 ただし、Whisper は開発者向けの自動音声認識ソリューションとして、特に英語の音声認識に非常に役立つ可能性もあります」と OpenAI は GitHub に書いています。 レポ Whisper の場合、ここからシステムのいくつかのバージョンをダウンロードできます。 「[The models] 〜10言語で強力なASR結果を表示します。 それらは追加の機能を発揮する可能性があります…音声アクティビティの検出、話者の分類、話者のダイアライゼーションなどの特定のタスクで微調整されている場合、これらの分野ではしっかりと評価されていません。」
ウィスパーには、特にテキスト予測の分野で限界があります。 システムは大量の「ノイズの多い」データでトレーニングされているため、OpenAI は Whisper が実際に話されていない単語を書き起こしに含む可能性があると警告します。おそらく、音声内の次の単語を予測しようとしていると同時に、音声自体を書き起こそうとしているためです。 . さらに、Whisper は言語間で同じように機能するわけではなく、トレーニング データで十分に表現されていない言語の話者に関してはエラー率が高くなります。
残念ながら、最後の部分は音声認識の世界では目新しいものではありません。 2020 年のスタンフォード大学の調査によると、Amazon、Apple、Google、IBM、Microsoft のシステムでは、黒人のユーザーよりも白人のユーザーの方がエラーがはるかに少なく、約 35% でした。
それにもかかわらず、OpenAI は、Whisper の文字起こし機能が既存のアクセシビリティ ツールを改善するために使用されていると考えています。
「Whisper モデルはすぐにリアルタイムの文字起こしに使用することはできませんが、その速度とサイズは、他の人がそれらの上にほぼリアルタイムの音声認識と翻訳を可能にするアプリケーションを構築できる可能性があることを示唆しています」と同社は述べています。 GitHub で続けます。 「Whisper モデルの上に構築された有益なアプリケーションの真の価値は、これらのモデルのパフォーマンスの相違が実際の経済的影響をもたらす可能性があることを示唆しています… [W]この技術が主に有益な目的で使用されることを願っています。自動音声認識技術をより利用しやすくすることで、より多くのアクターが有能な監視技術を構築したり、既存の監視活動を拡大したりできるようになる可能性があります。速度と精度により、手頃な価格で大量の自動転写と翻訳が可能になるためです。音声通信の。」
Whisper のリリースは、必ずしも OpenAI の将来の計画を示すものではありません。 DALL-E 2 や GPT-3 などの商業的な取り組みにますます注力する一方で、同社は AI システムを含むいくつかの純粋に理論的な研究スレッドを追求しています。 動画を見て学ぶ.