会う グラディアは、企業が音声データを扱う方法を変えたいと考えているフランスの AI スタートアップ企業です。 同社は、他の製品と統合できる音声転写アプリケーション プログラミング インターフェイス (API) を開発しており、市販されているものよりもはるかに優れた機能を備えていると考えられています。 そして、この技術基盤により、オーディオ関連の新しいユースケースが可能になります。
音声文字起こし API に詳しい方は、大手クラウド プロバイダーがすでに独自の API を持っていることをご存知でしょう。 Googleのものがあります 音声テキスト変換 API、 Amazon 文字起こし、マイクロソフトの 音声からテキストへなど。それらはうまく機能しますが、高価で遅く、機能が豊富ではありません。
Gladia の共同創設者兼 CEO、Jean-Louis Quéguiner 氏は、OVHcloud の元 AI 責任者であり、Jonathan Soto 氏と同社を共同設立した人物で、既存の API のいくつかの制限について私に語ってくださいました。 同氏によると、既存の製品には3つの問題点があるという。 まず、料金についてですが、1 時間の音声を文字に起こすと、通常 1 時間あたり 1.50 ドルから 2 ドルかかります。
第 2 に、一部の言語はうまく機能する一方で、他の言語はほとんどサポートされていないため、出力は必ずしも信頼性が高いとは限りません。 高度な機能に関して言えば、人々が複数の言語で話している場合、API が言語の変更を認識できず、音声を複数の言語で書き写すことができない可能性があります。
第三に、転写 API は遅いです。 1 時間の音声を文字に起こすのに 15 分以上かかる場合があります。 すぐに文字起こしが必要ない場合は問題ありませんが、一部の業界ではこれらの API を使用できなくなることになります。
ささやきのささやき者
グラディアのベースになっているのは、 ささやき, OpenAI のオープンソース文字起こしモデル。 「私たちはウィスパーからスタートしました。 私たちは車輪を再発明したわけではありませんが、お客様の声に耳を傾けたところ、『私が欲しいのは、Whisper と同じように機能するものです』とのことでした」と Jean-Louis Quéguiner 氏は語ります。
しかし、ウィスパーは完璧ではありません。 バニラバージョンはまだかなり遅いため、Gladia は多くの時間を費やして Whisper を高速で応答性の高い文字起こしモデルに変えました。 問題はそれだけではありません。
「ウィスパーの半分はGPT-2です。 LLM と ChatGPT は幻覚を起こす傾向があるのを見たことがあるでしょう。 私たちは幻覚の問題も避けるために多くの努力をしてきました」とケギナー氏は語った。
特に、ウィスパーは YouTube などのインターネット上にある字幕について訓練を受けていると彼は私に言いました。 OpenAI のモデルでは、「このビデオを楽しんでいただけた場合は、いいね!とチャンネル登録をお願いします」など、オンライン ビデオでよく聞く一般的なフレーズを聞く傾向があります。 このようないくつかの文には数学的な過剰表現があり、Gladia はそれらの欠点を修正しようとします。
Whisper とその実装に対するこれらの変更に加えて、Gladia には、最終結果を改善するいくつかの前処理アルゴリズムと後処理アルゴリズムもあります。
Gladia は、0.61 ドルで 1 時間の音声を文字に起こすことができると約束しています。 転写プロセスには約 60 秒かかります。 その API は、複数の話者がいることを検出し、タイムスタンプを追加し、言語を検出し、必要に応じてある言語から別の言語に切り替えることができます。 Gladia は、句読点と大文字小文字も自動的に追加します。
ほとんどの API と同様、最終結果は JSON 形式になります。 ただし、Gladia は、字幕を生成したい企業向けに SRT および VTT ファイルもサポートしています。
Gladia がどのように機能するかを確認するために、アカウントを作成し、インタビューの音声録音をアップロードしました。 予想より少し時間がかかりましたが、Google や Azure の音声テキスト変換 API よりもはるかに高速であったことは間違いありません。
結果は完璧ではありませんでしたが、頭字語や専門用語を理解できる非常に優れたものでした。 同じ音声ファイルを開いたのですが、 愛子、Sindre Sorhus によって開発された Mac アプリで、Whisper を使用してローカルでオーディオ ファイルを文字起こしできます。 予想通り、出力は Gladia の出力に近かったが、MacBook Pro で Aiko を実行するよりも Gladia の方がはるかに高速でした。
全体として、Gladia は私がこれまで使用した中で最高の文字起こし API でした。
オーディオ インテリジェンス API になる
同社は現在、コールセンター会社、バーチャル会議サービス、およびビデオパブリッシャーと協力しています。 クラップ、 ライブストーム と セレクトラ。
Gladia は、次の資金調達ラウンドで 400 万ドルのシードラウンドを調達しました。 ニューウェーブ。 他の投資家には、セコイア、ココア、そしてソロモン・ハイクス、ピエール・ベトゥアン、ミロスワフ・クラバ、アレクサンドル・ベリッシュなどのビジネスエンジェルが含まれます。
Gladia にとって、盤石な文字起こし API を用意することは第一歩にすぎません。 同社は、この強力な技術基盤の上に機能を構築できることを期待しています。
たとえば、音声ファイルが書き起こされた後、Gladia はテキストを別の言語に翻訳できます。 単語レベルのタイムスタンプと組み合わせることで、企業は音声ファイルをアップロードし、わずか数分で数十の言語の字幕を取得できることになります。
同社は将来的には、音声ファイルの内容を要約し、内容を複数のトピック カテゴリに分類し、章を自動的に作成し、感情分析などを実行できるようにしたいと考えています。
「私たちの長期的なビジョンは、2D データから 3D データに移行することです。 オーディオはかなりフラットであり、それをインテリジェンスで強化するという考えです」とケギナー氏は語った。 「私たちは、転写は商品になると考えています。 しかし、より重要なのは、追加するオプションだと考えています。」