世界には約 7,000 の言語がありますが、既存の音声認識モデルはそのうち約 100 言語しか包括的にカバーしていません。 これは、この種のモデルでは大量のラベル付きトレーニング データが必要になる傾向があり、英語、スペイン語、中国語など少数の言語でしか利用できないためです。
メタ研究者らは、2020年に同社が開発した既存のAIモデルを再トレーニングすることでこの問題を回避した。このモデルは、トランスクリプトなどの大量のラベル付きデータを必要とせずに音声から音声パターンを学習できる。
彼らは、2 つの新しいデータ セットでトレーニングしました。1 つは、インターネットから取得した 1,107 言語の新約聖書とそれに対応するテキストの音声録音を含むもので、もう 1 つは、3,809 言語のラベルなしの新約聖書の音声録音を含むものです。 チームは、音声録音と付随するテキストを調整するように設計されたアルゴリズムを実行する前に、音声音声とテキスト データを処理して品質を向上させました。 次に、新しく調整されたデータでトレーニングされた 2 番目のアルゴリズムを使用して、このプロセスを繰り返しました。 この方法を使用すると、付属のテキストがなくても、研究者は新しい言語をより簡単に学習できるようにアルゴリズムを教えることができました。
「そのモデルが学習したことを利用して、ごくわずかなデータで音声システムを迅速に構築できます」と、このプロジェクトに携わったメタ社の研究科学者マイケル・アウリ氏は言う。
「英語については、優れたデータセットがたくさんありますし、さらにいくつかの言語についてもそれがありますが、たとえば 1,000 人が話す言語についてはそれがありません。」
研究者らは、彼らのモデルは1,000以上の言語で会話できるが、認識できる言語は4,000以上であると述べている。
彼らは、このモデルを OpenAI Whisper などのライバル企業のモデルと比較し、自社のモデルは 11 倍以上の言語をカバーしているにもかかわらず、エラー率が半分だったと主張しています。
ただし、チームは、このモデルには依然として特定の単語やフレーズを誤って転写するリスクがあり、その結果、不正確なラベルや攻撃的なラベルが付けられる可能性があると警告しています。 彼らはまた、自社の音声認識モデルが他のモデルよりもわずか 0.7% 多いとはいえ、より偏った単語を生成したことも認めています。
研究の範囲は印象的だが、AIモデルのトレーニングに宗教文書を使用することは物議を醸す可能性があると、アフリカ言語の自然言語処理に取り組む組織マサハネの研究者で、このプロジェクトには関与していないクリス・エメズエ氏は言う。 。
「聖書には偏見や誤った表現がたくさんあります」と彼は言います。