ボスニア語の 3 つの部分 文章。 クルド語の 13 部分。 スワヒリ語の 55 部分。 11,000部の英語。
これは データレシピの一部 これは Facebook の新しい大規模言語モデルのためであり、同社はこのモデルにより 100 以上の言語で有害なコンテンツを検出して抑制できると主張しています。 Bumble は同様のテクノロジーを使用して、少なくとも 15 の言語で失礼なメッセージや望ましくないメッセージを検出します。 Googleは、翻訳から新聞のコメントセクションのフィルタリングまで、あらゆる用途にこれを使用しています。 すべてに同等のレシピと同じ主成分、つまり英語のデータが含まれています。
ソーシャルメディア企業は長年にわたり、世界の他の 7,000 言語よりも英語のコンテンツにコンテンツの自動検出と削除の取り組みを重点的に行ってきました。 Facebookはほぼ終了しました イタリア語とスペイン語の新型コロナウイルスに関する誤った情報の 70% 同様の英語の誤情報はわずか 29 パーセントに過ぎず、フラグが立っていません。 流出した文書で明らかになったのは、 アラビア語-言語の投稿は、ヘイトスピーチとして誤ってフラグが立てられることがよくあります。 現地言語コンテンツの管理が不十分であることが、ミャンマーでの大量虐殺、エチオピアでの民族暴力、 ブラジルにおける選挙に関する偽情報。 大規模な場合、コンテンツの主催、降格、または削除の決定は、人々の基本的権利、特に自由に組織したり発言する手段が他にほとんどない社会から疎外された人々の基本的権利に直接影響します。
この問題は、部分的には政治的意思の問題ですが、技術的な課題でもあります。 スパム、ヘイトスピーチ、その他の望ましくないコンテンツを世界中のすべての言語で検出できるシステムを構築することは、すでに困難です。 さらに難しくしているのは、多くの言語が「リソースが少ない」という事実です。これは、自動システムのトレーニングに使用できるデジタル化されたテキスト データがほとんどないことを意味します。 これらのリソースの少ない言語の中には、話者やインターネット ユーザーが限られているものもありますが、ヒンディー語やインドネシア語など、何億人もの人々が話している言語もあり、誤ったシステムによって引き起こされる害は倍増します。 たとえ企業が、あらゆる言語のあらゆる種類の有害なコンテンツに対応する個別のアルゴリズムを構築することに積極的に投資したとしても、それらのシステムを効果的に機能させるのに十分なデータを持っていない可能性があります。
「多言語大言語モデル」と呼ばれる新しいテクノロジーは、ソーシャルメディア企業のコンテンツモデレーションへの取り組み方を根本的に変えました。 多言語言語モデル – で説明します。 新しい紙—GPT-4 やその他の大規模言語モデル (LLM) に似ていますが、数十、数百の異なる言語のテキストをトレーニングすることで、より一般的な言語ルールを学習します。 これらは言語間の接続を確立するために特別に設計されており、英語などのトレーニング データが豊富な言語から推定して、ボスニア語などのトレーニング データが少ない言語をより適切に処理できるようにします。
これらのモデルは、文法の解析や感情の分析など、幅広い言語で単純な意味論的および構文的なタスクを実行できることが証明されていますが、コンテンツのモデレーションという、より言語とコンテキストに特化したタスク、特に彼らはほとんど訓練を受けていない言語です。 そして時折の自画自賛に加えて、 ブログ 役職ソーシャルメディア企業は、自社のシステムが現実世界でどの程度うまく機能するかについてほとんど明らかにしていない。
なぜ多言語になるのか モデルはソーシャルメディア企業が示唆しているよりも有害なコンテンツを識別する能力が低いのでしょうか?
理由の 1 つは、特にリソースの少ない言語でのトレーニングに使用されるデータの品質です。 多言語モデルのトレーニングによく使用される大規模なテキスト データ セットでは、最も少ない言語は、次のようなテキストを最も多く含む言語でもあります。 攻撃的、ポルノ的、機械翻訳が不十分、または単なる意味不明なもの。 開発者は、機械翻訳されたテキストで不足したデータを補おうとすることがありますが、これもまた、モデルが人間が実際に話す方法で言語を理解することが依然として難しいことを意味します。 たとえば、言語モデルが機械翻訳されたテキストのみでトレーニングされている場合、 英語からセブアノ語にフィリピンの 2,000 万人が話す言語であるこの言語では、モデルはネイティブ スピーカーが使用するスラングである「クアン」という用語を見たことがなかったかもしれませんが、他の言語には同等の用語がありません。