問題は、言語モデルのトレーニングに通常使用されるタイプのデータが、近い将来 (早ければ 2026 年) に使い果たされる可能性があることです。 エポック社の研究者による論文によると、AI 研究および予測組織。 この問題は、研究者がより優れた機能を備えたより強力なモデルを構築するにつれて、モデルをトレーニングするためのより多くのテキストを見つけなければならないという事実に起因しています。 大規模な言語モデルの研究者は、この種のデータが不足するのではないかとますます懸念していると、AI 企業 Hugging Face の研究者である Teven Le Scao は述べています。彼はエポックの研究には関与していません。
この問題は、言語 AI の研究者が、モデルのトレーニングに使用するデータを高品質と低品質の 2 つのカテゴリにフィルター処理するという事実に部分的に起因しています。 エポック社のスタッフ研究員で論文の筆頭著者であるパブロ・ビジャロボス氏によると、この 2 つのカテゴリーの境界線はあいまいな場合がありますが、前者のテキストの方が優れていると見なされており、多くの場合、プロのライターによって作成されています。
低品質のカテゴリのデータは、ソーシャル メディアの投稿や 4chan などの Web サイトのコメントなどのテキストで構成されており、高品質と見なされるデータを大幅に上回っています。 研究者は通常、高品質のカテゴリに分類されるデータのみを使用してモデルをトレーニングします。これは、モデルに再現させたい言語の種類であるためです。 このアプローチは、GPT-3 などの大規模な言語モデルで印象的な結果をもたらしました。
これらのデータの制約を克服する 1 つの方法は、データセットの品質を専門とする南カリフォルニア大学の機械学習教授である Swabha Swayamdipta 氏によると、「低」品質と「高」品質の定義を再評価することです。 データ不足により、AI 研究者がより多様なデータセットをトレーニング プロセスに組み込むようになった場合、それは言語モデルにとって「正味のプラス」になると Swayamdipta 氏は言います。
研究者は、言語モデルのトレーニングに使用されるデータの寿命を延ばす方法を見つけることもできます。 現在、大規模な言語モデルは、パフォーマンスとコストの制約により、同じデータで 1 回だけトレーニングされます。 しかし、同じデータを使用してモデルを複数回トレーニングすることは可能かもしれません、と Swayamdipta は言います。
一部の研究者は、とにかく言語モデルに関しては、大きいほど良いとは言えないと考えています。 スタンフォード大学のコンピューター サイエンスのパーシー リャン教授は、モデルをより効率的にすると、サイズが大きくなるだけでなく、モデルの能力が向上する可能性があるという証拠があると述べています。
「高品質のデータでトレーニングされた小規模なモデルが、低品質のデータでトレーニングされた大規模なモデルよりも優れていることがわかりました」と彼は説明します。