ただし、Metaのモデルはリクエストがあった場合にのみ利用可能であり、その使用を研究目的に限定するライセンスがあります。 顔を抱き締めることはさらに一歩進んでいます。 ザ 会議 過去1年間の作業の詳細はオンラインで記録およびアップロードされ、誰でも無料でモデルをダウンロードして、研究や商用アプリケーションの構築に使用できます。
BigScienceの大きな焦点は、倫理的な考慮事項を後付けとして扱うのではなく、最初からモデルに組み込むことでした。 LLMは、インターネットをスクレイピングすることによって収集された大量のデータについてトレーニングされています。 これらのデータセットには多くの個人情報が含まれており、危険なバイアスを反映していることが多いため、これは問題になる可能性があります。 グループが開発した データガバナンス構造 特に、使用されているデータとそのデータが誰に属しているかを明確にする必要があり、ソースが異なるLLMの場合 データセット オンラインですぐに利用できなかった世界中から。
グループはまた、新しい 責任あるAIライセンス、これは利用規約のようなものです。 これは、法執行機関や医療機関などのリスクの高い分野でBLOOMを使用することを阻止する役割を果たしたり、人々を傷つけたり、欺いたり、搾取したり、なりすましたりするように設計されています。 このライセンスは、法律が追いつく前にLLMを自己規制する実験であると、プロジェクトに志願してライセンスを共同作成したAI研究者であるデンマークの請負業者は述べています。 しかし、最終的には、誰かがBLOOMを悪用するのを止めるものは何もありません。
プロジェクトには当初から独自の倫理ガイドラインがあり、モデル開発の指針として機能したと、HuggingFaceの倫理学者であるGiadaPistilli氏は述べています。 ブルームの倫理憲章。 たとえば、さまざまなバックグラウンドと場所からボランティアを募集し、部外者がプロジェクトの結果を簡単に再現できるようにし、その結果を公開することに重点を置きました。
出発進行
この哲学は、BLOOMと現在利用可能な他のLLMとの1つの大きな違い、つまりモデルが理解できる膨大な数の人間の言語に変換されます。 フランス語、ベトナム語、マンダリン語、インドネシア語、カタロニア語、13のインド語(ヒンディー語など)、および20のアフリカ言語を含む46の言語を処理できます。 トレーニングデータの30%強が英語でした。 このモデルは、13のプログラミング言語も理解します。
これは、英語が支配的な大規模な言語モデルの世界では非常に珍しいことです。 これは、LLMがインターネットからデータをスクレイピングすることによって構築されるという事実のもう1つの結果です。英語は、オンラインで最も一般的に使用される言語です。
BLOOMがこの状況を改善できた理由は、他の言語がオンラインで十分に表現されていなくても、チームが世界中のボランティアを集めて適切なデータセットを構築したためです。 たとえば、Hugging Faceは、アフリカのAI研究者とのワークショップを開催し、アフリカの言語でモデルをトレーニングするために使用できる地方自治体や大学の記録などのデータセットを見つけようとしました、とHuggingFaceのインターンでMasakhaneの研究者であるChrisEmezueは言います。 、アフリカ言語の自然言語処理に取り組んでいる組織。