AI 開発では、トレーニング データが多ければ多いほど良いというのが支配的なパラダイムです。 OpenAI の GPT-2 モデルには、40 ギガバイトのテキストで構成されるデータ セットがありました。 ChatGPT のベースとなっている GPT-3 は、570 GB のデータでトレーニングされました。 OpenAI は、最新モデルである GPT-4 のデータ セットの大きさを共有していません。
しかし、大型モデルへの渇望が戻ってきて、同社を苦しめています。 過去数週間で、OpenAI が ChatGPT を強化するデータを収集および処理する方法について、いくつかの西側のデータ保護機関が調査を開始しました。 彼らは、名前や電子メールアドレスなどの個人データをスクレイピングし、同意なしに使用したと考えています.
イタリア当局は予防措置として ChatGPT の使用をブロックしており、フランス、ドイツ、アイルランド、カナダのデータ規制当局も、OpenAI システムがデータを収集および使用する方法を調査しています。 データ保護機関の統括組織である欧州データ保護委員会も、 EU全体のタスクフォース ChatGPT に関する調査と執行を調整するため。
イタリアはOpenAIを与えました 4月30日まで 法律を遵守すること。 つまり、OpenAI は、データをスクレイピングするために人々に同意を求めるか、収集に「正当な利益」があることを証明する必要があります。 OpenAI はまた、ChatGPT がデータをどのように使用するかを人々に説明し、チャットボットが吐き出した間違いを修正し、必要に応じてデータを消去し、コンピューター プログラムに使用させることに異議を唱える権限を与える必要があります。
OpenAI がそのデータ使用慣行が合法であることを当局に納得させることができない場合、特定の国または欧州連合全体でさえ禁止される可能性があります。 フランスのデータ保護機関 CNIL の AI 専門家である Alexis Leautier 氏は、多額の罰金を科される可能性があり、モデルとそのトレーニングに使用されたデータの削除を余儀なくされる可能性さえあると述べています。
ニューカッスル大学のインターネット法学教授であるリリアン・エドワーズ氏は、OpenAI の違反は非常に目に余るものであるため、この訴訟は EU の最高裁判所である欧州連合司法裁判所に持ち込まれる可能性が高いと述べています。 イタリアのデータ規制当局が提起した質問への回答が得られるまでには、何年もかかる可能性があります。
ハイステークスゲーム
OpenAI にとってこれ以上の賭けはありません。 EU の一般データ保護規則は、世界で最も厳格なデータ保護体制であり、世界中で広くコピーされています。 ブラジルからカリフォルニアに至るあらゆる規制当局は、次に何が起こるかに細心の注意を払っており、その結果は、AI 企業がデータを収集する方法を根本的に変える可能性があります。
OpenAI は、データの取り扱いについて透明性を高めるだけでなく、アルゴリズムのトレーニング データを収集するために、同意または「正当な利益」という 2 つの合法的な方法のいずれかを使用していることを示す必要があります。