大規模な言語モデルは、トレーニング データ内の Web ページ、書籍、およびその他のテキスト本体から学習した単語パターンに基づいて、テキストの文字列を生成できます。 ChatGPT 以外にも、これらのプログラムは、Microsoft Bing チャットや Google の Bard などの検索チャットボットの根幹を構成しており、プロフェッショナルでクリエイティブなコピーを瞬時に作成するアプリケーションの数が増えています。 AI で構成されたイラストやビデオを生成する同等のものは、Pinterest や Flickr から収集された写真などの画像データセットからパターンを引き出します。
多くの場合、AI 開発で使用されるデータ セットは、Web サイトからコンテンツをスクレイピングするソフトウェアを派遣するなどの非公式な手段によって構築されます。 米国では、これは一般的に合法と見なされていますが、著作権の問題や慣行に対する Web サイトの使用条件により、論争が続いています。
Reddit や Stack Overflow などのいくつかの Web サイトは、より魅力的です。 ダウンロード可能な「データ ダンプ」またはリアルタイム データ ポータルを提供して、ソフトウェアが API と呼ばれるコンテンツにアクセスできるようにします。 Stack Overflow の場合、LLM 開発者は、ダンプ、API、およびスクレイピングを組み合わせてデータを手に入れていると Chandrasekar 氏は言います。現在、これらはすべて無料で行うことができます。
しかし Chandrasekar は、LLM 開発者が Stack Overflow の利用規約に違反していると述べています。 ユーザーは Stack Overflow に投稿したコンテンツを所有し、 そのTOSで概説されているように、しかし、それはすべてクリエイティブ・コモンズ・ライセンスに該当し、後でデータを使用する人は誰でもそのデータがどこから来たのかを言及する必要があります. AI 企業が自社のモデルを顧客に販売する場合、「モデルのトレーニングに使用された質問と回答のコミュニティ メンバーを 1 人 1 人特定することができず、クリエイティブ コモンズ ライセンスに違反しています」と Chandrasekar 氏は言います。
Stack Overflow も Reddit も価格情報を公開していません。 Reddit のスポークスパーソンである Tim Rathschmidt 氏は次のように述べています。 Stack Overflow は Reddit の戦略を研究し、自社の潜在的な顧客に相談する予定であり、そのうちの何人かはすでにデータ アクセスについて連絡を取り合っている、と Chandrasekar 氏は言います。
価格設定の潜在的なロードマップは、今月 Twitter データへのアクセスの価格を引き上げた Elon Musk からもたらされる可能性があります。 月額 42,000 ドルから 5,000 万件のツイートにアクセスできます。 これまで無料で提供されていたツイートの約 3 倍のボリューム。 の 今週のツイート、マスクは、主要なAI開発者でありOpenAIの緊密なパートナーであるMicrosoftを、トレーニングアルゴリズムを「Twitterデータを違法に使用している」と非難しました。 詳しく説明することなく、彼は「訴訟の時間」と付け加えた。
Stack Overflow と Reddit はどちらも、引き続きデータのライセンスを一部の個人や企業に無料で提供します。 Chandrasekar は、Stack Overflow が大規模な商業目的で LLM を開発している企業からのみ報酬を求めていると述べています。 「私たちのサイトのように、コミュニティによって構築されたサイトで構築された製品に人々が課金を開始した場合、それはフェアユースではありません」と彼は言います。
Reddit CEO スティーブ・ハフマン 言った ニューヨークタイムズ 今週 彼は世界最大の企業に景品を与えたくなかった. 「Reddit をクロールして価値を生み出し、その価値をユーザーに返さないことは、私たちが問題を抱えていることです」と彼は言いました。