収益の可能性を最大限に高めるために ChatGPT のようなツールに目を向ける人がいるのも不思議ではありません。 しかし、何人ですか? それを調べるために、スイス連邦工科大学 (EPFL) の研究者チームは、ギグワーク プラットフォーム Amazon Mechanical Turk で 44 人を雇用し、医学研究論文から 16 件の抜粋を要約しました。 次に、彼らは自分たちでトレーニングした AI モデルを使用して応答を分析し、単語の選択の多様性の欠如など、ChatGPT 出力の明らかなシグナルを探しました。 また、従業員が回答をコピーして貼り付けたかどうかを調べるために、従業員のキーストロークも抽出しました。これは、従業員が回答を他の場所で生成したことを示すものです。
彼らは、従業員の 33% ~ 46% が OpenAI の ChatGPT などの AI モデルを使用したことがあると推定しました。 研究論文の著者らによると、ChatGPTやその他のAIシステムがより強力になり、簡単にアクセスできるようになるにつれて、この割合はさらに高くなる可能性が高いという。 arXiv まだ査読されていません。
「クラウドソーシングプラットフォームの終わりではないと思います。 それはダイナミクスを変えるだけです」と、この研究の共著者である EPFL の助教授、ロバート・ウェストは言います。
AI が生成したデータを使用して AI をトレーニングすると、すでにエラーが発生しやすいモデルにさらにエラーが発生する可能性があります。 大規模な言語モデルは、定期的に誤った情報を事実として提示します。 他の AI モデルのトレーニングに使用される誤った出力が生成された場合、そのエラーはそれらのモデルに吸収され、時間の経過とともに増幅され、その原因を解明することがますます困難になると、コンピューター分野のジュニア研究員イリア・シュマイロフ氏は述べています。オックスフォード大学の科学博士であり、このプロジェクトには関与していませんでした。
さらに悪いことに、簡単な解決策はありません。 「問題は、人工データを使用すると、モデルの誤解や統計誤差によって誤差が生じることです」と彼は言います。 「自分のエラーが他のモデルの出力にバイアスを与えていないことを確認する必要がありますが、それを行う簡単な方法はありません。」
この研究は、データが人間によって生成されたのか、それとも AI によって生成されたのかを確認するための新しい方法の必要性を強調しています。 また、AI システムに供給されるデータを整理するという重要な作業をギグワーカーに依存するハイテク企業の傾向の問題の 1 つも浮き彫りにしています。
「すべてが崩壊するとは思わない」とウェスト氏は言う。 「しかし、AIコミュニティはどのタスクが最も自動化されやすいのかを綿密に調査し、これを防ぐ方法に取り組む必要があると思います。」