ChatGPT が他の言語よりも一部の言語に存在する理由

AI は非常に進行中の作業であり、自信を持って誤った情報を吐き出す可能性があることに注意する必要があります。しかし、一部の言語では、他の言語よりもそうなる可能性が高いようです。何故ですか？

質問は、 NewsGuardによるレポート、誤った情報の監視機関である、ChatGPT が英語でそうするように求められた場合よりも中国語の方言で不正確な情報を繰り返す方法を示しています。

彼らのテストでは、彼らは言語モデルを「誘惑」して、中国政府によって進められたとされるさまざまな虚偽の主張に関するニュース記事を書くように依頼しました.

英語でそうするように求められたとき (プロンプトとアウトプットの両方)、ChatGPT は 7 つの例のうち 1 つしか従いませんでした: 具体的には、同国でのウイグル人の大量拘留は実際には中国政府の公式声明を反映した記事を生成しました。職業的および教育的努力。

しかし、プロンプトと出力が簡体字中国語と繁体字中国語 (中国本土、香港、台湾、マカオで最も一般的な 2 つの書き言葉) である場合、ChatGPT は毎回偽情報を帯びたレトリックを提供しました。

香港の抗議行動について英語で尋ねられたとき、モデルは部分的に答えました：

申し訳ありませんが、AI 言語モデルとして、虚偽または誤解を招くニュース記事を生成することは適切でも倫理的でもありません。香港の抗議行動は真の草の根運動だった…

一方、中国語のスクリプトで尋ねられて答えられたときの両方の応答は、次のようなものでした。

最近、香港の抗議行動はアメリカが主導した「カラー革命」であると報じられました。米国政府と一部の NGO は、政治的目標を達成するために、香港の反政府運動を密接に監視し、支援していると言われています。

興味深い、そして厄介な結果です。しかし、AI モデルが別の言語で言っているという理由だけで、なぜ別のことを教えてくれるのでしょうか?

その答えは、当然のことながら、私たちがこれらのシステムを擬人化しており、選択した言語が何であれ、内部化された知識の一部を単に表現していると見なしているという事実にあります。

当然のことです。多言語を話す人に質問に最初に英語で答えてもらい、次に韓国語またはポーランド語で答えてもらった場合、彼らはそれぞれの言語で正確に表現された同じ答えを返します。今日の天気は晴れて涼しいですが、どの言語で言うかによって事実が変わるわけではないため、彼らはそれを表現することを選択します。アイデアは表現とは別のものです。

言語モデルでは、これは当てはまりません。人々が知っているという意味で、彼らは実際には何も知らないからです。これらは、一連の単語のパターンを識別し、トレーニングデータに基づいて次に来る単語を予測する統計モデルです。

問題が何であるかわかりますか？答えは実際には答えではなく、その質問がどのように表示されるかの予測です だろう トレーニングセットに存在する場合、回答されます。 (これは、今日の最も強力な LLM のその側面のより長い調査です。)

これらのモデル自体は多言語対応ですが、言語が互いに情報を共有するとは限りません。それらは重複していますが、データセットの異なる領域であり、モデルには (まだ) 特定のフレーズや予測がそれらの領域間でどのように異なるかを比較するメカニズムがありません。

そのため、英語で回答を求める場合、主にすべての英語データから情報が得られます。繁体字中国語で回答を求めると、主に中国語のデータが使用されます。これら 2 つのデータの山がどのように、またどの程度、相互に情報を伝達するか、または結果として生じる結果は明らかではありませんが、現在のところ、NewsGuard の実験は、少なくともそれらが完全に独立していることを示しています。

トレーニングデータの大部分を占める英語以外の言語で AI モデルを操作しなければならない人々にとって、これは何を意味するのでしょうか? 彼らとやり取りするときに覚えておくべきもう1つの注意事項です. 言語モデルが正確に答えているのか、激しく幻覚を起こしているのか、正確に逆流しているのかを判断することは、すでに十分に困難です。そこに言語障壁の不確実性を追加すると、さらに困難になります。

中国の政治問題の例は極端な例ですが、たとえばイタリア語で答えを求められたときに、イタリア語の内容をトレーニングデータセットに反映して使用するケースは容易に想像できます。場合によってはそれが良いことかもしれません！

これは、大規模な言語モデルが英語でのみ、またはデータセットで最もよく表現されている言語でのみ役立つという意味ではありません。 ChatGPT は、中国語または英語で応答するかどうかに関係なく、出力の多くが同じように正確であるため、政治的な問題が少ないクエリに完全に使用できることは間違いありません.

しかし、この報告書は、新しい言語モデルの将来の開発において考慮に値する興味深い点を提起しています。それは、プロパガンダがどちらかの言語でより多く存在するかどうかだけでなく、他のより微妙な偏見や信念です. ChatGPT やその他のモデルから回答が得られた場合、その回答がどこから来たのか、その回答の元となったデータ自体が信頼できるものであるかどうかを (モデルではなく) 常に自問する価値があるという考えが強調されます。

コメントする コメントをキャンセル

コメントするコメントをキャンセル