中国の検閲制度では、バイドゥやその他のインターネット企業は、特定の Web サイトへのアクセスをブロックし、政治的にデリケートな話題を避ける必要があります。 ブロックする必要がある単語やフレーズは、抗議行動や特別なイベントに応じて迅速に更新できます。
しかし ジェフリー・ディン中国のテクノロジー産業を研究しているジョージタウン大学の助教授は、検閲に関する懸念が中国での大規模な言語モデルの開発を遅らせているようには見えないと述べています。 彼は、Baidu が新しいボットを支える Ernie 言語モデルをしばらくの間 API 経由で利用できるようにしており、他の企業も同様のモデルを提供していると述べています。
Baidu は Ernie Bot のトレーニング データの詳細を明らかにしていませんが、中国のインターネットからスクレイピングされたものである可能性が最も高いです。 これは、ボットの原料の大部分が、たとえば政府に対する批判を制限することを目的とした中国の検閲規則によってすでに精選されていることを意味します。
検閲は、より微妙な方法で中国のチャットボットにも影響を与える可能性があります。 中国でブロックされている中国語版ウィキペディアと、政府の検閲を受けるクラウドソーシングによる百科事典であるバイドゥのバイケでアルゴリズムをトレーニングした 2021 年からの学術研究プロジェクトでは、検閲されたトレーニング データを使用すると、AI ソフトウェアが割り当てた意味が大幅に変化することがわかりました。異なる言葉に。
中国語のウィキペディアでトレーニングされたアルゴリズムは、「民主主義」という言葉を「安定」などの肯定的な言葉に近づけました。 検閲された Baike 素材で訓練されたアルゴリズムは、「民主主義」を「混沌」に近づけ、中国政府の政策に沿ったものにしていました。 しかし、ChatGPT のようなチャットボットは非常に柔軟で、トレーニング データの素材をリミックスできるため、Baidu は追加の保護手段を導入する必要があった可能性があります。
さまざまな反応にもかかわらず、Ernie Bot は ChatGPT の強力な競争相手のようです。 ボットは現在、限られた数のユーザーのみが利用できますが、一部のユーザーは感銘を受けたと言っています. ChatGPT は中国では利用できませんが、中国語での会話は可能です。
レイ・リーAI を専門とするカリフォルニア大学サント バーバラ校の教授であり、以前はアーニー ボットの背後にある機械学習の一部を構築するために使用された技術に取り組んでいた . 対照的に、Microsoft は、Bing の新しいチャットボットのコア テクノロジと、Office の今後のテキスト生成機能のいくつかを OpenAI からライセンス供与し、その作成物に対する独占権と引き換えに数十億ドルを投資しました。
Li 氏はまた、記事やビジネス レポートを生成する機能など、Ernie Bot の機能のいくつかに感銘を受けたと述べています。 彼は、幻覚の問題は、そのようなすべての言語モデルにとっての課題であると付け加えています。 「これは、研究者がやるべきことがまだ残っているところです」と彼は言います。
WeChat ポスター 1 枚 中国のボットのデモ機能を ChatGPT の機能と比較しました また、中国語の慣用句の処理に優れており、場合によってはより正確であることがわかりました。 たとえば、ChatGPT は、SF 作家の劉慈欣の先祖代々の家であると誤って主張しました。 三体問題は湖北省ですが、Ernie Bot は河南省に正しく答えました。 ChatGPT は中国ではブロックされていますが、多くの人がアクセスする方法を見つけています。