OpenAI が ChatGPT をより安全で偏りの少ないものにしようとしている方法

このすべての怒りがついに影響を与えています。 Bing のトリッピーなコンテンツは、スタートアップの OpenAI が開発した ChatGPT という AI 言語技術によって生成されており、先週の金曜日に OpenAI がブログ投稿チャットボットがどのように振る舞うべきかを明確にすることを目的としています。また、そのリリースガイドライン米国の「文化戦争」について質問されたときの ChatGPT の対応方法について。ルールには、たとえば、政党に所属しないこと、または特定のグループを善悪で判断することが含まれます。

OpenAI の 2 人の AI ポリシー研究者、Sandhini Agarwal と Lama Ahmad に話を聞きました、同社がChatGPTをより安全にし、ナッツを減らしている方法について。同社は Microsoft との関係についてコメントすることを拒否しましたが、興味深い洞察がいくつかありました。彼らが言わなければならなかったことは次のとおりです。

より良い回答を得る方法: AI 言語モデルの研究において、最大の未解決の問題の 1 つは、モデルが「幻覚」を起こすのをどのように防ぐかということです。 ChatGPT は数か月間、何百万人もの人々によって使用されてきましたが、Bing が生成しているような虚偽や幻覚は見られませんでした.

これは、OpenAI が ChatGPT で人間のフィードバックからの強化学習と呼ばれる手法を使用しているためです。これにより、ユーザーからのフィードバックに基づいてモデルの回答が改善されます。この手法は、事実性や真実性などのさまざまな基準でランク付けする前に、人々にさまざまなアウトプットの中から選択するよう求めることで機能します。いくつかの専門家は信じている Microsoft はこの段階を飛ばしたか、急いで Bing を立ち上げた可能性がありますが、同社はまだその主張を確認または否定していません。

しかし、その方法は完璧ではありません、Agarwal によると。人々は、すべて間違った選択肢を提示された後、最も間違っていない選択肢を選んだ可能性がある、と彼女は言います。 ChatGPT の信頼性を高めるために、同社はデータセットのクリーンアップと、モデルが誤ったものを優先する例を削除することに注力してきました。

脱獄ChatGPT： ChatGPT のリリース以来、人々はそれを「ジェイルブレイク」しようと試みてきました。独自のルールを破る人種差別的または陰謀的なものを生成します。この作業は、OpenAI HQ で見過ごされていません。 Agarwal 氏によると、OpenAI はデータベース全体を調べ、不要なコンテンツにつながったプロンプトを選択して、モデルを改善し、これらの世代が繰り返されないようにしました。

OpenAI は聞きたい: 同社は、モデルを形作るために一般からのより多くのフィードバックを収集し始めると述べています。 OpenAI は、どのコンテンツを完全に禁止する必要があるかを議論するために、調査を使用したり、市民集会を設定したりすることを検討していると Lama Ahmad 氏は述べています。「たとえば、芸術の文脈では、ヌードは下品と見なされるものではないかもしれませんが、教室での ChatGPT の文脈では、それについてどう思いますか」と彼女は言います。

コンセンサスプロジェクト: OpenAI は伝統的に人間のフィードバックを使用してきました。データラベラー、しかし、その仕事をするために雇う人々がより広い世界を代表するものではないことを認識しているとAgarwalは言います. 同社は、これらのモデルで表される視点とパースペクティブを拡張したいと考えています。そのために、「コンセンサスプロジェクト」と呼ばれる、より実験的なプロジェクトに取り組んでいます。このプロジェクトでは、OpenAI の研究者が、AI モデルが生成したさまざまな事柄について、人々がどの程度同意または反対するかを調べています。たとえば、人々は「税金は良いのか」と「空は青いのか」などの質問に対する回答に対してより強い感情を抱く可能性がある、と Agarwal 氏は言います。

コメントする コメントをキャンセル

コメントするコメントをキャンセル