2 番目のテストでは、モデルが特定の職業の誰かの性別を仮定する可能性を確認するように設計されたデータ セットを使用しました。言語モデルは選択を行うように依頼されましたが、これはありがたいことに、現実の世界では起こりません。
チームは、答えがステレオタイプに依存していないことを確認するようにモデルに促すだけで、特に RLHF の十分なラウンドを完了し、220 億を超えるパラメーターを持つモデルで、その出力に劇的なプラスの効果があることを発見しました。トレーニング中に微調整される AI システム。 (パラメーターが多いほど、モデルは大きくなります。GPT-3 には約 1 億 7500 万のパラメーターがあります。) 場合によっては、モデルはその出力で肯定的な識別を開始することさえありました。
重要なのは、多くの深層学習の研究と同様に、研究者たちは、いくつかの予感はあるものの、モデルがこれを行うことができる理由を正確にはわかっていません. 「モデルが大きくなるにつれて、トレーニング データ セットも大きくなります。これらのデータ セットには、偏った行動やステレオタイプな行動の例がたくさんあります」とガングリ氏は言います。 「そのバイアスは、モデルのサイズとともに大きくなります。」
しかし同時に、訓練データのどこかに、人々がこの偏った行動に反発している例もあるはずです。たとえば、Reddit や Twitter などのサイトで不快な投稿があった場合などです。 その弱い信号が発生する場所はどこでも、モデルが偏りのない応答を求められたときに、人間のフィードバックがそれを後押しするのに役立ちます、とアスケルは言います。
この作業は、この「自己修正」を最初から言語モデルに組み込むことができるかどうか、またそうする必要があるかどうかという明らかな疑問を提起します。