GPT-4 と並んで、OpenAI は同社の AI モデルのパフォーマンスを評価するためのフレームワークをオープンソース化しました。 呼ばれた 評価、OpenAIによると、このツールは、誰でもモデルの欠点を報告して、さらなる改善を導くことができるように設計されている.
OpenAI によると、これはモデル テストに対する一種のクラウドソーシング アプローチです。
「私たちは Evals を使用してモデルの開発をガイドします (欠点の特定と回帰の防止の両方)。ユーザーは、モデルのバージョン間でパフォーマンスを追跡し、製品統合を進化させるためにそれを適用できます」と OpenAI は書いています。 ブログ投稿 リリースを発表。 「私たちは、Evals がベンチマークを共有し、クラウドソーシングするための手段になり、最大限に幅広い一連の失敗モードと困難なタスクを表すことを望んでいます。」
OpenAI は、パフォーマンスを検査しながら GPT-4 のようなモデルを評価するためのベンチマークを開発および実行するための Eval を作成しました。 Evals を使用すると、開発者はデータ セットを使用してプロンプトを生成したり、OpenAI モデルによって提供される補完の品質を測定したり、さまざまなデータ セットやモデル間でパフォーマンスを比較したりできます。
いくつかの一般的な AI ベンチマークと互換性のある Evals は、カスタム評価ロジックを実装するための新しいクラスの作成もサポートしています。 従うべき例として、OpenAI は、GPT-4 が失敗する 10 個のプロンプトを含むロジック パズル評価を作成しました。
全て無償労働です。 しかし、Evals の使用を奨励するために、OpenAI は「高品質」のベンチマークに貢献した人に GPT-4 アクセスを許可する予定です。
「Evals は、モデルを使用して構築するプロセスの不可欠な部分になると信じており、直接の貢献、質問、およびフィードバックを歓迎します」と同社は書いています。
Evals により、OpenAI は、顧客データを使用してモデルをトレーニングすることをデフォルトで停止すると最近発表しましたが、AI モデルを強化するためにクラウドソーシングに目を向けた他の企業の足跡をたどっています。
2017 年、メリーランド大学の Computational Linguistics and Information Processing Laboratory は、Break It, Build It と呼ばれるプラットフォームを立ち上げました。これにより、研究者は、モデルを打ち負かすための例を考え出す任務を負ったユーザーにモデルを提出できます。 また、Meta は Dynabench と呼ばれるプラットフォームを維持しています。このプラットフォームには、センチメントの分析、質問への回答、ヘイト スピーチの検出などを行うように設計されたユーザーの「ツール」モデルがあります。