「すべての人のためのパーソナル AI」の開発を目指す、資金豊富な AI スタートアップ企業 Inflection は、同社の Pi 会話エージェントを強化する大規模な言語モデルを完全に取り除きました。 客観的かつ体系的にはもちろんのこと、こうしたものの質を評価するのは難しいですが、少し競争するのは良いことです。
屈折-1モデルと呼ばれるこのモデルは、トレーニングに使用されるコンピューティング能力で測定すると、およそ GPT-3.5 (別名 ChatGPT) のサイズと機能を備えています。 同社は、この層の他のモデルと競合または優れていると主張し、そのモデルである GPT-3.5、LLaMA、Chinchilla、および PaLM-540B で実行したいくつかのベンチマークを説明する「技術メモ」でそれを裏付けています。
彼らが発表した結果によると、Inflection-1 は、中学および高校レベルの試験課題 (生物学 101 を考えてください) や「常識」ベンチマーク (「ジャックが屋根にボールを投げたらそしてジルはそれを下に投げ返します、ボールはどこにありますか?」)。 主にコーディングの面で劣っていますが、GPT-3.5 はそれを簡単に上回り、比較として GPT-4 は競合に負けています。 OpenAI の最大のモデルは、そこで品質が大幅に向上したことはよく知られているため、驚くことではありません。
Inflection 氏は、GPT-4 や PaLM-2(L) に匹敵する大規模なモデルの結果を公開する予定であると述べていますが、公開に値する結果が得られるまで待っているのは間違いありません。 いずれにせよ、Inflection-2 や Inflection-1-XL などはオーブンに入っていますが、完全に焼き上がっていません。
これまでのところ、コミュニティは AI モデルをボクシングの階級に相当する機械学習に正式に分割していませんが、概念は相互に非常によく対応しています。 フライ級選手がヘビー級選手と対戦することは期待できません。両者は実質的に異なるスポーツです。 AI モデルも同様です。小規模なものは大規模なものほど機能はありませんが、小規模なものは電話で効率的に実行されますが、大規模なものはデータ センターを必要とします。 それはリンゴからオレンジへの話です。
この分野はまだ比較的歴史が浅く、AI モデルのどのようなサイズと形状を羽とみなすべきかについて本当のコンセンサスがないため、そのようなことを試みるにはまだ時期尚早です。
もちろん、これらのモデルのほとんどでは、最終的にプリンの証拠はテイスティングにあり、Inflection がそのモデルを広く使用し、独立した評価に開放するまでは、その自慢のベンチマークはすべて割り引いて理解する必要があります。 Pi を試してみたい場合は、次のようにすることができます。 追加してください メッセージング アプリのいずれかで、または ここでオンラインでチャットしてください。