DeepMind は、AlphaDev の発見を、2016 年のグランドマスター イ・セドルとの囲碁対局における AlphaGo の奇妙だが勝利の一手と比較しています。「専門家全員がこの手を見て、『これは正しいやり方ではない』と言った。 これは不適切な行動だ」とマンコウィッツ氏は言う。 「しかし実際には、これは正しい行動でした。AlphaGo は最終的にゲームに勝つだけでなく、プロの囲碁プレイヤーが使い始めた戦略にも影響を与えることになりました。」
サンダース氏は感銘を受けているが、この結果を過大評価すべきではないと考えている。 「機械学習技術がプログラミングにおいてますます変革をもたらすものになっていることには私も同意します。AI がすぐに新しい、より優れたアルゴリズムを発明できるようになるだろうと誰もが期待しています」と彼は言います。 「しかし、私たちはまだそこまで到達していません。」
まず、Sanders 氏は、AlphaDev はアセンブリで使用できる命令のサブセットのみを使用していると指摘しています。 既存の並べ替えアルゴリズムの多くは、AlphaDev が試行しなかった命令を使用していると彼は言います。 これにより、AlphaDev を競合他社の最良のアプローチと比較することが難しくなります。
AlphaDev には限界があるのは事実です。 生成された最長のアルゴリズムは、最大 5 つの項目のリストを並べ替えるための 130 命令長でした。 各ステップで、AlphaDev は 297 の可能なアセンブリ命令 (さらに多くの中から) を選択しました。 「297 の命令と 130 を超える命令の長さの組み立てゲームを超えると、学習が遅くなりました」とマンコウィッツ氏は言います。
それは、たとえ 297 の命令 (またはゲームの手) があっても、AlphaDev が構築できるアルゴリズムの数は、チェスの可能なゲーム数 (10 個) よりも大きいためです。120) と宇宙の原子の数 (約 1080)。
より長いアルゴリズムについては、チームは AlphaDev をアセンブリではなく C++ 命令で動作するように適応させることを計画しています。 あまりきめの細かい制御では、AlphaDev は特定のショートカットを見逃す可能性がありますが、このアプローチはより広範囲のアルゴリズムに適用できます。
サンダース氏はまた、特により長いアルゴリズムについて、人間が考案した最良のアプローチとのより徹底的な比較を確認したいと考えています。 DeepMindは、それが計画の一部であると述べている。 マンコウィッツ氏は、AlphaDev と人間が考案した最高の手法を組み合わせて、AI をゼロから始めるのではなく人間の直感に基づいて構築できるようにしたいと考えています。
結局のところ、さらなる高速化が見つかる可能性があります。 「人間がこれを行うには、これらのプログラムを調べて改善点を特定するには、かなりの専門知識と膨大な時間 (場合によっては数日、場合によっては数週間) が必要です」とマンコウィッツ氏は言います。 「結果として、これまで試みられたことはありませんでした。」