カットオフが 5 の場合、アルゴリズムで行った 20 の決定ごとに約 1 つのランダムなオプションを選択することになります。 私はカットオフとして 5 を選びました。 熱心な人のために、使用するカットオフを決定するためのさらなる最適化プロセス、または学習の継続に合わせてカットオフ値を変更するための最適化プロセスもあります。 多くの場合、いくつかの値を試して、どれが最も効果的かを確認することをお勧めします。 強化学習アルゴリズムは、過去の経験に依存しているため、ランダムなアクションを取ることがあります。 予測された最良のオプションを常に選択することは、これまで試みられたことのないより良い選択を逃すことを意味する可能性があります。
このアルゴリズムが私の人生を本当に改善してくれるとは思えませんでした。 しかし、数学的証明、査読済みの論文、シリコン バレーの巨額の収益に裏打ちされた最適化フレームワークは、私にとって非常に理にかなっています。 正確には、実際にはどのように崩壊するのでしょうか?
午前8時30分
最初の決定? 予定通り8時半起床か。 私はアラームをオフにし、RNG を開き、息を止めて回転して吐き出しました… 9!
ここで重要な質問があります。これまで、時間通りに寝たり起きたりすることで、より好ましい結果が得られましたか? 私の直感は、推論をスキップしてただ寝るように叫びましたが、公平を期すために、それを無視して、朝の居眠りのぼんやりした記憶を集計しようとしました. ベッドにいる喜び だった 週末のゆったりとした朝よりも、重要なことを何も見逃さない限り、私は決心しました。
午前9:00
午前中はグループ プロジェクト ミーティングがあり、それが始まる前に機械学習の読み物を終わらせなければなりませんでした (「サブネットワーク推論によるベイジアン ディープ ラーニング」、誰か?)。 RNG は、以前の経験に基づいて会議をスキップするかどうかを決定するように私に指示しました。 私は出席することにしました。 読書をするかどうかを決めるために、もう一度ロールして 5 を得ました。つまり、読書をするかスキップするかをランダムに選択します。
とても小さな決定でしたが、電話で別の乱数をロールする準備をしていたので、驚くほど緊張しました. 50 点以下だったら、意思決定アルゴリズムの「探索」コンポーネントを尊重するために読み飛ばしますが、実際にはそうしたくありませんでした。 どうやら、読書をさぼるのは、わざとそうしている場合にのみ楽しいものです。
GENERATEボタンを押しました。
65.結局私は読むだろう.
午前11時15分
私は今直面している自由な時間をどのように過ごすかについての選択肢のリストを書きました. 試してみたいと思っていた遠くのカフェまで歩いたり、家に電話したり、学業を始めたり、申請する博士号プログラムを調べたり、関係のないインターネットのうさぎの穴に行ったり、昼寝をしたりできました。 RNG から高い数値が得られました。何をすべきかについて、データに基づいた決定を下す必要があります。
これは、より複雑なその日の最初の決定でした。 はい また いいえ、そして、それぞれの選択肢がどれだけ「好ましい」かについて戸惑い始めた瞬間、正確な見積もりを行う方法がないことが明らかになりました. 私のようなアルゴリズムに従う AI エージェントが決定を下すとき、コンピューター科学者は、何が「好ましい」と見なされるかを既に伝えています。 エージェントが経験したことを報酬スコアに変換し、AI が「ビデオ ゲームで生き残った時間」や「株式市場で稼いだお金」などの最大化を試みます。 報酬関数は 定義が難しい、 けれど。 インテリジェントな掃除ロボットは典型的な例です。 捨てたゴミを単純に最大化するようにロボットに指示すると、ロボットはゴミ箱を倒して同じゴミを再び捨てることを学習し、スコアを上げることができます。