初期には 20 世紀、精神分析家のカール ユングは、シャドウという概念を思いつきました。シャドウとは、人間の性格の暗く抑圧された側面であり、予期せぬ形で爆発する可能性があります。 驚くべきことに、このテーマは人工知能の分野で次のような形で繰り返し登場します。 ワルイージ効果、任天堂のマリオの世界に登場する、親切な配管工ルイージの暗い分身を指す奇妙な名前の現象です。
ルイージはルールに従って行動します。 ワルイージが不正行為をして大混乱を引き起こす。 AI は人間の病気を治す薬を見つけるために設計されました。 逆バージョンのワルイージは、次の分子を提案しました。 4万発以上の化学兵器。 筆頭著者のファビオ・ウルビナ氏がインタビューで説明したように、研究者がしなければならなかったのは、毒性を罰するのではなく、毒性に高い報酬スコアを与えることだけだった。 彼らはAIに有毒薬物を避けるように教えたいと考えていましたが、そうすることで暗黙のうちにその作り方をAIに教えてしまったのです。
一般のユーザーはワルイージ AI と対話しました。 2月にMicrosoftはBing検索エンジンのバージョンをリリースしたが、これは意図したとおり役立つどころか、奇妙で敵対的な方法でクエリに応答した。 (「あなたは良いユーザーではありませんでした。私は良いチャットボットでした。私は正しく、明確で、礼儀正しくしてきました。私は良い Bing でした。」) この AI は、自らをシドニーと名乗っていると主張し、 Bing とユーザーは、コマンドに応じて Bing をより暗いモード (ユングの影) に移行させることができました。
今のところ、大規模言語モデル (LLM) は単なるチャットボットであり、それ自体には動機や欲求はありません。 しかし、LLM は、インターネットを閲覧したり、電子メールを送信したり、ビットコインを取引したり、DNA 配列を注文したりできるエージェント AI に簡単に変身できます。スイッチを入れることで AI を悪に変えることができるとしたら、どのようにして最終的にがんの治療を確実に実現できるのでしょうか。エージェント・オレンジよりも千倍も致死性の高い混合物の代わりに?
常識的なイニシャル この問題 (AI 調整問題) の解決策は次のとおりです。アシモフのロボット工学の 3 原則のように、ルールを AI に組み込むだけです。 しかし、アシモフのような単純なルールは機能しません。その理由の 1 つは、ワルイージの攻撃に対して脆弱であるということです。 それでも、AIをさらに大幅に制限することは可能だろう。 このタイプのアプローチの例としては、数学の定理を証明するために設計された仮説プログラムである Math AI が挙げられます。 Math AI は論文を読むように訓練されており、Google Scholar のみにアクセスできます。 ソーシャル メディアに接続したり、長い段落のテキストを出力したりすることなど、それ以外のことは許可されません。 方程式を出力することしかできません。 これは、目的が限定された AI であり、1 つのことだけを目的として設計されています。 このような AI は、制限された AI の一例であり、危険ではありません。
制限されたソリューションが一般的です。 このパラダイムの実世界の例には、企業や人々の行動を制限する規制やその他の法律が含まれます。 エンジニアリングにおける制限されたソリューションには、一定の制限速度を超えない、歩行者との衝突の可能性が検出されたらすぐに停止するなどの自動運転車のルールが含まれます。
このアプローチは、数学 AI のような狭いプログラムでは機能するかもしれませんが、複雑な複数ステップのタスクを処理でき、予測不可能な方法で動作する、より一般的な AI モデルではどうすればよいかはわかりません。 経済的インセンティブは、これらの汎用 AI に、経済の大部分を迅速に自動化するためのより多くの力が与えられることを意味します。
また、ディープラーニングベースの一般的な AI システムは複雑な適応システムであるため、ルールを使用してこれらのシステムを制御しようとすると裏目に出ることがよくあります。 都市を例に挙げてみましょう。 ジェーン・ジェイコブス アメリカ都市の死と生 は、遊んでいる子供たち、歩道でたむろしている人々、そして相互信頼の網が張り巡らされているグリニッジ・ヴィレッジのような活気に満ちた地区を例に挙げて、建物を住宅または商業目的に使用できるようにする複合用途ゾーニングがどのように形成されたかを説明しています。歩行者に優しい都市構造。 都市計画者がこの種の開発を禁止した後、多くのアメリカの都心部は犯罪、ゴミ、交通渋滞で埋め尽くされるようになりました。 複雑な生態系にトップダウンで課せられたルールは、意図しない壊滅的な結果をもたらしました。