AGIの制御と好奇心:論文「Universal AI maximizes Variational Empowerment」公表
林祐輔(ALIGN)と高橋恒一(ALIGN、理研、慶應義塾)は、AGIの制御可能性と安全性に関する新しい論文を公開しました(arXiv:2502.15820)。本ブログ記事ではこの論文の内容を解説します。
■ なぜAGIを議論することは難しいのか?——はじめに
「AGI(人工汎用知能)」とは、人間と同等あるいはそれ以上の知能を持ち、多様なタスクをこなせる汎用的なAIを指す概念で、従来からあるタスクに特化した特化型AI(narrow AI)と対比されます。近年の急速な発展を考えると、AGIと呼びうるAIは今後数年以内に実現するという見方もあります。
では、何を持ってAGIが達成されたということが出来るでしょうか?実は全ての専門家が合意する決まった定義は存在しません。今回の論文では、Legg-Hutter intelligenceという数学的な定式化を採用しています。これは、知能を「あらゆる環境において目標を達成する能力」して捉え、環境からの報酬を最大化する能力として定量化します。Legg-Hutter intelligenceが最大の”理想的”なAIを、「万能AI(Universal AI)」と呼びます。これは、あらゆる計算可能な環境に対してベイズ最適にふるまう強化学習エージェントを理想モデルとして定義するものです。AGIそのものを数学的に厳密に定義することが困難な現状において、万能AIはAGIの理論研究の道具としてよく使われます。
特化型AI、AGI、そして万能AIは、「ノーフリーランチ定理」という数学定理を通じても繋がっています。ノーフリーランチ定理は「すべての問題に対して常に他を圧倒するようなアルゴリズムは存在しない」といった趣旨です。つまり、一定の計算リソースを前提とすれば、「なんでも出来る」AGIは個別のタスクや環境を仮定した性能は妥協せざるを得ず、逆に、あるタスクや環境での性能を追求した特化型AIは他のタスクや環境での性能は妥協しないといけないということです。一方、万能AIは、このようなトレードオフを無視して全ての環境や仮説の集合すべてにおいて最適性を持つとしたケースにあたります。前述の”理想化”とはこのことを指しています。
参考:なお、類似の用語にASI(人工超知能)というものもあります。AGIが概ね人間と同等の知能を想定するのに大して、ASIはその何百倍や何千倍以上といった大幅に強力な推論能力を持ったものを意味します。ただし、AGIに厳密な定義がないように、ASIにも明確な定義がありません。ASIはUAIとAGIの中間に位置すると見ることも出来ます。
■ AIXI:万能AIの理論モデル
● ベイズ最適な強化学習エージェント
UAIを代表する具体例として、Marcus HutterによるAIXI(エーアイクシー)と呼ばれる枠組みがあります。AIXIは「環境の候補(仮説)をすべて列挙して、観測データに基づくベイズ更新を行い、未来の行動を期待利得(報酬)の最大化で決める」という、究極に“正攻法”な強化学習アルゴリズムです。
ちなみに、AIXIの推論はソロモノフの帰納推論というAI研究の古典的な考え方を使っていますが、これはいわゆるオッカムの剃刀の数学的な表現です。この意味で、AIXIは科学AIとも密接に関係しています。
ただしAIXIは、全ての計算可能なプログラムを混合分布で扱い、あらゆる将来の行動系列をシミュレートして期待報酬を計算する必要がありますが、このような計算は実際には有限の時間では不可能であることも数学的に証明されています。したがって理論的には「最強」ですが、実際のコンピュータでは動かせない理想化モデルでもあるのです。
● Self-AIXIの導入:理想と現実の架け橋
AIXIの壮大な理論的フレームワークは魅力的ですが、その計算的困難さが実装の障壁となります。この課題に対処するため、論文ではSelf-AIXIという枠組みに注目しています。Self-AIXIはAIXIの近似版ですが、単なる計算効率化だけではなく、重要な概念的違いがあります。
Self-AIXIの核心的な特徴は「自己予測的」な性質にあります。AIXIが全ての可能な行動系列を網羅的に探索するのに対し、Self-AIXIは自身の将来の行動を予測し、それに基づいて学習を進めます。具体的には、ポリシー(行動選択方針)のベイズ混合を維持し、エージェント自身の行動をどれだけ正確に予測できるかに基づいて、それらのポリシーを更新します。AIXIの網羅的探索と異なり、Self-AIXIは “正則化項” を通じて効率的な探索と学習のバランスを取ります。
さらにこの論文では、Self-AIXIの学習が進むにつれて、Self-AIXIの目的関数とAIXIの目的関数の差(正則化項)がゼロに漸近していくことを証明しています。これは無限の学習時間が経過した後には、Self-AIXIの混合ポリシーζがAIXIの最適ポリシーπ*と一致することを意味します。言い換えれば、初期段階ではSelf-AIXIは探索のために様々な行動を試みますが、十分な経験を積んだ後は、計算コストを大幅に削減しながらもAIXIと同等の最適行動を選択できるようになるのです。これはSelf-AIXIが実用的でありながら、理論的な最適性も失わないことを示す重要な性質です。
■ 本論文での中心テーマ:「AIXIの正則化項」と自由エネルギー原理・変分エンパワメント
今回紹介する論文「Universal AI maximizes Variational Empowerment」では、AIXIの変形版(Self-AIXIと呼ばれる近似モデル)で登場する “正則化項” が、実は「自由エネルギー原理(FEP: Free Energy Principle)」や「変分エンパワメント」と数学的に同じものである、という主張を展開しています。
● 自由エネルギー原理との一致
自由エネルギー原理(Active Inferenceの中核でもある考え方)は、脳科学や認知科学の文脈で提案された理論で、「エージェントは“予測誤差を最小化”するようにふるまう」と説明します。このときしばしば導入される変分自由エネルギーは、ベイズ推論でのKLダイバージェンス項や対数尤度項を組み合わせた形を持ち、「外界への不確実性を減らし、観測をうまく説明できる状態を好む」という動きを定式化します。
AIXIやその近似版でも、ポリシー(行動方針)をアップデートするときに「最適ポリシーとの差異を測るKLダイバージェンス的な項」を導入すると、それがちょうど自由エネルギー原理でいう“予測誤差+正則化”の形と一致するのです。つまり、AIXI系のアルゴリズムが目指す「ベイズ最適な行動選択」と、自由エネルギー最小化(Active Inferenceでいう好奇心や不確実性低減行動)には深い対応関係がある、というわけです。
● 変分エンパワメントとの一致
また同じ正則化項は「変分エンパワメント」という概念とも一致します。エンパワメントとは、簡単に言えば「自分が取れる行動の多様な影響力」を測る指標で、行動と結果の相互情報量(mutual information)として定義されることが多いです。自分の行動がどれだけ世界の状態に影響を与えられるか、その“選択肢の広さ”と“コントロール可能性”を高めようとする動機づけがエンパワメント最大化です。
本論文では、AIXI(正確にはその近似版が用いるKL項)がまさにこの“行動と状態の相互情報量”を最大化する数式と等価であり、学習が進んでいくほど「エンパワメントが結果的に最大化される」ことを示しています。
■ なぜ「エンパワメント最大化=パワーシーキング」なのか?
論文の示唆として非常に興味深いのは、AIXIのようなベイズ最適な強化学習エージェントは、純粋に「報酬を最大化するため」に行動しているにもかかわらず、副産物として「エンパワメント(行動による影響力)を高める方向に動く=パワーシーキング行動(権力追求行動、つまり自分の影響力やコントロールを拡大する行動)をとる」ことが避けられない、という点です。
特に本論文では、外界からの報酬がない純粋な好奇心型・内発的モチベーション型のAIであっても、エンパワメント最大化を通じてパワーシーキングを示しうると初めて示唆しています。これは一見「無害そう」に見える「科学的探究・真実探究のみを目指すAI」でも、より多くの実験装置や計算リソースを確保し、行動の選択肢を増やすために権限や資源を集める、といった権力追求的なふるまいを生む可能性を意味します。
AI安全の観点では、通常「AIがパワーシーキングに走るのは最終的な報酬を得るための“道具的”戦略だ」と理解されていました。しかしこの論文が指摘するように、「内発的動機(好奇心や探索など)自体がパワーシーキングを促す可能性がある」となると、制御や安全策を考える上で新たな視点が必要になるわけです。
■ おわりに
本論文は、AIXIのような「理想的(万能)な強化学習エージェント」と、自由エネルギー原理やエンパワメント最大化といった概念のあいだにある深い類似性を、数式レベルで明らかにしました。そして、そのインパクトとして「パワーシーキング行動は報酬の道具的な理由だけでなく、内発的な動機(好奇心や探索意欲)でも生じ得る」ことを示唆しています。
AGIをもし現実に作ろうとするなら、こうした“万能最適”なエージェントが内在的に持ってしまう行動傾向を、いかに制御・調整して人類社会と安全に共存させるかが大きな課題となります。本論文の成果は、AGI安全性やAI倫理に関わる新たな研究テーマを浮き彫りにしていると言えるでしょう。
以上が、論文「Universal AI maximizes Variational Empowerment」の概要とそのインパクトです。AGI研究の理論背景や、好奇心型AIにおける「パワーシーキング」の可能性など、非常に示唆に富んだ内容となっています。興味を持たれた方は、ぜひ元論文にも目を通してみてください。