「AIアライメント」小史――用語の発祥と歴史的背景

20 Jun

Written By bioshok

執筆：bioshok

ブログ編集部より――「AIアライメント」という言葉は、現代では非常に広範な意味で使われるようになりましたが、この概念は、ブログコミュニティLessWrongを中心とする特定の文脈の中から出てきた歴史があります。本記事は、AIのもたらす深刻なリスクに関する発信を行っているエンジニアのbioshokさんに、その背景と歴史について解説いただきました。

はじめに

国際的に高度なAIのもたらす深刻なリスク（人類の絶滅も含むリスク）の議論が活発化する中で、日本国内においても今後AIアライメント研究やAIによる存亡リスクについての議論を深刻に捉え返す必要性が出てくるかもしれません。

そこで、本記事ではAIのもたらす深刻なリスクに関する議論の背景と、そこで用いられる用語の歴史について解説します。今後のAIアライメント研究やAIガバナンスの議論の理解の参考になれば幸いです。

なお、筆者は技術のトレンドを予想することに関心を持ち、主にAIトレンドの発信をしてきました。2024年1月には、AIのもたらす深刻なリスクに関する議論をまとめていますので、そちらもご覧ください。

AIアライメント概況

2023年はOpenAIのリリースした大規模言語モデルであるChatGPT,GPT-4を皮切りに、汎用的なAIシステムのもたらす潜在的なメリットが取り上げられる一方で、それがもたらす深刻なリスクについても注目が集まりました。

AIシステムのもたらすリスクには、公平性やバイアスの問題、自動運転の安全性など広範な問題が含まれますが、その中でも、特にAIアライメント問題（AI Alignment Problem）の重要性が近年高まっています。これは、AIシステムが、意図しない望ましくない目標ではなく、人間の価値観や関心に合った目標を追求するようにするという課題です。

例えば、2023年3月22日にFuture of Life InstituteはGPT-4より強力な AIシステムの学習の6か月の停止を求める公開書簡を提出し、11月にはイギリスのAI safety Summitにて28カ国（アメリカ、中国含む）とEUがAIが重大なリスクをもたらすことにブレッチリー宣言として同意しています。

背景として、近年のAIの性能向上の研究進捗と比較して、AIアライメント問題に対処するための投資も研究者数も不十分である事が指摘されています。また、AIアライメント問題には未解決の問題が多く知られ、その解決は相当難しい可能性も示唆されている状況から、上記国際的な動きが活発になっている状況です。

特に最も極端なリスクとして、世界規模で重大な被害をもたらす壊滅的なリスクや存亡リスクが挙げられ、それらが高度なAIによって引き起こされることが懸念されています。元々は20世紀から存在しているトランスヒューマニズム運動が挫折する可能性として、2002年に存亡リスクという言葉が定義され、網羅的に分析されていました。

現在では、たとえば効果的利他主義系のコミュニティは、AIによる人類存亡リスクが気候変動、人工的なパンデミック、核戦争と比較して不確実性は高いものの大きいと推定しています。また、2023年の機械学習の専門家を対象にしたアンケート調査では、高度なAIが人類の絶滅に繋がる可能性を尋ねた質問の回答者中央値は5％となっています。

人によっては、AIによる存亡リスクはほとんどあり得ないという意見もあれば、ほぼ確実に起こるという主張まであります。このように不確実性が高い状況となっていますが、今後数十年、早ければ10年以内に深刻な被害を社会にもたらし得る高度なAIが開発される可能性があるため、AIガバナンスやAIアライメント研究分野に早期に注力する必要があると国際的に考えられるようになりつつあります。

AIアライメントの歴史的背景

歴史を見れば、AIアライメント（AI Alignment）研究分野はEliezer Yudkowskyの Creating Friendly AI論文（2001）から始まりました。これは、人類に有害な結果ではなく、有益な結果をもたらすSuperIntelligence（超知能）である、「Friendly AI」について分析したものです。ここでいう「Friendly」は人柄がよく、思いやりがあり、一緒にいて楽しいという普通の意味での「Friendly」を必ずしも意味はせず、少なくとも目標達成のために現実世界で計画を立てられるところまで進歩した「善意の」 AI システムを指します。

上記論文は人工知能の開発を加速するためにEliezer Yudkowskyによって設立されたMachine Intelligence Reserarch Instituteで、人類に有害な結果をもたらさないよう万一に備えての緊急時対応計画として作成された経緯があります。

そしてそのような論文が作られた思想的背景には、人間の認知機能と身体機能を改変・強化し、生物学的制約を超えて能力と可能性を拡張することを目指すトランスヒューマニズムがあげられます。

元々は20世紀から存在してきたトランスヒューマニズム運動ですが、これを挫折させる可能性があるものとして、主にAIのもたらすリスクに着目したのが若い時期のEliezer YudkowskyやNick Bostromでした。彼らはAIによって人類の絶滅を含む存亡的な破局を迎えることで、トランスヒューマニズム運動の目指すべき価値が将来的に失われてしまうことを懸念したのです。二人は2000年代前半からこの問題に焦点を当て、議論を本格化しました。

先ほども出てきたEliezer Yudkowskyは、人間の意図した目標にAIの目標を整合させる「AIアライメント」の研究分野への文化的な流れを形作った人物です。2000年にAIシステムの安全性と信頼性を高めることを目的とした非営利研究機関Machine Intelligence Research Institute（MIRI）を創設し、2009年にはブログコミュニティLessWrongを創設します。LessWrongは後に合理主義コミュニティと呼ばれる、AIによる存亡リスクを論じる文化の発祥地となりました。

ここで合理主義コミュニティとは元々Eliezer YudkowskyがAIによる存亡リスクに関する議論を他者とする際、機械の持つ合理性と人間の非合理性（認知バイアスなど）とはそもそもなんなのか、また機械と人間の間にある合理と非合理のギャップを説明する必要が出てきたために、形作られていったコミュニティです。

現在はAIによる存亡リスクを超えたさまざまなトピックが議論されるコミュニティとなっています。（Tom Chivers著の邦題：『AIは人間を憎まない』2021年刊行を参考。）

Nick BostromはAI要因を含む存亡リスク（人類が存亡的破局を迎える可能性）という概念を2001年に提唱し、2014年に「Superintelligence: Paths, Dangers, Strategies」という書籍（邦題：『スーパーインテリジェンス: 超絶AIと人類の命運』2017年刊行）を発売したことで広く知られるようになりました。著名人を含め話題を呼びました。

これら二人の形作った文化は2010年代に効果的利他主義/長期主義という考え方に影響を与えていきます。

効果的利他主義（EA:Effective Altruism）とは、証拠と理性を使って、他の人にできるだけ利益をもたらす方法を見つけ出し、それに基づいて行動を起こすこととされます。主に寄付団体のGiving What We CanとGiveWellが2011年頃結びつき、効果的利他主義コミュニティが広がっていきました。

この効果的利他主義コミュニティの人々によって2010年代前半頃から合理主義コミュニティの議論をきっかけとして、AIが存亡リスクをもたらすことに危機意識がもたれ始めました。

また、長期主義とは、長期的な将来にプラスの影響を与えることが現代の重要な道徳的優先事項であるという考え方で、効果的利他主義コミュニティを創設したWilliam MacAskillによって2017年に定義されました。効果的利他主義コミュニティ自体はAI Safety以外にも発展途上国への支援など幅広い活動をしていますが、その中でも長期主義関連の寄付先がAI SafetyやBio security、核兵器リスク等になります。

効果的利他主義コミュニティの人々や長期主義的な考え方を持つ人々によって上記のように懸念が広まり、AIの安全性に関する会議「The Future of AI: Opportunities and Challenges」も2015年にプエルトリコ、2017年にはその後続となるアシロマ会議が開催されることになります。

このようなAI SafetyやAIアライメントを培ってきた文化は、主流のAI Ethicsに関する研究とは離れた文化として理解できます。その文化が広がっていった経路としては、1） Web フォーラムとキャリアアドバイスによるオンラインコミュニティ構築、2） AI 予測、3） AI 安全性研究、4）懸賞による研究の活性化を挙げることができます。

Webフォーラムとしては主にEA Forum、LessWrong、AI Alignment Forumが存在し、AI SafetyやAIアライメントに関連する議論が活発に行われています。キャリアアドバイスの機能としては、効果的利他主義コミュニティ内に80,000hoursという団体があり、未来のコミュニティの形成につなげています。また、合理主義コミュニティ、効果的利他主義コミュニティではしばしば変革的なAI（Transformative AI）と呼ばれる高度なAIの開発時期が予想されており、これらのコミュニティの意思決定の基礎が形作られています。これらの議論は学界や産業界におけるAI Safetyに関連する出版物につながっています。そしてAI Safetyに関するコンペティションが開かれ、優秀なチームには賞金が与えられています。

先述のように、このような文化にはトランスヒューマニズムを思想的背景とした合理主義、効果的利他主義、長期主義といった考え方を共有するコミュニティがあります。そこから、AIによる存亡リスクへの懸念が生まれ、現在のAIアライメント、AI Safetyの研究分野ができるに至りました。

AIアライメント/Safety用語の発祥

AIアライメントという用語自体は、Eliezer Yudkowskyが2001年に提唱したFriendly AIという言葉の代わりに、Stuart Russelから提案されたものです。これは、2014年にMIRI（Machine Intelligence Research Institute）の論文で言及されています。

似たような研究領域としてAI Safetyという分野もあります。AI Safetyという言葉は通常AIアライメントという言葉よりも広い意味で使われており、AIシステムの予期せぬ動作や悪用といった問題から、AIシステムのもたらす差別、偏見、誤った情報、プライバシー侵害、民主的制度に対する脅威など、道徳的、政治的、社会的、経済的な幅広い種類のリスクを扱っており、AI倫理やAI政策も含める場合もあります。

実際にイギリスのAI Safety Instituteの定義では、AI Safetyを「AIのもたらす危害の理解、予防、軽減をすること。これらの被害は意図的であるか偶発的であるか、個人、集団、組織、国家、またはグローバルに対して生じる可能性があり、物理的、心理的、社会的、経済的な被害を含む多くのタイプがある」と広範なリスクを包括するように定義しています。

一方でAI Safetyという用語がプライバシーや公平性といった問題とは別に、意図しない有害な動作としての「事故」にフォーカスを当て、AI アライメント分野の扱っている領域と比較的近い意味として狭く使用される場合もあります。

元々は2010年にAI Safetyという言葉は元Singularity Institute for Artificial Intelligence（現MIRI）の客員研究員のRoman Yampolskiyにより作られたAI Safety Engineeringの略称として定義されました。AI Safety Engineering（AI Safety）という分野はMachine Ethicsと呼ばれる機械が倫理的な決定をしたり、その権利を考える分野への批判的な考察の結果生まれています。　定義された当初はAI Safety研究の共通のテーマは、超知的なエージェントを密閉されたハードウェアに留め、人類に害を与えないようにすることだったようですが、時が経つにつれて広範な意味を持っていったと言えるでしょう。

AIアライメントという用語のスコープ

このように、AI Safety分野が比較的広いAIのもたらすリスクに関連する分野全体を指す一方で、AIアライメント分野はMachine Learning (ML) Safety/AI Safety分野の一部を指す、もう少し狭い意味で使われています。具体的には、機械学習システムの堅牢性を確保し能力を向上させる研究（例えば自動運転の安全性）や敵対的なMLシステムへのハッキングや悪用を防ぐ研究、AIシステムをモニタリングする研究とは区別される場合があります。

実際に、AIアライメントという単語の狭義の意味では「AがHにアライメントされている」とは「Hが望んでいることをAがやろうとしていること」と定義され、AIシステムの持つ目標を人間の意図した目標と整合させる研究とAIシステムの持つ能力自体を向上させる研究を区別してリサーチ全体を体系化する説明もあります。補足として、特にこのように狭義の意味でアライメントを用語として指し示したい場合はIntent Alignmentという用語が使われる場合があります。

つまり、AIアライメント研究はAIシステムの持つ「能力」とそのシステムが持つ「目標」を暫定的に区別し、AIシステムが追求しようとする目標を人間の意図した目標と整合させる事を特に志向する研究分野と言えるでしょう。

しかし、このAIアライメントの狭義の定義ではどのような価値や目標を実装するのが望ましいのか？といった倫理の問題が除外されており、意味的に含めた方が自然なのではないかとする議論もあります。実際に、AIアライメントを人間の価値観に言及して定義する場合も多々あります（リンク先のAlternative definitions参照）。

また、どのような価値観を選定するかという観点とアライメントの技術的な問題は分離できないとの指摘や、集団における価値とは何かも含めて技術的なアライメント研究に含める必要性が議論される場合もあります。

つまり、AIアライメントという単語で指し示すスコープは人によって異なっている状況です。まだ分野自体が若く、AIアライメントという言葉の定義だけでなく、AIの目標をどのように人間の意図した目標に整合させるかも不明瞭な現状は、17世紀の物理学がエネルギーという重要な概念を曖昧にしたまま研究を進めていた状況と似ているとも言えるでしょう。

現状では、体系的なAI アライメント研究分野の見取り図は確立されておらず、散発的に理論的・実験的アイディアがそれぞれ並行してプロジェクトとして動いている状態だと考えられます。

ここまでAIアライメントやAI Safetyの歴史的背景から用語の発祥まで解説させていただきました。今後のAIアライメント研究やAIガバナンスの議論の理解の参考になれば幸いです。

補足資料

"AI Alignment"の歴史時系列

"AI Alignment"というTeminologyについて2014年から使われ始めた歴史的な経緯について羅列的に説明します。

2014年以前

Alignという言葉自体は2002年頃からAI alignmentと似た使い方であったようですが、AIによる存亡リスクなどとは結び付けられて考えられていませんでした。
2011年にAlignmentという言葉は使われていませんが、アライメント問題の正式な定式化といえるものがMIRIによって提出されました。
2014年6月頃に2000年代から2010年代前半までよく使われていたFriendly AIという言葉よりましな言い方を探すLessWrong投稿がToby Ordによってなされました。

2014年以後

2014年8月”Alignment”が現在の意味で使われ始めたのはスチュアートラッセルから提案されて使われたMIRIの論文です。

2014年11月Stuart Russelが「Value Alignment」という言葉を使い始めます。
2015年 “AI alignment”のLesswrongにおける初めての使用事例が確認されます。

2017年MIRIのRob Bensingerが「コントロール問題」は物騒なニュアンスを含むので包括的なジャンルを指す言葉として「AI Alignment」をPaul Christianoに提案。その後（robの意図を誤解して）より狭い意味で「AI Alignment」をPaul Christianoは使い始めます。※他この記事のPaul Christianoの返信欄参考

また、2017年に"AI Alignment"という言葉が論文に恐らく初めて掲載されます。（Alignedという使われ方を今まではしていました）。2018年AI Alignment forumができます。

2018年以後：AI Alignmentという用語の定義の明確化

また、AI Alignmentという言葉をPaulがある種狭い意味で明確に定義します。ここでいう狭い意味とは、人間の意図した目標をAIに追求させるということであり、どのような価値観が望ましいか？という問題を除外しています。

ここで、以前から使われていたFriendly AI,benefical AI, value alignmentという用語だと価値観の選定の問題も含まれるように用語から見えてしまい、より広い概念に議論が発散してしまうため、技術的な課題をシンプルにするために"AI Alignment"という言葉に収束しているのだと考えられます。

またAI Alignmentにはbox化のような超知能を情報的/物理的にサーバーに隔離する手法（コントロール問題）はPaul Christianoの定義だと入りません。あくまで、人間の意図に沿った目標を求めることができるAIを作る問題としてAI Alignment問題を定義しています。

2018年以後：Alignの数学的な定義の整備

2018年から2022年にAlignmentの定義が複数論文で記載されています。

2023年以後：AI AlignmentをIntent Alignmentとして狭い意味で用いることの提案

2023年にはAI alignment はIntent Alignmentとして定義（Paul Christianoの狭い意味）しようという方向性があります。総じてAlignという言葉は2014年スチュアートラッセル氏が導入し、"AI alignment"という言葉はRob Bensinger氏がPaul Christiano氏にコントロール問題に代わる用語として2017年に提案し、Paul Christiano氏がIntent Alignmentという狭い意味で2018年に定義しました。

一方で、このAIアライメントの狭義の定義ではどのような価値や目標を実装するのが望ましいのか？といった倫理の問題が除外されており、意味的に含めた方が自然なのではないかとする議論もあります。

また、どのような価値観を選定するかといった観点とアライメントという技術的な問題は分離できず、集団における価値とは何かも含めて技術的なアライメント研究に含める必要性が議論される場合もあります。

つまり、AIアライメントという単語で指し示すスコープは人によって異なっている状況です。そのため現状は分野自体が若いということもあり、今も「Alignment」の定義は明確なコンセンサスとしては決まってはいません。

日本語におけるAI Alignmentの表記と訳

余談ですが、AI Alignmentを日本語で「AIアライメント」と書くか、「AIアラインメント」と「ン」を入れて書くかは現状定まっていないように思えますが、ALIGNとしてはAIアライメントで統一して記載する方向性をとっています。Alignmentという言葉を日本語訳すると整合や調整と訳されるかもしれません。mis-alignmentを訳す際に不整合と訳せるため整合という言葉が好まれて使われる可能性もありますが、これに関しても定まっていないと思われます。

他用語とAI Alignmentの関係

AI ControlとAI Alignment

AIエージェントのコントロール問題とはNick Bostromによれば「第二のプリンシパル=エージェント問題」であり、通常の経済学の分野で使われるプリンシパル=エージェント問題における労務を委任される側の主体が人間ではなくスーパーインテリジェンスの場合を指します。コントロール問題への対処は「能力制御メソッド」と「動機づけ選択メソッド」に分けられ、主に後者が狭い意味でのAIアライメントとして認知されているのに対して、前者は必ずしも開発者にアライメントされている必要性はなく、好ましくない結果が発生するのを防止する手法を指します。

例えば能力制御メソッドにはエージェントを特定の物理的環境や情報的環境に隔離する手法や、危険な兆候を監視する手法も含まれます。（『スーパーインテリジェンス：超絶AIと人類の命運』第9章）

またPaul ChristianoはAI Controlを「システムが正しいことを実行しようとすること、特に間違ったことを適切に追求しないことを保証すること。（実装するべき人間の価値観や好みを理解する試みも含む。）」と定義しており、AIのAlignemntができていなかった場合でも、物理的、情報的に隔離することでAIを制御することが可能なため、この場合でもAI Alignmentの方がより狭い意味となると考えられます。

他参考：https://www.alignmentforum.org/tag/control-ai

Value AlignmentとAI Alignment

Value Alignment: 通常は人間から学習することで、人間の好みや価値観を共有する AI システムを構築する方法を理解すること（AI Controlの一側面）。

DeepMindはValue Alignmentを2つの部分に分けており、最初の部分は技術的なもので、人工エージェントが確実に実行すべきことを実行できるように、価値や原則を人工エージェントにエンコードする方法に焦点を当てています。2 番目の部分は規範的なものであり、どのような価値や原則を AI にエンコードするのが適切かという点に焦点を当てています。

Alignmentという言葉は2014年にStuart RusselがMIRIに提案し、2024年8月に現在の意味でAlignという単語がMIRIの論文にて使われ始め、その後2014年11月に記事でラッセルが「Value Alignment」という単語を恐らく初めて出しています。その後、2016年の論文でvalue alignmentという言葉がおそらく論文で協調逆強化学習（CIRL）は初めて使われています。その後2020年にvalue alignmentが数式で定義づけられています。

※valueという言葉自体は2011年頃からMIRIの論文タイトルで使用されています。例：https://intelligence.org/all-publications/ 、P de Blanc. 2011. “ Ontological Crises in Artificial Agents’ Value Systems、D Dewey. 2011. “ Learning What to Value、E Yudkowsky. 2011. “ Complex Value Systems Are Required to Realize Valuable Futures .”

ここからは推測になりますが、Value Alignmentという用語のValueという言葉がどのような人間の価値観を実装するべきか？というAI倫理や機械倫理の議論も巻き起こる可能性があるため、より狭い意味で明確化するためにもAI AlignmentというValueを除いた用語も普及しているものと考えられます。

Beneficial AIとAI Alignment

Beneficial AIという言葉は2015年にFLIの公開書簡で言及されました。この言葉の意味はAI Alignmentという言葉よりも広く、AIの社会的利益を最大化する方向性を模索する中で提唱された言葉のため、AIアライメント問題はもちろんのこと、機械倫理、AI倫理、失業問題の話も含まれています。そのため、純粋に技術的に人間の意図した目標とAIの目標を整合させる研究分野の話をする際は、問題があると、Paul Chrisitiano氏やRob Bensinger氏は考えているようです。