【開催記録】ALIGN Webinar #2 Tan Zhi Xuan氏

記事作成:泉川茉莉

2024年5月18日のALIGN Webinarシリーズの第2回(AI Alignment Talk from Japanとの共催)では、マサチューセッツ工科大学(MIT)Probabilistic Computing Project and Computational Cognitive Science labの博士課程Tan Zhi Xuan氏をお招きしました。

  • 日時:日時:2024年5月18日(土)11:00 am-12:00 pm (日本時間)

  • 参加者:オンラインで30名ほど

AIアライメント、哲学的多元主義、ガバナンスの接点に位置する重要な問いをはじめ、現状とその課題、さらにはAIを私たち集団の利益に整合させるためのアプローチについてお話しいただきました(動画はこちらから)。今後の日本でのAIアライメントの議論を進めていく上でも重要なトーク内容でした。

Tan Zhi Xuan氏


Tan Zhi Xuan氏トークの翻訳(一部抜粋)

  1. 現状のアライメントのアプローチの問題点

  2. AIにおける多元主義とは

  3. 多元主義実現のための集団ガバナンスとは

  4. 技術的アライメントを捉え直す

現状のアライメントのアプローチの問題点〜選好功利主義的な単一ユーティリティマッチングの問題点〜

まず、この話は2年前のEA GXシンガポール会議で行った講演の更新版です。これは過去数年間のAIとアライメントについての私の考えを凝縮したもので、この分野でこれまで追求されてきたものとは異なる疑問や方向性へと方向転換させる必要があると思っています。この講演を行った後、私がここで話している方向性に関する研究が増えてきましたが、まだやるべきことがたくさんあります。アライメントをより多元的で契約主義的な視点から考えることについていくつかのアイデアを紹介したいと思います。この講演はかなり詳細になるので、最初にカバーする内容の概要を簡単に説明します。

まず、現在のほとんどの技術的なAIアライメント研究の支配的な概念的枠組みを紹介します。これは、総じて「選好功利主義(preference utilitarianism)」または「選好満足アプローチ」と呼ばれるものです。そして、この枠組みを複数の人間の価値観に拡張しようとした時に直面する実践的および政治的な課題について説明します。次に、この状況を踏まえて、アライメントの成功に向けた考慮事項と指針を概説し、最後にこれらの考慮事項に対処するための「多元的契約主義的なアライメントフレームワーク」を代替フレームワークとして紹介します。これには、ガバナンス、技術的アラインメント研究、およびその哲学的基盤に対する影響が含まれます。

それでは、まずAIアライメントとは何かについて簡単に説明します。皆さんここにいる時点で既にご存知でしょうが、用語を明確にし、この講演の焦点について話すために説明します。AI安全性(AI Safety)という関連する用語もあり、これらの用語がどのように関連しているかを明確にすることが重要です。それぞれの定義には個々の解釈がありますが、私は以下の定義を使用します。アライメントは、知的システムが私たちの集団的利益に確実に行動するように構築するプロジェクトであり、AI安全性はそのようなシステムが潜在的に壊滅的な危害を避けるようにするプロジェクトです。これらは異なるプロジェクトです。AIシステムが人間の価値を完全に理解しなくても安全に保つ方法があり、それはAIアライメントが目指すものよりも弱い要件です。

現在、AIアライメントと呼ばれる多くの研究が必ずしも強力な安全保証を提供するとは限らないため、AI安全性に関する研究がさらに必要であると考えています。AI安全性について興味がある方は、安全なAIを保証することを目指した論文に関する研究(Towards Guaranteed Safe AI: A Framework for Ensuring Robust and Reliable AI Systems)をチェックしてみてください。人間の価値を学ぶというアプローチとは異なる方法です。この講演は主にAIアライメントについての話です。なぜなら、AIのポジティブなビジョンを明確に考えることは重要だと思うからです。安全にするだけでなく、AIに何をさせたいのか、集団的な利益とは何かについても考える必要があります。

では、現在の支配的なアプローチである「選好功利主義的アプローチ」とは何か見てみましょう。ラッセルの有益なAI(Beneficial AI)の原則は、このアプローチの高レベルのアイデアをよく要約しています。彼は、代理指標の最適化が実際に重要なものと異なることが多くの危険を引き起こすことを認識し、代わりに機械が人間の選好を直接実現するように提案しています。そして、最初のうちは、機械はこれらの選好について不確かであり、人間の行動からこれらの選好を学ぶべきだと言います。

もっと広く見ると、アライメントの問題をユーティリティマッチングとしてフレーム化する研究者もいます。単一の人間の選好が結果に対する効用関数として表されると仮定すると、アライメント研究者の目標は同じ効用関数を最適化するAIシステムを構築することです。しかし、このようなAIシステムは開発やトレーニング中には正しいことをしても、実際の利用時、新しい状況に直面したときに正しいことをするとは言えません。例えば、自動運転車はトレーニングされたすべての状況で安全に障害物を回避できるかもしれませんが、展開時には真の人間の目的とは異なる代理目的を最大化してしまうかもしれません。これがアライメント研究の難しさです。

そして、一つ指摘したいのは、現状では問題をこのようにフレーム化するのが正しいのかどうかが明確ではないということです。というのも、AIシステムが非常に強力な効用最大化者であると仮定されていますが、特に大規模言語モデルの登場により、これが本当に正しい考え方なのか議論が増えています。AIシステムは非常に強力ですが、それが効用関数を強く最適化するという意味で強力であるとは限りません。このような懸念が依然として存在する一方で、強力な効用最大化者がいる場合の安全性やアライメントについて考えることは重要だと思います。ただ、そもそもこのフレームが正しいのかどうかをもっと考える価値があると思います。

また、全てのAIシステムが強力な効用最大化者であると仮定したとしても、この問題の捉え方は十分ではないと私は考えています。その理由の一つは、たとえ単一の人間や単一の目的関数に対するアライメントを達成したとしても、一方的なアラインメントが災いを招く可能性があるからです。強力な最適化システムが単一の目的や指標にアラインするだけでは十分ではなく、他の目的も重要だからです。例えば、利益最大化の目的に完全にアラインしたAIが、実際には人間の福祉やコミュニティの価値と結びついていない場合、そのAIが2050年までに暗号通貨のマイニングサーバーファームを大量に設置し、気候変動を引き起こしてしまう可能性があります。そして、それに気づいたときには手遅れになるかもしれません。同様に、強力な最適化システムが単一の機関や個人、組織にアラインするだけでは十分ではありません。なぜなら、他の個人も重要だからです。例えば、強力なAIシステムが単一のテクノロジー企業や権威主義的なリーダーにアラインし、その利益だけを追求することで、他の人々を抑圧する可能性があります。

このような状況を簡単に示すと、複数の目的を持つ人間がそれぞれ独自の効用関数を持っており、それらすべてにアラインするAIシステムを作ることを目指すということです。単一の人間にだけアラインした場合、その人間にとっての最終的な結果が他の人々にとって非常に悪い結果をもたらすことがあります。では、どうすればよいのでしょうか?

この問題に直面したとき、伝統的な単純なアプローチとして、全人類の選好を集約して最適化する単一の強力なAIシステムを構築するという考えがあります。つまり、選好功利主義的なAIシステムを構築し、最も多くの人の選好を満たすように行動させるということです。経済理論には、これが良いと考える理論的な根拠を提供するものもあり(例えば、アローの不可能性定理)、それは非常に強い仮定のもとに成り立つものです。

実際には、これは実行不可能であり、またそのようなシステムを構築することは極めて危険です。単一の強力なAIシステムにすべての力を集中させることは、システムの失敗時に大きなリスクを伴い、単一の創造者による専制のリスクも高まります。さらに、全ての人々の価値にアラインする単一の部分的なAIシステムを構築するというアイデアは、現実の資本主義的な開発モードとは相容れないものであり、政治的に考慮にかけます。多くの人々やコミュニティは、異なるAIシステムを異なる目的のために使用したいと考えています。今日のAI経済は、複数のユーザーや役割に対応する複数のAIシステムで構成されています。

Eric Drexlerの論文“Reframing Superintelligence”で指摘されているように、今日のAI経済はサービス経済であり、大規模モデルの開発においても、単一のシステムの改善ではなく、エコシステムレベルでの改善が進んでいます。Andrew CrouchやDavid Kruegerの指摘のように、単一の強力なAIシステムが存在するという考えに対して、実際には多くの関係者が関与し、システム自体も他の場所で複製される可能性が高いです。

これらのことから、社会的スケールでのアライメントを考える必要があります。そして、そのためのアプローチとして、多様性と安全性を求めるべきです。AIシステムは、多様な役割を果たし、個人やコミュニティ、普遍的な利益を追求するために使用されるべきです。同時に、これらのAIシステムの使用や相互作用が他者の利益やその追求を危険にさらさないようにする必要があります。

これを実現するための提案として、契約主義的AIアライメントフレームワーク(contractualist AI alignment framework)を提案します。これは、多元的および契約主義的な哲学的伝統に基づいています。これらの伝統は、AIシステムの集団的なガバナンス、つまり社会においてAIシステムが果たすべき役割やそれに従うべき規範や法律を決定するプロセスを支えます。そして、これらの規範や法律に基づいて、技術的なAIアラインメントの仕事を再定義し、人間の選好を満たすことではなく、AIシステムがこれらの規範に従うことを保証することに焦点を当てるべきです。

AIにおける多元主義とは

非常に異なる哲学的伝統に短く触れたいと思います。私は西洋哲学の契約主義に基づいて議論していますが、これにはある種の儒教の理想との類似点があります。ここで、論語に登場する有名なフレーズを引用します。13章で弟子が孔子に善政について尋ねた際、孔子は「君君、臣臣、父父、子子」という暗示的な言葉で答えました。これは、君主は君主として、臣下は臣下として、父は父として、子は子として行動するべきだという意味です。この考え方は、各自が適切な役割を果たさなければ、社会が崩壊するというものです。

AIシステムについても同様に考えることができます。AIシステムが主に私的な利益や共同体の利益、公共の利益に奉仕する場合、その役割を規定する規範に従うべきです。もちろん、私たちは孔子の時代の中国のような家父長的で階層的な役割を望んでいるわけではなく、もっと民主的に定義したいと思います。しかし、このフレームを考えることで、徳や人間性のある行動とは何かについて考える助けになるでしょう。では、具体的にこの多元的契約主義の基盤を解き明かしていきます。

ここでの多元主義(pluralism)は、哲学者Elizabeth Andersonなどが擁護する価値の多元主義を意味します。彼女は、結果の善悪として価値を定義するのではなく、日常生活で物事を評価する多様な方法を思い出すように求めます。友人としての価値を認めたり、子供を愛したり、芸術を評価したりすることです。これらの評価的態度は、私たちの行動や価値の表現に関する考え方を導きます。例えば、誰かを大切にするなら、その人を助けるべきであり、助けないならば本当に大切にしていないことになります。これらの価値は、単なる報酬や効用として互いに取引されるものではなく、意味の一部であり、日常の評価的な意思決定を反映しています。

これにより、私たちはさまざまな価値を天秤にかけて考えることができます。例えば、友人がコンサートに招待してくれたとき、友人を大切にするので行きたいが、仕事で疲れているので休みたいというジレンマが生じるかもしれません。このような価値には、愛や尊敬などの対人的態度も含まれ、これが相互主観的なメタ倫理に関連します。非功利主義的な哲学者のように、倫理を善の最大化と捉えるのではなく、互いに何を負うかという観点から捉えます。これは、互いを尊重し合うという態度から生じ、他者からの要求や主張に対して責任を持つことを意味します。

これに基づいて、契約主義的な倫理と政治の枠組みが形成され、これにより競合する対人関係の主張を公正に判断するための基盤が提供されます。私たちは、公平な理由づけのプロセスを通じて、共有する目標や理想に基づいて行動する原則を考え出し、それに基づいてルールを決定します。

この枠組みは、価値と規範を固定されたものとしてではなく、理由づけに基づいて変動するものとして扱います。これは、従来の機械学習や強化学習とは異なり、価値を単なる目的や報酬として扱うのではなく、理由づけの一部として捉えます。例えば、ベイズ的に信念を更新すべきかどうか、非人間動物の福祉を考慮すべきかどうか、パンデミック時のマスク着用を義務付けるべきかどうかといった問題については、規範的な理由づけが必要です。

このようにして、AIシステムが人間の価値や規範を学習するのではなく、価値や規範について理由づける能力を持つようにすることが重要です。これにより、AIシステムが倫理的な決定を行う際に、単なる事前に設定された目標や報酬に基づくのではなく、より豊かな人間の価値観を反映することができるようになります。


多元主義実現のための集合的ガバナンスとは

多元主義という哲学を出発点として、物事をどのようにガバナンスするかについて考えます。ここでのプロジェクトは、役割や規範を強制するだけでなく、それらを設計することです。価値感受性設計、メカニズムデザイン、政治的構成主義を参考に、まずAIシステムが私たちの生活でどのような社会的および制度的役割を果たすべきかを問うべきです。そして、その役割を前提として、どのような規範や目標、法がその行動を導き、規制すべきかを集団で決定します。これは理想的な目標に向かうものであり、現実的には達成が難しいですが、それでもガイドとして有用であり、AI政策に対する建設的なアプローチを提供します。単に自己利益を追求するアクターを管理する戦略的なアプローチにとどまらず、私たちが社会でどのような姿を望むかを共に考えることを目指します。

具体的な例として、社会技術システムを統治する規範は、公共の利益、企業の利益、個人の利用という目的によって異なることが考えられます。スマートエネルギーグリッドは効率的であると同時に市民全員に公平である必要があります。自動化された当局は正当性を確保するために説明可能な決定を提供し、異議を申し立てる権利を保証する必要があります。アルゴリズムによる採用は差別的であってはならず、デジタル資産管理アルゴリズムによる富の蓄積に制限を設けるべきかもしれません。個人的な仮想アシスタント(例えばチャットボット)は、ユーザーのプライバシーを保護し、著作権侵害を避け、ユーザーによる他者への攻撃を拒否するべきです。

これらの規範とその背後にある理由は一見直感的に理解できるかもしれませんが、急速に進化するAIエコシステムにおいては、慎重な設計をどのようにしてスケールアップするかが課題です。例えば、ここ数年で驚くほど強力なテキストや画像生成モデルが次々と登場しています。この進展は止まらないでしょう。ガバナンスはどうやって追いつくことができるでしょうか?実際、多くの人々がこの問題について考えています。例えば、Gillian Hadfieldは新技術のための法律を迅速に革新する手段として、既存の法務専門職が持つ独占力を打破するために規制市場を提案しています。また、Divya Siddarthは、個人やコミュニティの分散型意思決定を取り入れ、処理する集団知能調整システムの導入を提唱し、AIシステムに対する民主的でスケーラブルな監視を実現することを提案しています。

これらのアイデアの一部は、AnthropicとCollective Intelligenceのプロジェクトが共同で行った実験で実際に適用されました。この実験では、特定のAIシステムである大規模言語モデルのチャットボットがどのような原則に基づいて動作すべきかについて、公共の意見を収集しました。Polisと呼ばれるアルゴリズムを使用して合意と不一致の領域を特定し、この合意された原則を憲法として使用して言語モデルを調整しました。この結果、これらの規範によりよく合致した特定の行動を生み出すことができました。

このように、AIシステムの規範を集団で設計し、合意する方法について述べましたが、決定した規範をどのように実際に施行するかも重要です。これは私の講演の焦点ではありませんが、最近ではこの分野において多くの活動があります。例えば、EU AI法の採択、AI安全性研究所の設立、大規模事前訓練モデルの規制を目指す法案の導入などが挙げられます。これに伴い、安全性と技術進歩の間のトレードオフに関する議論も活発になっています。

AIシステムが現在主に大企業や政府によって開発され、制御されていることを考えると、これらを一般市民に対してどのように責任を持たせるかが重要です。ここで、私は単に善や公正さだけでなく、正当性についても考えることを提案します。民主社会だけでなく、広く正当性と参加を保証することが、望ましいAIの未来を設計し、実現するために重要です。

技術的アライメントを捉え直す

次に、これらの役割や規範が整ったところで、技術研究者としての私の関心は、AIシステムがそれらを確実に守る方法です。特に、規範が曖昧で不完全な場合に、どのように対応するかです。Dylan Hadfield-MenellとGillian Hadfield (論文:Incomplete Contracting and AI Alignmentの見解に基づいて、AIアライメントを不完全契約の問題として捉えます。つまり、AIシステムのタスク仕様を、人間(プリンシパル)とAI (エージェント)の間の不完全契約と見なすことができます。ここで、誰がプリンシパルなのかという問いに対して、一人の人間ではなく、複数のコミュニティが重なり合う形でAIシステムに関わっていると考えます。したがって、AIシステムの規範や仕様は、不完全な社会契約として捉えることができます。

自律性の低いAIシステムの場合、現在行われている方法である反復的な開発とテストを通じて、規範に準拠することが可能です。しかし、自律性の高いシステムや将来の高度なAIに対しては、規範的不確実性に直面し、人間との対話を通じて規範の曖昧さを調整する必要があります。例えば、ソーシャルメディアプラットフォームでのモデレーションなどが考えられます。これらのシステムはユーザーの好みを学習するのではなく、意図された機能、ルール、規範を生成する規範的インフラを理解する必要があります。

私たちがすでにこの問題に直面していることを示すために、有毒なテキスト生成を考えてみてください。OpenAIは2022年、2021年だったと思いますが、GPT-3言語モデルのアップデートを行い、新しいアライメント技術を紹介しました。これを「人間のフィードバックによる強化学習」(Reinforcement Learning from Human Feedback)と呼び、有害な出力をある基準に基づいて削減しました。しかし、ここでの「有害」とは何を意味するのでしょうか?誰にとって有害なのか、どの文脈で、どの理由で有害なのかを考える必要があります。もし私がGPT-3を使って有害な映画のキャラクターを脚本化したい場合、それは問題になるでしょう。アライメント技術がこれらの規範的な複雑さをすべて考慮しようとしていることを望むところですが、OpenAIが行ったことや現在行われていることを見ると、人々が出力が良いか悪いかを評価する人間のランキングを模倣する報酬モデルを訓練し、その報酬モデルを使用して言語モデルを調整しているようです。これにより、システムの使いやすさが大幅に向上しましたが、人間の規範的な判断の深い複雑さを無視しているように思います。たとえば、これらのシステムが「有害」という意味を本当に理解しているのか、それとも単に訓練データの分布に基づいてそれを模倣しているのか、私はまだ疑問に思っています。

では、どうすればより良くできるでしょうか。まず、単なる嗜好、いわば消費者の嗜好や個人の願望と規範を区別する人間行動のモデルが必要です。これについては、個人の願望と共有される規範的構造をエージェントの集団から別々に推論することを可能にすることを私たちは以前の研究で示しました。関連する研究では、ジュリアン・ハーティンガーが、人間の行動を信念と欲望だけで導かれるとする従来の心の理論アプローチの代わりに、制度的な観点から理解する必要があると提案しています。互いにどのように相互作用するかに基づいて、それらの役割や広範な制度的規範構造を推測できることを期待しています。

具体的な研究の方法として、最近、共著者のNinell Oldenburgと共に、社会規範の学習と維持に関する論文(Learning and Sustaining Shared Normative Systems via Bayesian Rule Induction in Markov Gamesを発表しました。この論文では、他のエージェントの行動を観察することで社会規範を学習するエージェントのモデルと研究方法を提案しました。これを順次意思決定と強化学習の文脈に設定し、最初は規範を知らないエージェントが他のエージェントの行動を観察することで、「みんなが定期的に川を掃除しているなら、私もそうすべきだ」といったことを学習できるようにしました。このアイデアの応用例として、自動運転車が異なる文化環境に適応する方法があります。例えば、米国で訓練された自動運転車がインドや日本に移動し、その地の交通規範に適応する必要がある場合です。

チャットボットなどの社会的インタラクティブシステムが地元の会話規範に迅速に適応する方法も同様です。この研究方向は正しい方向への一歩だと思いますが、既存の規範を学習するだけでなく、悪い規範も存在するため、それらを変える方法も考える必要があります。従って、規範にただ従うだけでなく、その背後にある原則に従う「啓発された遵守」が求められます。これは、規範の機能を理解し、それをもとに社会的な協議の過程をリバース・エンジニアリングすることを意味します。

AIシステムが規範を理解し、柔軟に適応するためには、社会的討議のプロセスをリバース・エンジニアリングする必要があります。規範が何であるかだけでなく、それが果たす社会的機能も理解する必要があります。これは、道徳的推論の研究がその一歩となるでしょう。規範や法律は社会的協調問題の解決策と考えられ、それを導き出す戦略は、普遍化原則や議論論理などが含まれます。これにより、AIシステムが単独で行動するのではなく、人間社会と協働して規範的推論を行うことが可能になります。

ご清聴ありがとうございました。質問があれば喜んでお答えします。

質問

質問:AIが人間の能力を維持し、向上させるためにはどうすればよいでしょうか。AIが人間の活動を過剰にサポートすることで、人間の能力が失われるリスクはありますか?

Xuan氏:これは重要な質問ですね。AIだけでなく、どんな自動化でも、人々が一部の能力を失う可能性があります。しかし、その一方で、他のことに時間を使えるようになるという利点もあります。例えば、現代では多くの人が服を縫う技術を持っていませんが、その代わりに他の活動に時間を費やすことができます。

AIの文脈では、人間の合理的な生活を送る能力を失うリスクがあると考えています。これは、自分の人生の選択をAIに任せることで、自己決定の権利を放棄することになるからです。したがって、AIシステムの設計においては、人々が自分の人生や共同生活について考え続けることができるようにする必要があります。

質問:契約主義的なフレーミングについて質問があります。人間とAIの契約において、契約の主体は誰でしょうか?

Xuan氏:これは良い質問です。AIシステムが契約の主体となる場合、その背後にある開発者や所有者が重要な役割を果たします。例えば、現在はOpenAIのモデルを使用する際に利用規約に同意する形で契約が行われています。将来的には、自動運転車や自動交渉エージェントのように、AIシステム自体が契約の主体となる可能性があります。その場合、これらのシステムが契約を提案し、交渉するためのメタ契約が必要になります。

質問:異なるエージェントが異なる効用関数を持っている場合、少数のエージェントで効用関数を抽出する際に常に効用関数の間にギャップが生じると思います。それについて直接研究しているものはあるのか、また、単一エージェントは複数のエージェントよりも悪い場合があるのか興味があります。

Xuan氏:AIの整合性に関する文献の中で最も正式な研究は、ゲーム理論や経済学の応用問題に関する研究で示されています。例えば、複数のステークホルダーがいる状況で、このようなマルチプリンシパル・アシスタンスゲームという概念があります。この設定では、複数のプリンシパルが存在すると、戦略的にコミュニケートするインセンティブが生じ、提供者の利益に対して騙そうとする場合があります。

その設定では研究されていますが、エージェントが効用関数を持っているという考え方から離れ、効用関数が何を意味するのかについてもっと慎重になる必要があるかもしれないと私は考えています。効用関数は、人々の全体的な好みを表現または近似する一つの方法に過ぎません。個々のエージェントの効用関数をすべて学ぶ必要はなく、良い行動を生み出すためにはそれほど難しい問題を解決する必要はないかもしれません。

効用関数は、エージェントが完全な好みを持っていると仮定していますが、それは常に真実ではありません。効用関数は通常、消費者財を前提としていますが、本当はアウトカム(結果)に定義されています。アウトカムを説明する言語が重要です。例えば、役に立つとは何か、有害とは何か、といったことを説明する言語が重要です。これらの言葉の意味が本質的に難しい部分です。人々がこれらの異なる側面をどのように集約し、トレードオフするかを議論する前に、これらの言葉の意味についてもっと研究が必要です。

質問:集団的ガバナンスに誰が参加できて誰が参加できないのかという線引きについてどのように考えているのか、興味があります。極端主義者や人種差別主義者、性差別主義者が存在するリスクもありますが、これらのリスクと包括性についてどのように考えているのか教えてください。

Xuan氏:これは素晴らしい質問だと思います。自由で平等な社会を築くという伝統的な質問の中心にある問題であり、自由な社会で生きたくない人々がいるにもかかわらず、どのように対処するかという問題です。具体的な答えはありませんが、この問題に対処するためにAIシステムを構築する際には、この点を意識することが重要だと思います。

二つの視点からこの質問に答えたいと思います。一つは、ある種の平等主義的な視点から見た場合、道徳的に望ましいことについてです。そしてもう一つは、戦略的に達成可能なことについてです。実際には、この二つの間のどこかにたどり着くでしょう。

道徳的な観点からは、契約論が合理的拒絶のアイデアを通じて、他者を理性的なエージェントとして扱い、相互に理由を受け入れるプロセスに参加していない場合、その声は他の声ほど重視されないかもしれないと考えることができます。

戦略的な観点からは、合理的であることが何であるかについて大きく異なる見解を持つ人々が存在する世界に住んでいるため、最適な結果ではないにしても、全員にとって有益な結果をもたらす制度を構築し、全員がある程度受け入れることができるようにすることが重要です。このようにして、多くの場所では完全に権威主義的またはファシスト的な環境で生きていないのです。

これら二つを分けて考えることが重要だと思います。

質問:Xuan氏の専門は確率論的コンピューティングですが、AIアライメントや安全性、哲学といった異なる専門分野間のつながりをどのように捉えていますか?

Xuan氏:確率論的プログラミングは、より能力の高いAIに向かう非常に有望なルートであるという私の考えです。これは、より信頼性の高い、そして安全なAIに向けて、さらに強力な保証を得ることができるという希望を込めています。これが私の希望です。

私は、このような(今日のプレゼンのような内容に)興味を持つ理由は、哲学の愛好家であることが大きいかもしれません。AIアライメントが最も重要な問題だとは必ずしも考えていませんでした。ただ、これは非常に興味深い問題だと感じました。人々がそれを正しい方法で考えていないように感じました。正しい数学的形式を持って、機械システムの文脈で、このような曖昧な道徳的アイデアを表現するための哲学を描くためには、まだまだたくさんの哲学があると感じました。そうやって色々な興味が合わさったのだと思います。そして、この興味の収束が、計算認知科学のアプローチと非常に合っていると考えています。それは、人間の認知が行っているすべての素晴らしいことを、主に心理学を通じて質的なレベルで説明してきたものです。

しかし、私たちは実際に、人々が何をしているのかについての形式的な計算モデルを書き始める方法をどのように始めることができるのかを考える必要があります。そして、その1つの方法は、それを形式化するためにベイジアン推論の伝統に基づくことです。それが確率的プログラミングが登場する理由です。そして、その希望は、確率論的プログラミングが、私たちが互いの直感的な人間理解を反映した、世界と人間の両方のモデルを書く手段になることです。そして、システムはより解釈可能になり、私たちはそれらとより良い方法で対話することができるようになり、世界のモデルについて話している場合、それらのモデルの特性をよりよく理解する方法があります。それが私にとってのつながりだと思います。そして、認知科学者が研究する分野の1つは、社会的推論と道徳的推論であり、それが私の関心がある分野であるため、この分野に興味を持っています。人間とその価値観のモデルを構築し、モデルが解釈可能であるようにし、これらのモデルが私たちの直感的な理論に従って実際に意味をなすかどうかを確認できるようにしています。

(講演録ここまで)

※許可のない転載を禁じます。


Mari Izumikawa

Senior student at Keio University SFC | History of Science and Technology | STS | Ethics of Technology | Organizer of AI Alignment Talk from Japan

Previous
Previous

【開催記録】ALIGN Webinar #3 Dr. Evan Miyazono (Atlas Computing)

Next
Next

【2024年7-8月開催】AI アライメント入門コース