【開催記録】ALIGN Webinar #4 Dr. Ryan Kidd on AI Safety field building

23 Jun

第4回のALIGNウェビナーでは、ML Alignment & Theory Scholars (MATS) の共同ディレクターであり、London Initiative for Safe AI (LISA) の共同創設者のRyan Kidd 博士をお招きしました。Ryan氏はクイーンズランド大学で物理学の博士号を取得後、AI アライメントの分野構築（field building）に尽力されてきました。MATSプログラムは、若手研究者にAIアライメント分野に参入するための教育プログラムを提供することで、分野の発展に大きく貢献してきました。本ウェビナーでは、MATSとLISAの歩みとその成果について、AIの急速に発展の展望と、それに対処するための人材育成の在り方について、伺いました（動画はこちら）。

日時：2024年6月14日（金）10:00 am-11:00 am （日本時間）
参加者：オンラインで15名ほど

以下は、Ryanさんによるトークの翻訳です。

Ryan Kidd博士講演の翻訳（一部抜粋）

（※質疑・ディスカッションパートは省略）

AI Safetyのフィールド・ビルティング

今日の講演では、AIセーフティ分野の構築状況について、日本の研究コミュニティの方々に理解を深めていただけるよう、私の見解をお伝えします。MATSやLISAなど、私が携わってきたさまざまなプロジェクトでの経験をお話しします。AIセーフティについてできる限りの話をし、質疑応答の時間も設けたいと思います。

オーストラリアのブリスベンにあるクイーンズランド大学で物理学の博士号を取得しました。ブリスベンは私が育った街です。博士号取得中にAI安全に興味を持ち、少し研究もしましたが、博士号取得後にこの分野の新規研究者が参入するためのパイプラインがほとんど整備されていないことに気づきました。そこで、MATSというプログラムにScholar（研究者）として参加しました。第1期はパイロットプログラムで、参加者は5人でした。

このプログラムを成長させたいと思い、リーダーシップチームに加わりました。その後、当時のリーダーシップチームが去り、私がプログラムを拡大するのに貢献し、現在は年2回の90人を対象としたプログラムになっています。

その過程で、ロンドンにLISA (London Initiative for Safe AI）というAIセーフティのコミュニティスペースをつくりました。これは、ConstellationやFAR Labsといった、米国バークレーにあるオフィスを補完するものです。今話しているのはFAR Labs Berkeleyからでカリフォルニア州バークレーにあります。これはAI開発の震源地であるサンフランシスコのすぐ隣です。

また昨年は、Manifundと呼ばれるプラットフォームでの助成金プログラムへのregranter（資金配分を行う有識者）にノミネートされ、有望なプロジェクトに贈呈するための5万ドルを託されました。今年は25万ドルを配分予定ですが、今のところ約4万1千ドルしか使っていません。

AGIはいつ来るのか

まず、汎用人工知能（AGI）とは何か、それはいつ頃登場するのか、そして、世界をどのように変えるのかについてお話しします。

予測プラットフォーム「Metaculus」の定義によれば、AGI（特に「強いAGI」）は、2時間の「敵対的チューリングテスト」に合格する必要があります。これは、チャットインターフェースでモデルとやり取りをし、画像なども表示される中で、相手が人間か AI システムかを当てるテストです。もしそのシステムが人間を騙すことに成功すれば、敵対的チューリングテストに合格したことになります。つまり、人間がその相手を本物の人間だと認識できれば合格です。さらに、このシステムは、組み立てる必要のある自動車のモデルを作成する能力も必要です。多タスク型言語理解ベンチマークのすべての項目で75%以上、平均で90%の成績を達成し、コーディング能力を測る APPS ベンチマークで最初の試みで90%を達成しなければなりません。つまり、非常に強力なシステムです。これは、在宅勤務が可能なほとんどの仕事を自動化できる可能性があります。

では、いつ頃登場するのでしょうか？　Metaculusの最近の予測によると、このシステムが登場する時期の予想の中央値は2031年9月25日でした。以前は多くの専門家が 2050 年頃を予測していました。最近の言語モデルの進歩により、予測の中央値が 2031 年に早まったのです。これはかなり近い将来と言えます。

なぜこのような予測になったのでしょうか？ AI の技術進歩を追跡するEPOCHのグラフを見ると、最先端の言語モデルに費やされる計算能力は年間5倍のペースで増大しています。そして、この計算能力に対するリターン（つまりモデルの性能）が比例して向上し続けるのであれば、今後急激な進歩が期待できます。そのため、2031年という予測には妥当性があるように思えます。

もちろん、AGI（またはそれに近い意味のTransformative AI（変革的AI））の到来時期に関してはさまざまな予測があります。「EPOCH」のデータの平均では2040年以降の時期に到来する結果でしたが、Metaculus の予測はそれよりもかなり早い時期を示しています。したがって、現時点での最良の予測は、2031年頃と言えそうです。

これは世界をどう変えるでしょうか？　労働がどの程度自動化できるかについては、人々の意見が大きく分かれています。私の推測では、純粋にデジタルな職業はほぼすべて自動化されると思います。ただし、私は専門家ではありません。

また、経済成長にも大きな影響を与える可能性があります。Transformative AIの定義は、20〜30%の年間のGDP成長率をもたらすものとされています。つまり、通常の2〜3%の成長率の10倍になるのです。世界経済全体が約3年で倍増することを意味します。これは驚異的なことです。

これはどのように起こり得るのでしょうか？　AIを構築すれば、科学研究開発の加速を助けることができるかもしれません。AIはさらなるAI自動化を支援し、トレーニングに費やせる金額を増やすことができます。AIは科学研究を行うことで、AIを動作させるハードウェアを改善できます。ソフトウェアも改善でき、これにより次のトレーニング実行のためのコンピューティングリソースを増やすことができ、より優れたAIが作られます。このサイクルが何度も繰り返され、AIシステムが人間の科学研究開発を支援する能力がある限り、より良いAIが生まれ続けます。もし障害がなければ、これによって私たちは非常に強力なAI体制へ急速に移行する可能性があります。現在のところ、私は重大な障害を知りません。

これは社会をどのように変えるでしょうか？　オックスフォード大学の哲学者ニック・ボストロムによって定義された3つの異なるタイプの超知能があります。1）人間より賢い質的超知能（quality superintelligence）、2）人間より速い速度超知能（speed superintelligence）、そして3）人間よりも数が多いか組織化された集合的超知能（collective superintelligence）です。私は、これらの3つのタイプの超知能がすべて近い将来実現するのではないかと推測しています。

これは社会にとって懸念される見通しです。人工知能が意識（sentience）を持つ必要があるかどうかは分かりません。私はそうではないと考えています。人工知能システムがどのような道徳的権利を持つべきか、他の意識を持つ存在に与えるような権利を持つべきかどうかもわかりません。特に市民権を持つ場合、どのように統治や規制されるべきかも分かりません。私たちは非常に奇妙な世界に入ろうとしています。私たちは気づかないうちに新しい生命形態を作り出しているかもしれませんが、この新しい生命形態は人間よりも数が多く、運用コストが安く、はるかに賢く、おそらくより組織化されているかもしれません。

MATSのミッション

MATSの使命は何でしょうか？　ここまで見たように、2031年にはAGIが迫っているかもしれませんし、それは危険かもしれません。ここに、Metaculusの予測を表すグラフがあります。これは、これらの異なるタイプの災害がそれぞれどの程度の確率で人類の潜在能力を永久に制限する可能性があるかを示しています。黄色は3年間で地球全体の人口の10%が失われることを表しています。つまり、予測によると、現在から2100年までの間に3年間で世界人口の10%が死亡する確率が約30%あるということです。これは非常に大きな数字であり、人類には多くのリスクが迫っているように見えます。しかし、絶滅のリスク（世界人口の95%以上の永久的な破壊）を見ると、AIだけが本当に深刻な脅威であるように見えます。これらの予測プラットフォームによると、生物工学は1%のリスクをもたらし、AIは9%のリスクをもたらすようです。

多くの人々が意見を異にしています。ここに示すのはp-doom、つまりAIによる人類の破滅の確率について、様々な研究者が表明したものです。Yoshua BengioはAIが人類を破壊する確率を20%と信じており、Elon Muskは10〜20%の間、AIセーフティの創始者の一人であるPaul Christianoは46%、もう一人の創始者Eliezer Yudkowskyは99%以上としています。

この問題をどのように解決すべきでしょうか？　現在の制約は人材です。これは必ずしも私が全部同意するわけではないものの興味深く有用なモデルです。ある科学的問題を解決する難しさを、必要な研究者の数でパラメータ化したものです。蒸気機関の製造にはかなりの労力が必要でしたが、おそらくアポロ計画に必要だった労力よりははるかに少なかったでしょう。そして、これはおそらくP対NP問題よりも連続的な研究時間が少なくて済むでしょう。ただし、P対NP問題は工学的な課題というよりも、多くの個々の数学者が建設的に分野を構築していくものです。このグラフを作成したAnthropicの解釈可能性チームを率いるChris Olahによると、Constitutional AI（憲法的AI）とRLHFは蒸気機関をちょうど超えたところにあると考えています。ここに、彼が問題の難しさをどのように考えているかについての確率分布があります。もしアポロ計画と同程度の難しさだとすれば、約90,000人の科学者とエンジニアが必要になる可能性があります。そして、2031年までにAGIが実現し、おそらく2039年までに年間20〜30%の経済成長を可能にする変革的AIが登場すると予想されるなら、現在の人材の増加率である年間28%では全く足りません。

MATSはここで役に立てると考えています。問題を「理解」している人（informed talent）から、問題に取り組める人材（empowerd talent）まで、私たちはこのパイプラインのすべての部分に焦点を当てることが重要だと考えています。個人が発揮する影響力はしばしばべき乗則、つまり非常に長い裾野を持つ分布になります。比較的少数の個人がほとんどを担うということです。そのため、私たちは非常に広いファネル（漏斗）、非常に広いネットを投げかけ、そこから最高の人材のみを選んでいます。前回のプログラムでの合格率は7%でした。これは、多くの応募者がいて、私たちが最高の人材を見つけ、できるだけ早く育成して、彼らを活用して、分野構築しようとしていたからです。

3つのシナリオとその対策

ここで、3つの未来について手短に話したいと思います。本日は、Leopold Aschenbrennerのレポートについて簡単に話すようリクエストをいただきました。レポート全体は読んでいませんが、要約は読み、いくつかの見解を持っています。

3つの未来とは、１）AGIの私有化（privatized AGI）、２）AGIの国有化（nationalized AGI）、そしてAI進歩が10年以上停滞する３）AGI冬の時代という、三つのシナリオです。

AGIの私有化では、主要なプレイヤーはOpenAI、Anthropic、DeepMind、Metaとなり、ここに日本、米国、英国、韓国など、さまざまな国のAIセーフティインスティチュートが加わります。これらのプレイヤーだけが、AGIになる可能性のある最大のフロンティアモデルを訓練するために、数千億から1兆ドル相当の計算チップを購入できます。この場合、AIセーフティインスティチュート（に加えてもしかするとEU）だけが、実際に彼らを規制できる数少ない力の一つになる可能性があります。

第2のシナリオでは、AGIが比較的早く到来すると予想されています。なぜなら、AGIが実際に国家安全保障上の懸念事項であることが判明した場合、複数の国の政府が介入すると予想されるからです。Leopold Aschenbrennerの「Situational Awareness（状況認識）」というタイトルのレポートが約1週間前に公開されました。Leopoldは OpenAIの研究者で、最近、機密情報を漏洩した疑いで彼らのチームから解雇されました。彼は最近このレポートを公開し、現在世界最大のAI技術開発国である米国と中国の間で国家安全保障上の軍拡競争が起こるという彼の見通しを詳述しています。そして、基本的にどちらが早くAGIに到達できるかの競争になり、米国が大きくリードしているが、このリードが続かない可能性があるとしています。Leopoldはまた、AGIが2027年に実現すると考えています。

3つ目の可能な未来は、私が「AGI冬の時代」と呼ぶものです。これは、AGIの構築に役立つ重要な新しい開発を見つけるのに10年以上かかる場合です。Manifold Market（オンライン予測市場プラットフォーム）では、AGI前に「AI冬の時代」が来る確率は50%となっています。

ここに、AIシステムが現在の完全リモートの仕事の99%を置き換えることができる時期に関する3つの確率分布があります。Daniel Kokotajloは最近OpenAIを去った有名な人物で、そこのガバナンス研究者でしたが、彼は2027年と言っています。偶然にもLeopoldと同じ年ですね。おそらくOpenAIの情報を共有しているからでしょう。Open Philanthropy Projectの有名な研究者であるAjeya Cotraは2037年と予測しています。前に言及したEpochの主任研究者の一人であるEge Erdilは、中央値で2063年と言っています。Egeの場合、おそらく何らかのAI冬の時代が来ると考えており、それがAGIの到来を大幅に遅らせる可能性があると思います。

これら3つの未来のそれぞれに対して、私は異なる戦略を持っています。AGI私有化のシナリオでは、現在最も重要な取り組むべき課題は、大規模な研究所に対する規制、特に彼らのモデルが引き起こす損害に対して責任を負わせるというAIガバナンスです。本質的には、ミスアライメントのコストを価格に反映させ、AI研究所が安全チームを作りアライメントの解決に集中できるようにすることです。また、外部監査人による評価（evals）も非常に重要で、これらの研究所が実際にAI安全性に取り組む正しいインセンティブ構造を持っていることを確認するために重要です。シンクタンクRANDの新しいレポートで議論されているように、大規模な研究所での情報セキュリティ（infosec）も重要です。モデルの重みをセキュアに保つことは、AI兵器の大量拡散を防ぐために非常に重要であり、拡大競争（arms race）を防ぐためにも重要です。そして、研究所の安全チームも重要になるでしょう。なぜなら、彼らはフロンティアモデルにアクセスでき、最良のテストと研究を行うことができるからです。MATSはそのための採用パイプラインとなること、また外部評価組織を支援することで、これらの研究所の安全チームの開発を支援することができます。

国有化されたAGIのシナリオにおいて、現在最も重要なことは、危険な拡大競争を防ぐための国際的な連携を構築することです。すべての関係者がこれに参加し、支援することができます。これには、AIセーフティインスティテュートの取り組み、代表機関やサミットの開催が必要です。Leopoldの描く未来が現実となる可能性を考えると、今すぐにこれに着手することが非常に重要でしょう。もちろん、軍がAGIプロジェクトを主導することになった場合でも、大学や民間の研究グループ、それぞれの人が今いる場所で、優れたAI安全性/アライメント研究を行い、それをArXivで公開することで、これらの国の軍がその研究を活用できるようにすることができます。また、国家プロジェクトがある場合は、一部の研究者がそのセーフティチームに参加することも考えられます。もちろんこの見通しは恐ろしいものではあります。そうした研究をオープンにすべきか、何が最善かについて、多くの対立する意見がありますが、今の私の理解ではそのように考えています。

AGI冬の時代のシナリオでは、最も重要な取り組みは「provably safe AI」、つまり非常に強力な安全性保証を持つAIの開発です。現在の状況では、このような技術の実現まで10年以上、あるいは20年ほどかかる可能性がありますが、研究の進歩を何らかの形で加速できれば別かもしれません。この研究の例としては、Yoshua Bengio氏がMilaの研究室で行っている安全な科学者AIの構築や、英国政府のAI研究のための大規模な資金提供機関ARIAでの、davidadことDavid Dalrymple氏のイニシアチブなどがあります。他にも例があるかもしれません。このシナリオでは、ガバナンス、評価、情報セキュリティ、一般的なアライメント研究など、あらゆる分野に資金を投入し、最善の準備をする必要があるでしょう。

MATSの取り組み

MATSに何ができるかについてお話しします。私たちの目標は3つあります。1つ目は、高い影響力を持つ学者を加速させること。2つ目は、高い影響力を持つ研究メンターを支援すること。3つ目は、Anthropicなどの企業のラボの安全チームに優秀な人材を送り込み、物理学やより一般的なコンピュータサイエンスからAIセーフティ研究へとキャリアを転換する可能性のある研究リーダーをアカデミアのポスドク職に送り込むことで、AIセーフティ研究の分野を拡大することです。また、Apollo Researchのような新しいタイプの組織の創設者を育成したいとも考えています。これらはすべて実際の例であり、私たちはこれらの組織のこれらの役割に人材を配置する支援をしてきました。

若い研究者にとって必要なことは何でしょうか。まず彼らに必要なのは非常に強力な技術スキルです。言語モデルやその他のフロンティアタイプのAutoGPTなどのシステムがどのように機能するかを最先端のレベルで理解している必要があります。そして、これらのシステムの扱い方を知っている人々から質の高いメンターシップを受ける必要があります。AIによってもたらされる脅威の基本的な理解、例えば欺瞞（deception）や道具的収束（instrumental convergence）などについての理解が必要です。また、悪意のある者が生物兵器などに使用する可能性についての理解も必要でしょう。彼らには、コミュニティとサポートが必要で、特にこれらのスケーリングラボの安全性チームに雇用されたい場合は、論文発表と非常に速いコーディング能力が必要です。これは非常に重要です。

メンターは何を求めているのでしょうか。例として、MATSプログラムの現在のメンターである、AnthropicのEthan Perez氏、DeepMindのNeel Nanda氏、同じくGoogle DeepMindのAlex Turner氏、Timaeusの創設者Jesse Hoogland氏の４人を取り上げてみます。一般的に、メンターは自分の研究のアシスタントを必要としています。彼らはプロジェクトを成長させたいと考えており、より多くの人材を必要としています。採用パイプラインが必要な場合もあり、EthanとNeelは現在、AnthropicとDeepMindのそれぞれの安全性と解釈可能性チームの採用パイプラインの一部としてMATSを捉えていると思います。マネージャーとしての経験も必要です。例えば、NeelはMATSを、DeepMindの外で低リスクな環境でマネジメントを試す機会だと考えているそうです。

AIセーフティ分野が必要とする人材と研究の類型

最近、私たちは31人の主要なAIセーフティのリーダーに匿名条件でインタビューを行い、レポートにしました。彼らの集合的な知恵から、以下の3つの類型で採用ニーズがあることが分かりました。

コネクターは新しいパラダイムを構築する個人です。彼らはAI理論を深く理解していますが、これを実際の経験的実験に結びつけることもできます。彼らはかなり稀で、非常に大きな影響力を持っています。おそらく、多くの人の名前を知っているでしょう。
イテレーターは現在のパラダイムを発展させる人たちです。彼らは理論的アイデアを経験的なエビデンスに落とし込み、発展させます。彼らはすべての問題を解決し、何ができるかを明らかにし、コンピュートクラスターで大規模なトレーニングを実行し、クラスター時間を効率的に活用することに非常に長けています。
アンプリファイアーは第3の類型で、プロジェクトをスケールアップする人々です。私自身はこのアンプリファイアーだと考えています。研究を行うこともできますが、研究者の考えを翻訳し、増幅してより大きな影響を生み出すほうが向いています。

大きなラボ、成長中の組織（10〜30人の常勤相当の研究員）、小規模な組織（１０人未満）など、組織の形態によって、異なる人材ニーズがあります。イテレーターはどの組織でも求められる類型であり、MATSは主にこのタイプをサポートしていきますが、もちろんアンプリファイアーも除外していません。成長中の組織でも、アンプリファイアーが主要なニーズとなっています。

コネクターは新しいプロジェクトを創設する人々です。したがって、より多くのプロジェクトを生み出したい場合、とりわけ上述したような28%以上の成長率を持続させたいなら、彼らも育成する必要があります。個人名を挙げれば、Paul Christiano、Buck Shlegeris、Evan Hubinger、Alex Turnerなどがあります。

最後に、AE Studiosが実施し、最近LessWrongで公開された調査に触れておきます。この調査によると、AIセーフティ分野の多くの人々が、既存のモデルを理解することが主要なニーズだと考えています。既存のモデルからAGIが構築されると考えているためでしょう。また、AIを制御する方法に関する研究や、AI自身にAIセーフティを研究させる方法が重要だとされています。OpenAIのSuperAIignmentチームを率いていたJan Leike氏のブログ記事で言及されている「アライメントMVP」（最小限の実行可能製品）を構築する方法、つまりアライメント問題を解決するために弱い安全なAGIを構築することは一つのアプローチかもしれません。しかし、それがあまりにも危険だと考える人もいます。４番目に重要なのが理論研究だとされています。調査によると、AIセーフティ分野の多くの人々は、アライメントに対する多くの実行可能なアプローチがまだ見つかっていないと考えているようです。

MATSの戦略・実績

MATSの戦略について少しお話しします。私たちのプログラムには、以下の5つの要素（program elements）があります。

まず、私たちはAIセーフティに対するポートフォリオアプローチ（portofolio approach）を取ります。これにより、先に説明した3つのシナリオの問題を解決しようとしています。
メンターと共に学ぶapprenticeshipが非常に重要だと考えています。
LISAやMATSプログラム、あるいは他の場所でのオフィススペースでの仲間や研究者のコミュニティ（communitiy of peers）も非常に重要だと考えています。
サポートとトレーニング（support and training）も重要ですが、より経験豊富な研究者にとってはそれほど重要ではないかもしれません。
また、専門家の研究者が少なく、彼らの時間が非常に重要であることを考えると、強力な選抜（strong selection）が必要だと考えています。

これまでのMATSプログラムについて簡単に説明します。ご覧のように、最初は30人、次に3つのプログラムで60人の研究者（scholar）が参加しました。現在のプログラムでは90人の研究者、約47人のメンターがいます。月曜日に始まる6.0プログラムまでの全プログラムを通じて、213人の研究者と47人のメンターをサポートしてきました。

現在のプログラムに対する1221件の応募を見てみると、解釈可能性や評価が多く、次に制御と監視の研究が続き、最後に協調的AIやagent foundationなどの理論研究があります。私たちがより技術的なプログラムであるためか、ガバナンスの応募者が少なくなっています。

現在の研究者のポートフォリオを見ると、38%が解釈可能性、26%が監視または制御研究、16%が評価、残念ながらメンターの最後のキャンセルにより協調的AIは3%のみ、ガバナンスに11%、そして価値観のアライメントに約6%が取り組んでいます。すでにPh.D.を持っているのは約15%のみで、より多くの人がmasterまたは学士号を持っており、中央値の研究者は26歳のmaster学生です。ジェンダーは男性に偏っており、米国の大学の科学分野、特にコンピュータサイエンスにおける男女比と同程度です。

Webinar

Ryuichi Maruyama