【開催記録】ALIGN Webinar #1 Dan Hendrycks博士(Center for AI Safety)

2024年5月17日のALIGN Webinarシリーズの第1回では、Center for AI Safety(CAIS)の創設者であり、AIセーフティの分野の技術的研究や提言活動で世界を先導する一人であるDan Hendrycks(ダン・ヘンドリクス)博士をお招きしました。

  • 日時:2024年5月17日(金)10:00 am-10:55 am (日本時間)

  • 参加者:オンラインで30名ほど

CAISのこれまでの歩み、Danさんがこの分野で活動するに至った経緯、AIが抱える破局的リスク(Catastrophic risk)と、どんな対策が有効かについて、トークいただきました(動画はこちら)。非常に学びの多いトークとなったため、ここにその内容を記載します。

Dan Hendrycks博士(Center for AI Safety)


Dan Hendrycks博士(Center for AI Safety)トークの翻訳(一部抜粋)

Center for AI Safety設立の経緯と、活動の3本柱

大学院を修了した直後、2022年頃にCenter for AI Safetyを設立し、2023年に活動を本格的に開始。設立の大きな理由は、当時AI安全に焦点を当てて活動している人たちがほとんどいなかったからです。AI安全は重要視されておらず、話題にもなっていませんでした。私は近い将来、AIシステムがはるかに重要になり、安全性の問題のインパクトが大きくなると予想しため、設立しました。

センターでは様々な活動を行っていますが、主に3つの分野に分類されます。

  • 一つ目は技術的研究(technical research)。例えば、NeurlPS論文のような論文の執筆に取り組んでおり、これらでは、大規模言語モデルの脱獄耐性を高める研究を行っています。具体的には、AIシステムの透明性と解釈可能性の向上、倫理的な行動を促すように機械学習モデルを制御する方法の模索などに取り組んでいます。

  • 2つ目は分野構築(field building)。研究者向けのワークショップを開催したり、計算機クラスターを運用しています。このクラスターは、通常は利用できないような大規模言語モデルを使った実験を研究者が行うことを可能にします。また、安全に関する教科書”Introduction to AI Safety, Ethics, and Society”も作成しました。これは、この分野の人たちが一般知識を高めるためのものです。

  • 3つ目は、提言と助言(advocacy and advisory)です。これには、政府を支援したり、特定の政策を支持したり、法律の起草を支援したり企業に助言をすることが含まれます。これらは現在、私たちが行っている活動の一部です。

AIの破局的リスクとは何か

対処しなければならないAIのリスクは多岐にわたりますが、その中でも私が現在最も考えているもののいくつかについて話したいと思います。

AIの破局的リスク1:悪意ある利用

1つのリスクは悪意ある利用(malicious use)です。特に、バイオ攻撃サイバー攻撃による被害が懸念されます。現在のシステムはまだそれほど恐ろしいものではありませんが、将来的にははるかに高度な能力を持つようになる可能性があり、そうなると重要インフラへの攻撃に悪用されるおそれがあります。サイバー攻撃の場合、被害は甚大です。また、悪意ある利用者は専門家レベルのウイルス学の知識を使って、バイオ兵器の開発を促進したり、ウイルスの毒性や病原性を高めることも考えられます。

このようなリスクに対処するためには、技術的介入と非技術的介入の両方を行う必要があります。技術的な介入策の1つとしては、モデルから兵器化に関連する高度な知識を忘却させるように仕向けることが考えられます。例えば、バイオ兵器の場合、逆遺伝学の知識は兵器開発に非常に役立ちます。そのため、LLM(大規模言語モデル) 内でこの知識を削除できれば、バイオ兵器を作る能力を大幅に低下させることができます。サイバー攻撃でも同様です。APIハッキングや特定のハッキングツールを使用する方法に関する知識を削除すれば、モデルによるサイバー攻撃の可能性を大幅に減らすことができます。

機械学習研究以外では、どうすれば政策的に悪意ある利用を減らせるかという問題があります。ランダムな悪意ある行為者による悪用を減らすための主要な方法は、基本的にはオープンソース化に対する制限を設けることです。今後数年間でAIシステムがはるかに高度な能力を持つようになるのであれば、そのような強力なモデルはオープンソース化しないことが望ましいでしょう。悪意ある利用のリスクに対処するためには、モデルが特定の知識を持たないようにする必要があります。しかし、モデルが公開されてしまうと、悪意ある利用者がその知識を再びモデルに組み込んでしまうおそれがあり、再び危険な状態になってしまいます。極めて強力なAIシステムは容易に大量破壊兵器に転用される可能性があるため、アクセス制限が重要です。悪意ある利用に関しては、国家安全保障上の懸念事項が数多く存在しており、オープンソース化すべきでないものについてのレッドラインがあると考えています。

AIの破局的リスク2:コントロール喪失

もう一つの懸念材料はコントロールの喪失(loss of control)です。我々がAI システムを構築し、それが我々の求めた通りに動作しなかったり、我々とは異なる目標を持ったりした場合です。

私が考えるに、そうした事態が起きる可能性がある主な要因は以下です。もし今後数年間で人間並みの能力を持つ研究者AIが現れたとすると(人によってはその予想時期は異なりますが)、その研究者を1万人、あるいは10万人分コピーして、非常に優秀な 研究者集団を作り出すことができます。彼らはAI研究を行い、AI研究は劇的にスピードアップするはずです。そうなると、アルゴリズム開発は目まぐるしい速度で進み、10年かかるようなAI開発が1年ですむかもしれない。このプロセス自体を私たちが監視できず、重要な意思決定にも関与できなくなる。これが、私が考えるコントロールの喪失のメカニズムです。数学者の I.J. グッドはAIの「知能爆発」といいましたが、ここで私が想定しているのは1年程度の間に起こる知能爆発です。

これへの対処として技術的にできることはそれほど多くないと思います。このリスクを減らすには、技術的なアプローチではなく、政府が AI開発者の開発スピードを制限することなどが考えられます。 世界トップクラスのAIや研究者AIが登場する段階で、開発を遅らせたり、一時停止させたりすることが重要です。つまり、開発を急がないことが、人間がコントロールを失わないための主な方法でしょう。

AIの破局的リスク3:AI開発競争

次に懸念しているのは、AI開発競争(AI arms race)です。 多くのAI企業が互いに競争し、「自分たちは善であり、開発をやめれば他社が優位に立つだろう」という論理で開発を進めます。 その結果、倫理観の欠けた開発者が最も影響力を持ち、企業間で悪循環が生じるのです。これはOpenAI、Google、Meta などが現在直面している問題であるとともに、将来的には軍事面でも同様のことが起こるでしょう。

軍事目的で AI 開発に莫大な資金が投入され、「危険ではあるが、他国が開発すればこちらが不利になる」という理由で開発が正当化されるでしょう。この構図は核兵器開発にも見られました。 誰もが大量の核兵器を持ちたくないと思っていましたが、似たような論理で核軍拡散が起きたのです。本来は誰もが核兵器が少ない方が望ましいが、各国が個別に判断すると全体の安全が低下してしまうというジレンマが生じる。 これは集団的行動問題(collective action problem)と呼ばれるもので、私たちの教科書の第7章で扱っています。

この構造的な問題に対して、どう対処できるでしょうか。 おそらく、減速または一時停止の合意についても協調が必要でしょう。 2026年1月1日に各国が「一時停止しましょう」と書かれた条約を想像してみてください。アメリカ軍や中国軍などがそれを守るとは到底思えません。ですから、たとえ合意を取り付けられたとしても、実際に一時停止が行われていることを確認する必要があります。 つまり、各国が言っているようにAI開発を進めていることを確認する新しい方法が必要です。しかし、互いを信頼できない以上、調整は不可能と思われるかもしれません。

幸いなことに、この解決策として計算資源ガバナンス(compute governance)ないし計算資源セキュリティ(compute security)が考えられます。 現在、すべてのAI開発はGPUと呼ばれるチップ上で行われており、非常に高価なもので、数十万ドルもします。 これらのGPUに機能を追加することで、大規模なトレーニングが行われているかどうか、実際に一時停止しているかどうかを確認することができるようになる可能性があります。 また、これらのGPUが本来あるはずのデータセンターにあるのか、密輸されているかなど、GPUの所在を追跡し、使用目的通りに使用されているかどうかを確認することができます。 推論に使用されているのか、訓練に使用されているのかを確認し、本来の目的と異なる使用がされている場合は、チップを無効にすることができれば、国際的な信頼構築が可能です。 互いの言葉を信用できないとしても、ハードウェアのセキュリティ機能を信用することができれば、それが可能になるのです。 だからこそ、私は今、そうしたハードウェアのセキュリティ機能をいくつか構築し、概念実証を行った後、将来的にはAIチップに統合させることを目指しています。 これが国際レベルでの解決策の一つです。

国内レベルでは、AI企業が安全性を切り詰め、互いに競争し、可能な限り速く開発を進めようとしています。 私たちはこのような問題を回避するために、企業が安全性をないがしろにしないようにすることを目指しています。 その方法とは規制(regulation)です。Center for AI Safety Action Fundは、カリフォルニア州上院のAI規制法を共同提案し、その設計を支援しました。これはAIによって多くの人が殺害されたり、数十億ドルの損害が発生したりした場合、AI開発者が責任を負うようにする法案です。つまり、AI開発者が「確かに自分が作ったが、責任はない」と言えなくなるようにすることで、開発者はAIシステムの悪用や大規模な社会的不利益を防ぐためのインセンティブを持つようになります。

まとめると、悪意のある使用、特にサイバー攻撃のリスクシナリオがありますが、これらについては技術的な取り組みが行われています。 また、制御不能のリスクもあり、これには一時停止が必要だと考えています。 同様に、国際レベルでの競争ダイナミクスや競争圧力に対しても、計算資源ガバナンスや規制が必要になってきます。より詳しく知りたい方は、An Overview of Catastrophic AI Risksという論文を見てください。

参加者からの質問

質問:CAIS を設立するにあたって立てた戦略や、他の団体と比べて際立っている点は何でしょうか?

Dan氏:人工知能のリスク軽減においては、さまざまなリスク要因が存在します。重要となるのは、これらのリスクに対してポートフォリオ・アプローチを取ること、つまり多様化を図ることです。

例えば、悪意ある利用による技術的課題について説明しましたが、実際には悪意ある利用に対して他にも取り組んでいる介入手段がいくつかあります。中には効果的なものもあれば、そうでないものもあるでしょう。

現在取り組んでいるものの一つとして、「ショートサーキット」と呼ばれる技術があります。これにより、モデルの「脱獄」を非常に困難にします。また、改ざん耐性のあるセーフガードについても取り組んでいます。さまざまなセーフガードが組み込まれたモデルがオープンソース化された場合でも、敵対者がモデルをカスタマイズして危害を引き起こすことを非常に困難にします。これも悪意ある利用のリスクを軽減するための介入手段の一つです。

カリフォルニア州の法案は、AI 開発者が今後モデルをオープンソース化するかどうかを再考させるものです。モデルが簡単に悪用されて災害を引き起こす可能性がある場合、開発者は問題に直面する可能性があります。これにより、インセンティブが改善されます。オープンソース化しても安全が確保されると予測できる場合にのみ行うようになり、オープンソース化すること自体に何の制約もない状態ではなくなるのです。開発者は公開する前に社会的影響を考慮する必要があります。

悪意ある利用というリスク要因一つを取っても、このようにさまざまな介入手段を講じるのです。そして、試行錯誤を続け、効果的なものを見つけていきます。世間の注目を集めるものもあれば、そうならないものもあるでしょう。さまざまな取り組みを行い、そのうちのいくつかは大きな成果をもたらし、そうでないものもあります。

この分野では、他者と同じことを繰り返すだけではいけないと思います。多くの人々は特定の資金提供者を持っており、資金提供者からは暗黙のうちに、または明示的に、特定の分野に注力するよう圧力をかけられます。そのため、一夜にして「モデル評価こそが重要だ」と言い出し、多くの団体が「モデルをテストする必要がある」と主張し始めるのです。しかし、私たちはそうではなく、より独立して考えるようにしています。これが、この分野での差別化につながっていると思います。

また、大学院生の頃にはカリフォルニア大学バークレー校で多くの論文を発表しました。おそらく、機械学習の分野でファーストオーサーの論文を一番多く発表していたと思います。この経験から、非常に効率的に作業を行い、一般的に見過ごされがちな興味深い機会を見つける方法を学びました。例えば、先ほどの計算資源セキュリティは、その例です。GPU に関する取り組みについては多くの人が言及していますが、オフスイッチや位置追跡などのセキュリティ機能を実装するための技術的な課題があるようです。誰も取り組んでいないのであれば、私たちがやるだけです。今年、私たちがやらなければ、おそらく誰も取り組まないでしょう。このように、機会を見つけることも重要なのです。以上が説明になります。ポートフォリオ・アプローチを採用し、他の人とは異なる分野に取り組むのがCAISの特徴です。

質問:AIの研究者としてキャリアをスタートされましたが、政策やガバナンスへの興味も以前からお持ちでしたか?

Dan氏:AIの分野に入ったきっかけは安全問題からでした。もともと社会科学や哲学といった分野に興味があったのですが、AI Safetyに取り組むにはAIの研究が最善の方法だと思いました。今は、技術的な実証研究によるAI安全はAIリスク軽減の一側面ではあるものの、主要な方法ではないと考えています。以前強調したように、もし知能爆発を防ごうとするなら、人々がそのような開発をするのを世界が止められるかどうかが問題であって、特定の技術的な課題を解決することではないと思います。実証的・技術的なAI研究に費やしている時間は全体の4分の1くらいかもしれません。

質問:日本の研究者や企業、官公セクターは、AI Safetyにどのように貢献すべきだと思いますか?

Dan氏:AIリスク軽減は国際的な取り組みが必要ですが、AIリスクに関する調整を行う上で日本が参加するG7は最も自然なグループです。ですから、AIが世界に与える影響において、日本は非常に重要な役割を果たすと思います。日本の人々がこれらの様々なリスクと、それに対応するための介入方法について認識を持つことが重要です。ですから、例えば、日本のAIセーフティ・インスティテュートがうまく設立され、政府関係者と連携を築き、懸念を表明したり、助言を提供したりして、AIのリスク軽減に取り組むことを願っています。

また、日本はAIに対してポジティブな姿勢を持っていますが、おそらく時間とともにこの考え方も変わると思います。今はそれほど問題視されていないかもしれませんが、AIシステムの能力が高まるにつれて、リスクの重要性と緊急性がますます明らかになるでしょう。今年の夏頃には、AIの能力が飛躍的に向上するのではないかと予想しています。そうなると、高度なAIシステム、人間レベルのAIシステムが何十年も先にあるとは誰も言えなくなるでしょう。

質問:「AI Safety」 という名前を組織名に選んだ理由を聞かせてください。この問題は AI、人類、自然環境が絡み合う複雑系として捉えることもでき、AI Safetyはやや人間中心的にも聞こえます。

Dan氏: 当時、他の多くの組織が「alignment」という言葉を使った名前を使っていました。また、一部の人々は「安全性 (safety)」という言葉が、自動運転車の事故などとの関連から好ましくないと考えていました。 しかし、私は安全性はガバナンスなどさまざまな懸念事項を包含する上位概念だと考えています。アライメントはその下位分野の位置づけです。

複雑系というフレーミングには完全に同意です。 安全工学(safety engineering)については、AI Safety教科書で扱っています。 この章では、現代の安全工学が物事を複雑系として捉えるという仮定に基づいていることを説明しています。 おそらく一部の産業では、安全性という言葉はより特定の意味合いを持つのでしょう。 しかし、安全工学をより広い意味で捉えると、AI システム、GPU、AI システムを構築する組織、規制当局など、さまざまな要素が相互作用していることを認識することです。

我々は AI 関連組織や国際機関、条約、国同士の競争圧力とも関わりを持っています。 したがって、AI リスク軽減という言葉がこれら全てを包含し、よりポジティブな表現 として、「安全性 (safety)」が用いられるのだと思います。「整合 (alignment)」という概念は、非常に強力で高度な能力を持つ AI システムが1つだけある研究室のような状況において、そのモデルが整合しているかどうかを考える場合に重要になります。しかし、複数の AI システムが存在し、それぞれが異なる形で整合されているような状況では、誰かが悪意を持ってシステムを整合させようとした場合、多くの問題が発生するでしょう。

軍事機関が互いに競争するためにAIシステムを開発しており、自国の軍隊と整合しているような状況でも、依然としてさまざまなリスクが存在します。 したがって、アライメントは、他の全ての AI システムよりも強力で、世界を支配する決定権を持つような AI が1つ存在する場合に最優先されるべき懸念事項です。 そのようなAIが我々とアラインしていることを確認する必要があります。しかし、複数の主体が存在する状況、つまり複数のAIシステムが存在する場合には、アライメントという概念だけでは不十分です。

1 年半ほど前は、複数の AI システムが存在することを想定するのはあまり一般的ではありませんでした。私は論文Natural Selection Favors AIs over Humansの中で複数のAIシステムについて論じましたが、GPTが登場した後も、AIリスクを懸念する多くの人々は、ただ1つのシステムだけが重要であり、それが問題になるだろうと考えていました。 しかし、今ではそのような可能性は低くなってきていると思います。

質問: ハードウェアの性能向上が急速に進む中、計算資源ガバナンスはいつまで有効だと考えられますか?

Dan氏:実は、性能向上が速いということは、計算資源ガバナンスにとってむしろ好都合な点です。 なぜなら、人々は絶えずチップを新しいものに交換するようになるからです。 もし我々がある種のセキュリティ機能をこれらのチップに追加できれば、流通しているチップの中で最も性能が良いものはそのセキュリティ機能を搭載しているものになるでしょう。たとえ数年前のチップであったとしても、性能が違いすぎて使われなくなるでしょう。 ですから、少なくともこの10年間は、計算資源ガバナンスにとって性能向上が障害になることはないと思います。 もちろん、もっと長いスパンで考えるのであれば話は別ですが。

実際、最先端の AI チップに我々が機能を追加し、何千、何百万ものチップを使って非常に強力な AI システムを開発するような大規模なトレーニングの実行を許可さえできれば、それ以外の通常の推論には使わせることもできます。 ですから、性能向上が計算資源ガバナンスにとって大きな問題になるとは考えていません。今はこの10年間の解決策を考えることに集中できていて、そのおかげで将来的にもっと良い対応ができるようになると思います。 この10年間に関しては、うまく機能するでしょう。

質問:コントロールの喪失の問題とタイムラインについて言及されていましたが、3、4年で非常に優秀な研究者AIが現れるかもしれないとお話されていました。 その予測は、ここ2、3年で ChatGPT や生成系 AI が大きく注目を集めるようになったことを踏まえて、どう変化しましたか?

Dan氏:少なくとも私が何年も前に公に書いた能力予測に関しては、大体その通りになっていると思います。Less WrongにWhat 2026 looks likeという投稿があり、そのコメント欄に私は今後5年を予想して30分ほどかけて書き込みをしたのですが、そのほとんどが当たっています。 ですから、技術的な能力に関しては、概ね予想通りに進んでいると思います。

ただ、1つ意外だったのは世間一般の反応です。 学術界では AI リスクに対して懐疑的な人が多かったのですが、一般の人々は深刻に考えるべき問題だと考えています。 

質問:トランスフォーマー型の基盤モデルは AGIへの直接的な道なのでしょうか? 4年後にあなたが想定している状況を達成するには、何か予期せぬ発見が必要なのでしょうか?

Dan氏:現行のパラダイムでも、人間レベルの能力を持つものに到達することはできると思います。 そこからアルゴリズムの改善などはあるでしょうが、劇的なブレイクスルーは必要ないと考えています。 より大きなデータセットで訓練を行うための大規模なクラスタが構築されるのを待つのが大部分でしょう。 その間にも、合成データやデータ拡張のようなアルゴリズムの改善はあるでしょう。 AI エージェントなどにもアルゴリズムの進歩はあると思いますが、全体的に大きな変更は必要ないと思います。 深層学習で十分ですし、トランスフォーマーのようなものでも今のところ十分そうに見えます。

質問:AI SafetyにAI研究者の関与を増やすにはどうすればいいでしょうか。

Dan氏:AI研究者にとって興味深いトピックを中心に紹介することが重要だと思います。 例えば、ジェイルブレーク (脱獄)や敵対的攻撃の問題、悪意のある利用などはAI研究者にとって興味深いものです。 

質問:政府機関の AI 政策に助言を行う際、どのような課題に直面しましたか? また、政府や政治家が AI 安全について理解を深めるために、何を学べばよいでしょうか?

Dan氏:政府関係者にとっての第一の障壁は、そもそもAIに取り組むこと自体にあると思います。 しかし、いったんそこを乗り越えれば、彼らはかなり理解を示してくれるようになると思います。

実は、問題に対してより混乱しているのは、技術系の人たちです。 彼らは全てのものを技術的なレンズを通して見ようとします。「どうやってこの問題を解決するのか?」「知性爆発のような問題をどう解決するのか?」と考えてしまうのです。 彼らは、より多くの機械学習研究が答えだと思ってしまいますが、実際はそうではありません。 機械学習研究自体が問題なのではなく、知性爆発は一度しか起こらない可能性があるため、経験的に検証することはできません。 したがって、政府関係者にとって重要なのは、知性爆発をなるべく起こさないようにすることです。

この分野には、初期はアライメントが主な解決策だと考えていた Eliezer Yudkowsky氏が設立したMIRI(Machine Intelligence Research Institute)も、最近は技術的なものだけではなく、政策的な介入にも焦点を当てています。

しかし、今でも「技術的なものが主な解決策」と考えている人たちが多くいます。 彼らは一般的には AI についてもう少し学ぶだけで問題ないと思いますが、この分野に長年携わってきた人たちは、技術的な解決策を探し回って見つけられず、結局は進展がないと思ってしまうのです。 しかし実際には、責任法や計算セキュリティなど、リスクを軽減させることができる介入方法は他にもたくさんあります。

質問: 今後数年間の大きな目標は何ですか?

Dan氏:昨年はいくつかの取り組みがありました。 例えば、X社への助言、表現工学に関する優れた研究論文の執筆、大規模言語モデルにおける敵対的頑健性 (adversarial robustness) の分野を再現した論文 (LLM Attacks) への貢献などです。 この論文は、大規模言語モデルに対する敵対的生成例の分野を事実上再現したものです。

他にも政府機関への助言などを行っていましたが、今年は特に、大手テック企業のインセンティブに影響を与える責任法制と、おそらくこの計算ガバナンスのような取り組みが我々にとって最大の課題になるでしょう。

しかし、私は能力予測通りに物事が進んでいると話しましたが、通常は数ヶ月先の自分が何をしているかは予測できません。

CAISが提供する教材等

AI Safetyの教科書については、夏の間、遠隔で学習したい人のために、このコースの一部をオンラインで開催する予定です。 このコースでは、AI 研究の技術的ライン、AI ガバナンス、AI をよりスマートで倫理的にする手法、そしてこれらのリスクとその考え方についての形式モデルなどを扱います。 テキストブックは学術出版社のTaylor and Francisから出版される予定です。 スライドも用意しており、現在はその講義の一部をアップロードしているところです。

より技術的な内容については、バークレーで共同指導したコースがあります。 透明性、ベンチマーク、スケーリング法則、敵対的攻撃に対する頑健性などを扱っており、コースの YouTube 動画を近日アップロードする予定です。

(講演録ここまで)

※許可のない転載を禁じます。


Previous
Previous

英国政府が100億円超を投じる「Safeguarded AIプログラム」とは