2024年AIアライメント入門コース 参加報告

執筆:小林竜己(LangCloudテクノロジーズ)

2024年夏、AIアライメントネットワーク(以下、ALIGN)主催によるAIアライメント入門コースが開催されました。ALIGNボランティアスタッフの一員でもある私より、コースの記録を兼ねて、参加報告をさせて頂きます。

コースについて

本コースは、米国AI Safety FundamentalsによるAI Alignment Course(12回開催、3カ月)をベースに日本向けに作られたもので、以下の通り、全4回のコンパクトな学習内容に再構成され、AIアライメントに関する基礎的かつ高度なトピックを短期間で学べるものでした。本コースの企画・開発は、ALIGNにおける勉強会主催などで活躍されている米国コールド・スプリング・ハーバー研究所博士課程所属の永井正之さんが担当され、永井さんはセッションのファシリテーターも務められました。

 第1回「AIとこれからの未来」(7月10日 21:00~22:30)

 第2回「AIセーフティとは?」(7月24日 21:00~22:30)

 第3回「RLHFと拡張可能な監視」(8月7日 21:00~22:30)

 第4回「機械論的解釈可能性」(8月21日 21:00~22:30)

本コースの詳しい内容は下記オンラインリソースで確認できます。
参加者募集ウェブページ https://www.aialign.net/blog/202405course
永井さんによるコース紹介ビデオ https://youtu.be/QMEwY2aj0BE

コース全体の流れは、第1回でAIの現状と未来を考えるところから始まり、第2回でAIセーフティの研究領域に踏み込み、第3回でいよいよRLHF(Reinforcement Learning from Human Feedback)と呼ばれるAIアライメントの中心技術を掘り下げ、最終回の第4回でAIセーフティへの貢献が期待される機械論的解釈可能性を学ぶという構成です。

コースは議論中心で、参加者は用意された資料(上記ウェブサイトにリストがあります)を予習し、当日セッションに臨みました。開催方法はzoom、参加費無料、使用言語は日本語で、夜遅い時間の開催はお仕事を持つ社会人の参加に配慮された設定でした。

なお、ALIGNの名称でもある「AIアライメント」は、「AIシステムを人間の意図する目的や嗜好、または倫理原則に合致させることを目的とする研究領域」(Wikipediaより抜粋)と定義され、AIのリスクが社会的に問われる昨今、極めて重要なAIの研究領域になりつつあり、日本において、今回のような入門コースが待ち望まれていた状況でした。

以下では、各セッションの流れを再現しつつ、当日の雰囲気や私の感想などを含め、コンパクトに参加報告をまとめてみたいと思います。

第1回「AIとこれからの未来」

ファシリテーターの永井さんの下、16名の方が参加され、第1回セッションが始まりました。ALIGN理事の山川宏さんも飛び込み参加され、貴重なコメントを頂けました。

1. コース概要の説明、および、参加者自己紹介

最初に、永井さんによるコース概要の説明があり、次に、自己紹介の時間に移りました。参加者はオンラインドキュメントに氏名、現在取り組んでいること、コース参加の動機などを書き込み、順次1分間の自己紹介が与えられました。ほとんどの方がAIや機械学習に関連するお仕事や研究に従事されていると分かり、AIコミュニティにおけるAIアライメントへの関心の高さと学びに向けた熱意を感じました。

2. 予習資料を読んでの質問・議論点の書き出し

次は予習で読み込んできた資料の感想を共有する時間です。初回はメイン資料4点、補足資料3点で、「急激に進歩するAIの能力とリスク、将来におけるAIの脅威に対する備え」を理解するものでした。参加者は、以下2点の観点を参考に、資料を読んだ感想をオンラインドキュメントに記入しました。

(観点1)AIのどのような発展に特に驚きましたか?

(観点2)AIの将来について最も期待 or 危惧していることは何ですか?

参加者のみなさんが書き込む感想の多様さと専門性にまず目を見張りましたが、さらに驚いたのは、書き込まれた感想の随所に専門的なコメントが次々に追加されていく様子で、参加者のレベルの高さに圧倒されました。

3. 仕事・世界に対するAIの影響の考察・グループディスカッション

次は本日メインのセッションです。「仕事・世界に対するAIの影響」というテーマで、以下の考察課題が与えられました。

(1) 現在の自分の日常業務のどれだけがAIシステムに取って代わられるか、AIシステムによって補強されるか、そして10年後にはどのように変わっているか、AIは社会全体にどのような影響を与える可能性があるか

(2)将来、AIシステムが経済的生産性の高い仕事の大半をこなせるようになったとき、どのような課題や欠点・失敗があるだろうか

本コースでは各セッションを通じて、こういった課題が与えられ、参加者はまず、オンライン共有ドキュメントへ回答を書き込み、短時間の意見交換のあと、zoomのbreakout roomでのグループで議論を進めるという学習スタイルでした。

今回は、普段、想像はするけれど、深く考えたり文章にすることのないAIの影響やリスクについて集中的に考え、意見交換をしましたが、単に知識を学ぶことよりも、こういった作業のトレーニング自体の価値を再認識した時間となりました。

4. まとめ・振り返り

あっという間の1時間半が過ぎ、セッション終了の時刻となりました。セッションで得られたこと、フィードバックを記入して解散となりました。

第2回「AIセーフティとは?」

1. 予習資料を読んでの質問・議論点の書き出し

第2回はメイン資料4点、補足資料2点で、「AIアライメントの定義、AIセーフティ分野での位置づけ、深層学習においてAIアライメントを実現することの難しさ」を学ぶための資料セレクションでした。

参加者は以下の観点を参考に、感想を記入しました。

(1)資料で提示されたリスクの中で特に興味深かったものや現実的だったものはありますか?

(2)アライメント問題を友人に説明できますか?どの点を伝えるのに苦労しますか?

 この作業の最中、「内部アライメント」と「外部アライメント」の定義に関して議論が始まり、永井さんから標準的な定義を紹介していただきました。内部アライメントは、AIの学習過程における「目標の誤汎化」、一方、外部アライメントはその学習中に起きてしまう「想定外の目標達成」で、加えて、AIのよくない振舞いである「おべっか使い」は外部アライメントに対応し、「策士」は内部アライメントに対応すると理解できました。

2. AIセーフティに関する考察・グループディスカッション

次に、「今後の変革的AI登場に対する7つの主張」に対する5段階評価に取り組みました。変革的AIとは「農業革命や産業革命に匹敵する転換を促すAIであり、超知能AIや人工汎用知能とは異なり、知能レベルではないAIの影響に関する考え方」を指すとの定義で、これに対して、「変革的AIは今後15年で開発される」、「AIは人間と資源を奪い合うことになる」などの主張が7つ用意されていました。

個人での5段階評価のあと、グループで議論を行いましたが、変革的AIの実現時期やその内容に対する評価の個人差はAIを専門とする参加者の間でもとても大きく、背景となる理由も様々で、とても興味深いものでした。

3. ミスアライメントに関するケーススタディ(追加の宿題)の発表

次は、余裕のある参加者に向けて出された追加の宿題の発表の時間でした。用意された9つの資料から一つを選び、ミスアライメントに関するケーススタディを実施して報告するというもので、私を含めて5名の方が以下のテーマにチャレンジしました。

ケーススタディの具体例を通して、AIが人間の意図通りの学習をせず、思いもよらない行動を獲得する様がありありと分かり、ミスアライメントの問題の深さを理解することになりました。

最後に、セッションで得られたこと、フィードバックを記入して解散となりました。

第3回「RLHFと拡張可能な監視」

1. 予習資料を読んでの質問・議論点の書き出し

今回はメイン資料4点、補足資料2点で、「現在多くのAIシステムで用いられている人間のフィードバックからの強化学習(RLHF)、および、AIによる欺瞞・ハルシネーション・おべっかなどの問題に対処するための拡張可能な監視」について学ぶことを目的としたものでした。

参加者は以下の観点を参考に、感想を記入しました。

(1)資料で提示されたリスクの中で、特に興味深かったものや現実的だったものはありますか?

(2)アライメント問題を友人に説明できますか?どの点を伝えるのに苦労しますか?

予習資料はかなり専門的で一部の参加者にとって、かなりタフなものだったと思われます。強化学習の基礎的知識の上にRLHFと呼ばれる大規模言語モデルのアライメント学習の仕組みを理解する必要があり、その先に、「ディベート」に代表されるモデルのアライメント学習の評価手法を学ぶステップが待ち構えています。個人の独学ではなかなか手の届かない所までを学べることが本コースの素晴らしさであると理解しました。

2. RLHFに関する考察・グループディスカッション

次に、永井さんから「RLHFを説明していただける方はいますか」とリクエストがあり、理解のチェックをして頂けると考え、私の方でトライさせていただきました。説明は大丈夫とのことでホッと一安心しました。参加者がRLHFの仕組みをおおよそ確認したあと、おべっかを使うAI、ハルシネーション(幻覚)、ジェイルブレイクといったAIの問題となる現象を題材に、RLHFの抱える課題について個人の考察とグループ議論を行いました。。

3. 「ディベートによる拡張」に関する考察・グループディスカッション

RLHFのあとは、異なる学習を経たAIモデルを評価する手法であるディベートと呼ばれる手法を考察・議論しました。AIを評価し、監視することの重要性や問題点について様々な意見や考えが飛び交い、高度化するAIへの対処の難しさを実感しました。

最後に、セッションで得られたこと、フィードバックを記入して解散となりました。

第4回「機械論的解釈可能性」

1. 予習資料を読んでの質問・議論点の書き出し

第4回はメイン資料3点、補足資料2点で、学習のテーマは「ブラックボックス化している深層学習モデルをリバースエンジニアリングし、人間が理解可能な形で説明することを目指す機械論的解釈可能性と呼ばれる研究分野」を学ぶことでした。

メイン資料にはALIGNリサーチフェロー高槻瞭大さんによるオンライン記事「機械論的解釈可能性の紹介」が含まれ、日本語で分かりやすく書かれており、とても助かりました。

いつも通り、参加者は以下の観点(一部割愛)を参考に感想を書き込みました。

(1)機械論的解釈可能性のゴールは何ですか?AIアライメントやAIセーフティにどのように貢献するでしょうか?

(2)なぜ大規模AIモデルの解釈可能性を高めることが重要な目標なのでしょうか?

(3)AIシステムが「解釈可能」であるとはどういうことでしょうか?

参加者の間で、特徴とニューロンの定義について議論となりましたが、永井さんによるCNNアーキテクチャを用いた説明が分かりやすく、議論はまもなく収束しました。

1. 「回路と特徴」に関する考察・グループディスカッション

次に、回路と特徴を具体的に考える作業に移りました。参加者各々、様々な表現・イメージを頭に描き、回答を書き込んだあと、2チームに分かれ、「画像モデルの中から“鉢植え”の特徴を見つけるにはどうしたらよいでしょうか」といった質問を議論する中で、機械論的解釈可能性が対象とするニューラルネットワーク内に創発する回路と特徴について理解を深めました。

2. 「重ね合わせ」に関する考察・グループディスカッション

本コース最後のテーマは「機械論的解釈可能性における重ね合わせ」でした。予習で得た知識をベースに、多義的ニューロン、辞書学習などを含め、重ね合わせに関し、参加者で議論をしました。私の理解が正しければ、重ね合わせは「ニューラルネットワークが表現空間において次元数よりも多くの特徴量を表現する現象」と定義され、複数の特徴量に対して発火する多義的ニューロンでは、リバースエンジニアリングによるニューロン機能の特定が難しくなります。

最後に、セッションで得られたこと、フィードバックを記入して、最終回が完了しました。

さいごに

AIアライメントの必須領域をコンパクトに学ぶことができ、また、参加を通じて、AIコミュニティの方々とも知り合うこともでき、とても多くのことを得ることができました。

最後に、ファシリテーターの永井さん、参加者されたみなさま、大変お疲れ様でした。本コースの卒業生の中から、日本のAIアライメント、AIセーフティの推進を支える人材が数多く輩出されることを願い、筆をおきたいと思います。

※本記事の許可のない転載を禁じます。

Next
Next

【開催記録】ALIGN Webinar #11 David A. Dalrymple (davidad) : the Safeguarded AI program at ARIA