【2024年7-8月開催】AI アライメント入門コース

24 May

概要

AIアライメント入門コースは、AIアライメントに関する基礎的および高度なトピックを深く理解するためにデザインされた包括的なプログラムです。このコースは隔週で開催される4回のセッションで構成されており、カリキュラムは「AI Safety Fundamentals AI Alignment Course」に基づいています。

このコースは特に次のような方に最適なものとなっています。

機械学習の経験があり、AIの安全性研究に興味がある方
STEM教育などの技術的バックグラウンドを持ち、AI安全性研究を追求する強い関心を持っている方
高度なAIシステムに関連する潜在的なリスクを軽減するために、AIセーフティのキャリアを検討している学生

このコースは、AIの安全性に関心のある方ならどなたでも受講できます。AIセーフティやAIアライメントに関心のある方は、ぜひご参加ください！

企画・ファシリテーテーター：
永井正之（Moon）：米国コールド・スプリング・ハーバー研究所博士課程。専門は計算生物学。AIアライメントにも関心を持ち、勉強会主催などコミュニティづくりに尽力。X: https://x.com/mnagai_
実施方法：こちらのコースはレクチャー形式ではなく、議論を中心にして進めます。各セッションの前半で、各リーディングの要点を確認し、後半ではリーディンをもとに議論を発展させていきたいと思います。そのため、参加者の方は各セッションまでに該当セッションのメイン資料を事前に読んでください。議論したい内容や不明点があれば時間の許す限り勉強会中に扱っていきます。
開催日時（予定）：
- 7月10日（水）21時～22時半　第1回「AIとこれからの未来」
- 7月24日（水）21時～22時半　第2回「AIセーフティとは？」
- 8月7日（水） 21時～22時半　第3回「RLHFと拡張可能な監視」※
- 8月21日（水）21時～22時半　第4回「機械論的解釈可能性」
- ※8月28日（水） 21時～22時半　予備日　8/7はファシリテーターの電波状況で休会の可能性あり。その場合、予備日を活用。
場所：Zoom
使用言語：日本語（ただし、大部分のリーディングは英語のみになります）
参加費：無料
登録フォーム：申し込みは締め切りました
参加要件：下記コース説明動画とカリキュラムをご覧いただいたうえで４回の内容をすべて受講できる方。

カリキュラム

第1回：AI とこれからの未来

近年のAIの発展は目覚ましく、様々な分野でAIの能力が急速に進歩しています。この傾向が続くと、これまでとは質的に大きく異なる未来へと導く「変革的なAI」が生まれるかもしれません。このセッションでは、これまでの急速な進歩への理解を深めるとともに、近い将来AIがほとんどのタスクで人間を凌駕する可能性に焦点を当てながら、新たなAIの能力についての予測を評価していきます。そして、地球規模の問題解決に寄与するだけでなく、壊滅的な被害をもたらすリスクも含め、現在および将来のAIが社会に与える影響について考えていきます。

メイン資料

Visualizing the deep learning revolution (Richard Ngo, 2023) （日本語・英語）- 15 mins
4つの前提となる主張 (Nate Soares, 2015)（日本語・英語）- 15 mins
What risks does AI pose? (Adam Jones, 2024)（日本語・英語） - 15 mins
人類に対するAIの脅威を真剣に受け取るべき理由 (Kelsey Piper, 2020)（日本語・英語） - 30 mins

補足資料

The costs of caution (Kelsey Piper, 2023)（日本語・英語）- 5 mins
How we could stumble into AI catastrophe (Holden Karnofsky, 2023)（日本語・英語）- 36 mins
Artificial intelligence is transforming our world — it is on all of us to make sure that it goes well (Max Roser, 2022)（日本語・英語）- 11 mins

第2回：AIセーフティとは？

AIシステムが私たちの望むことを確実に実行するようにするには、何をすれば良いのでしょうか？なぜこれは難しいことなのでしょうか？前回のセッションでは、変革的なAIがもたらす潜在的な影響について考えました。このセッションでは、これらの影響をポジティブにする、あるいは少なくともネガティブな影響を最小限に抑えるための課題を探ります。

「アライメント」が何を意味するのか、AIセーフティ分野の中でどのような位置付けにあるのかを学びます。そして、AIセーフティに関する一般的な議論や、外部/内部アライメント、収束的な道具的目標などの概念について掘り下げていきます。

メイン資料

What is AI alignment? (Adam Jones, 2024)（日本語・英語）- 15 mins
Intro to AI Safety, Remastered (Robert Miles, 2021)（動画日本語字幕有り）- 18 mins
モダンな深層学習でAIアライメントが困難になるかもしれないわけ (Ajeya Cotra, 2021)（日本語・英語）- 20 mins
Goal Misgeneralisation: Why Correct Specifications Aren’t Enough For Correct Goals (Rohin Shah, 2022)（日本語・英語）- 10 mins

補足資料

The OTHER AI Alignment Problem: Mesa-Optimizers and Inner Alignment by Robert Miles (2021)（動画日本語字幕あり）- 23 mins
Instrumental convergence: (Superintelligence より抜粋)（日本語・英語）- 15 mins

第3回：RLHF と拡張可能な監視（Scalable Oversight）

このセッションでは、「AIがどのようにして私たちの望むことを行うのか」という問題を深掘りします。特に、現在のAIシステムがどのようにしてこれを実現しているのか、そしてより強力なモデルに対してこれをどのようにスケールアップするかに焦点を当てます。

まず、多くの現代AIシステムが用いている「人間のフィードバックからの強化学習（Reinforcement Learning from Human Feedback; RLHF）」について詳しく探ります。RLHFの仕組み、その限界点、及び失敗する原因について学びます。さらに、RLHFがより強力なモデルに対して効果的であるかどうかを評価し、RLHFの短所を改善する試みである「Constitutional AI」についても検討します。

次に「拡張可能な監視（Scalable Oversight）」という問題を考えます。人間が複雑なタスクを正確に評価することが困難であるために発生する、欺瞞・ハルシネーション・おべっか、などの問題にどのように対処するかを探ります。解決策として提示されている「ディベート」「反復増幅法（Iterated Amplification）」「弱い一般化から強い一般化」などのアプローチを批判的に評価します。

メイン資料

The True Story of How GPT-2 Became Maximally Lewd (Rational Animations, 2024)（動画自動翻訳による日本語字幕有り）- 14 mins
Illustrating Reinforcement Learning from Human Feedback (RLHF) (Nathan Lambert et al., 2022)（日本語・英語）- 30 mins
Can we scale human feedback for complex AI tasks? (Adam Jones, 2024)（日本語・英語）- 15 mins
AI safety via debate (Geoffrey Irving and Paul Christiano and Dario Amodei, 2018) （日本語・英語）(section 2.0, 2.1, 2.3, 4 and 5) - 15 mins

補足資料

Supervising strong learners by amplifying weak experts (Paul Christiano, Dario Amodei and Buck Shlegeris, 2018) (Sections 1, 3 and 5)（日本語・英語）- 15 mins
Weak-to-strong generalization: Eliciting Strong Capabilities With Weak Supervision (Collin Burns, Pavel Izmailov, Jan Hendrik Kirchner et al., 2023) (Sections 1, 3, 4 and 6)（日本語・英語） - 40 mins

第4回：機械論的解釈可能性（Mechanistic Interpretability）

AIモデルの内部で何が起こっているか理解するにはどうすれば良いのでしょうか？AIシステムがより高性能になるにつれて、その内部で起こっている推論や意思決定をより解釈しやすく、透明性の高いものにする必要性も高まっています。機械論的解釈可能性は、ブラックボックス化している深層学習モデルをリバースエンジニアリングし、人間が理解可能な形で説明することを目指す研究領域で、AIアライメントに大きく貢献するのではないかと期待されています。

このセッションでは「回路解析（circuit analaysis）」のような手法でモデルの学習された表現や重みを分析したり、「辞書学習（dictionary learning）」で重ね合わせ（superposition）のような振る舞いを解明したりする方法を見ていきます。

メイン資料

機械論的解釈可能性の紹介 (Ryota Takatsuki, 2023)（日本語のみ） - 20 mins
Zoom In: An Introduction to Circuits (Chris Olah, Nick Cammarata, Ludwig Schubert et al., 2020)（日本語・英語） - 35 mins
Toy models of superposition (Nelson Elhage, Tristan Hume, Catherine Olsson et al., 2022) (Intro + sections 1, 9, and 10)（日本語・英語） - 45 mins

補足資料

Towards Monosemanticity: Decomposing Language Models With Dictionary Learning (Trenton Bricken, Adly Templeton, Joshua Batson et al., 2023) (Intro + summary of the results + browse A1 features)（日本語・英語） - 40 mins
Microscope by OpenAI（日本語・英語）

視覚モデルのニューロンが捉えている特徴量を一覧できるツール

Masayuki Nagai (Moon) https://x.com/mnagai_

【2024年7-8月開催】AI アライメント入門コース

概要

カリキュラム

第1回：AI とこれからの未来

第2回：AIセーフティとは？

第3回：RLHF と 拡張可能な監視（Scalable Oversight）

第4回：機械論的解釈可能性（Mechanistic Interpretability）

【開催記録】ALIGN Webinar #2 Tan Zhi Xuan氏

英国政府が100億円超を投じる「Safeguarded AIプログラム」とは

第3回：RLHF と拡張可能な監視（Scalable Oversight）