佐藤竜馬 - yuuk1's Digital Garden

# 佐藤竜馬（Ryoma Sato） [[National Institute of Informatics]]（国立情報学研究所）の助教。ハンドル名 joisino。京都大学情報学研究科博士課程修了（博士・情報学）。 **著書**: 『深層ニューラルネットワークの高速化』・『グラフニューラルネットワーク』・『最適輸送の理論とアルゴリズム』 **ブログ**: [ジョイジョイジョイ](https://joisino.hatenablog.com/) — 機械学習の理論・実装を深掘りする技術記事を公開 ## この wiki で言及されたトピック ### 機構的解釈性・LLM 内部表象 - LLM の[[アテンションヘッド]]種別分類と外挿可能性（[[joisino-LLMアテンションと外挿-2025]]） - [[機構的解釈性]]（Mechanistic Interpretability）・[[帰納ヘッド]]・[[関数ベクトル]]・[[反復ヘッド]] - LLM の四則演算は [[ヒューリスティックの束]]として実装される [[ロジットレンズ]]解析（[[joisino-LLMのキモい算術-2025]]） - [[Physics of Language Models]] による [[知識操作]]・[[知識容量スケーリング則]]・[[文脈自由文法]] 学習の制御実験（[[joisino-言語モデルの物理学-2025]]、[[Zeyuan Allen-Zhu]]・[[Yuanzhi Li]]・[[Meta FAIR]]） - [[LLM意味表象]]と[[認知意味論]]・[[プロトタイプ意味論]]の乖離（[[joisino-LLMと言葉の感じ方-2026]]） - [[操舵ベクトル]]による丁寧語/関西弁トーン操作・命令拒否方向操作、MLP の回転軸を狙い撃ちする[[知識編集]]による事実知識のピンポイント書き換え（[[joisino-LLMの脳内をハッキングする技術-2026]]） ### LLM の能力と限界 - [[否定文理解]]・[[テキスト埋め込み]]・[[文脈付き検索]] の構造的制約（[[joisino-否定文理解-2024]]） - 敵対的摂動と [[AI検証可能性]]・[[帰属手法]]・「探索と検証の分業」（[[joisino-超人的AIと認知不能情報-2025]]） - [[ゼロエラー境界]] と [[LLM能力スパース性]]・[[LLM評価]]（[[joisino-LLMの能力の穴-2026]]） ### モデル表現と学習理論 - [[モデルパラメータ算術]]（モデルスープ・[[タスクベクトル]]・NTK 理論）（[[joisino-モデルパラメータ算術-2024]]） - ICLR 2024 GNN 研究動向（解釈性・[[GNN同変性]]・表現能力・分子・物理等）（[[joisino-ICLR-2024-GNN]]） - [[プラトン的表現仮説]]・[[モデル表現収束]]・[[モデル縫合]]・[[暗黙的正則化]]（[[joisino-アンナカレーニナの法則-2025]]） - [[Transformer]]＝[[線形注意]]としての [[RNN]] 再定式化、[[状態空間モデル]]との接続（[[joisino-トランスフォーマーはRNN-2024]]） - [[汎化誤差バウンド]]・[[集中不等式]]・[[PAC学習]]・[[カバリングナンバー]]・[[深層学習の汎化]]（[[joisino-機械学習理論入門-2025]]） ### LLM 訓練・運用 - [[1サンプルRLVR]]・[[検証可能報酬による強化学習]]・[[強化ファインチューニング]]（[[joisino-訓練データ1個推論性能倍-2025]]） - [[報酬ハッキング]]・[[RLHF誤誘導]]・[[LLM自己検証]]・[[スコファンシ]]の安全性（[[joisino-人間を騙すAI-2025]]、[[Anthropic]]） - [[LLMランキング]]・[[pairwiseランキング]]・[[LLM比較器]]・[[LLM向け情報検索]]（[[joisino-LLMでソート-2026]]） - [[面白さ優先分類]]・[[一対比較ランキング]] による特徴量選択（[[joisino-面白さ優先分類器-2025]]） ### AI 生成データと社会的影響 - [[モデル崩壊]]・反復訓練による分布収縮・π²/6 の数理的上界・AI 多様性縮小の人間思考への波及（[[joisino-モデル崩壊と多様性-2026]]）