Jordan Hoffmann - yuuk1's Digital Garden

# Jordan Hoffmann ## 概要 Jordan Hoffmann は [[DeepMind]] の研究者であり、Chinchilla（計算最適大規模言語モデル）に関する論文「Training Compute-Optimal Large Language Models」の共同筆頭著者（★印）の一人である。Sebastian Borgeaud・Arthur Mensch・Laurent Sifre と同等の貢献者として記載されている。(Source: [[@2022__arXiv__Training Compute-Optimal Large Language Models]]) ## 主な貢献 - Sebastian Borgeaud・Arthur Mensch・Laurent Sifre と共同で、固定計算予算における最適モデルサイズ・訓練トークン数の配分を実証した（[[計算最適訓練]]の確立）。(Source: [[@2022__arXiv__Training Compute-Optimal Large Language Models]]) - [[Jared Kaplan|Kaplan et al. (2020)]] が提唱したモデル偏重スケーリング則（$N_{\text{opt}} \propto C^{0.73}$）を実験的に否定し、均等スケーリング（$N_{\text{opt}} \propto C^{0.49}$）を提唱した。(Source: [[@2022__arXiv__Training Compute-Optimal Large Language Models]]) - 400 超の言語モデルを訓練する大規模実験を主導し、3 種類の独立した方法論でスケーリング則を導出した。(Source: [[@2022__arXiv__Training Compute-Optimal Large Language Models]]) ## 関連 - エンティティ: [[DeepMind]] / [[Sebastian Borgeaud]] / [[Arthur Mensch]] - 概念: [[スケーリング則]] / [[LLMスケーリング則]] / [[計算最適訓練]] - ソース: [[@2022__arXiv__Training Compute-Optimal Large Language Models]] ## 出典 - [[@2022__arXiv__Training Compute-Optimal Large Language Models]]（著者リスト ★印、§3 3 つのアプローチ、§4 Chinchilla）