## Memo ## Memo with LLM ## Abstract 大規模言語モデル([[LLM]])がAIを支配する一方で、小規模大規模言語モデル([[SLM]])が消費者のコストと効率性の要求から注目を集めている。 しかし、SLMの学習動作や計算要件に関する研究は限られている。 本研究では、[[GPU]]の種類、バッチサイズ、モデルサイズ、通信プロトコル、アテンションタイプ、GPUの数など、様々なハイパーパラメータと構成の影響を調べることで、SLM(最大2Bパラメータ)を訓練する際の計算ボトルネックを探る。 我々は、1ドルあたりの損失や1秒あたりのトークンなどのメトリクスを使用して、一般的なクラウドサービス上でこれらの要因を評価します。 この結果は、リソースの少ないAI研究機関における言語モデルトレーニングの広範な採用と最適化を支援することを目的としています。