## Memo ## Memo with LLM ## Abstract 大規模言語モデル(Large Language Models: [[LLM]])は、様々な自然言語処理タスクにおいて目覚ましい性能を発揮している。 しかし、これらのモデルの学習は計算量が多く、特に変換器ベースのLLMの重要な構成要素である注意メカニズムに欠陥が生じやすい。 本論文では、LLM学習における欠陥の影響について、系統的な欠陥注入実験により、計算結果のINF、NaN、ニアINF値に着目して調査する。 これらのエラーの伝搬パターンを観察することで、モデル内の学習不可能な状態を引き起こし、学習を中断させ、チェックポイントからのロードを余儀なくさせる可能性がある。 このようなエラーの影響を軽減するために、我々は、LLMのアテンションメカニズムに合わせた初のアルゴリズムベースフォールトトレランス(ABFT)技術であるATTNCheckerを提案する。 ATTNCheckerは、LLMの故障伝播パターンに基づいて設計されており、システムの信頼性とモデルの脆弱性の両方に適応するための性能最適化が組み込まれている。 4つのLLMで評価した結果、ATTNCheckerは全ての極端なエラーを検出・修正しながら、平均して7%のオーバヘッドをトレーニングに費やしている。 最先端のチェックポイント/リストアアプローチと比較すると、ATTNCheckerはリカバリーのオーバヘッドを最大49倍削減する。