演題: AIスーパーコンピュータにおけるLLM学習処理性能の計測と可観測性 講師: 坪内 佑樹 氏(さくらインターネット株式会社 さくらインターネット研究所 上級研究員) 講演概要: LLMに代表される大規模なAI基盤モデルの学習には、数百から数万基の高性能GPU、高帯域・低遅延のネットワークや分散ストレージを統合した高性能計算基盤(AIスパコン)が不可欠である。AIスパコンでは、ハードウェアの故障・劣化やソフトウェア設定の不備により、学習ジョブの停止や性能劣化、非効率な実行が引き起こされるが、数多くの異種デバイスが協調して動作することから、原因やボトルネックの特定はときに困難である。そのため、システム内部の観測性向上やテレメトリーデータを機械学習で分析する手法が近年研究されている。本講演では、AIモデル学習のワークロード、AIスパコンの計算機アーキテクチャ、信頼性の基本概念と最新の研究動向を解説する。さらに、さくらインターネットが提供するAIスパコンサービス「さくらONE」を事例に、MLPerfベンチマークによる性能計測と可観測性向上の取り組みを紹介する。 (日本語で200〜300文字程度、必要に応じて400文字以内迄) ## タイトル候補 GPUを用いた深層学習向けの信頼性と可観測性 GPUを用いたAIスーパーコンピュータの信頼性と可観測性 AIスパコンの信頼性と可観測