演題:
AIスーパーコンピュータにおけるLLM学習処理性能の計測と可観測性
講師:
坪内 佑樹 氏(さくらインターネット株式会社 さくらインターネット研究所 上級研究員)
講演概要:
LLMに代表される大規模なAI基盤モデルの学習には、数百から数万基の高性能GPU、高帯域・低遅延のネットワークや分散ストレージを統合した高性能計算基盤(AIスパコン)が不可欠である。AIスパコンでは、ハードウェアの故障・劣化やソフトウェア設定の不備により、学習ジョブの停止や性能劣化、非効率な実行が引き起こされるが、数多くの異種デバイスが協調して動作することから、原因やボトルネックの特定はときに困難である。そのため、システム内部の観測性向上やテレメトリーデータを機械学習で分析する手法が近年研究されている。本講演では、AIモデル学習のワークロード、AIスパコンの計算機アーキテクチャ、信頼性の基本概念と最新の研究動向を解説する。さらに、さくらインターネットが提供するAIスパコンサービス「さくらONE」を事例に、MLPerfベンチマークによる性能計測と可観測性向上の取り組みを紹介する。
(日本語で200〜300文字程度、必要に応じて400文字以内迄)
## タイトル候補
GPUを用いた深層学習向けの信頼性と可観測性
GPUを用いたAIスーパーコンピュータの信頼性と可観測性
AIスパコンの信頼性と可観測