NVIDIA - yuuk1's Digital Garden

# NVIDIA GPU・AI アクセラレータ・AI インフラの最大手企業。H100/H200 等の GPU、[[NCCL]] 等の集団通信ライブラリ、[[Megatron-LM]] 等の訓練フレームワーク、[[TensorRT-LLM]]/[[NVIDIA NIM]] 等の推論スタック、[[NIXL]] 等のデータ転送ライブラリ、[[BlueField-3]] 等の SmartNIC/DPU を開発し、LLM の訓練から推論までのフルスタックを支える。[[GenAI-Perf]] で推論ベンチマーク標準化にも取り組む。 Scaling Up RL 論文では、1.5B パラメータモデルに対する長期 RL 訓練の体系的調査を行い、[[Nemotron-Research-Reasoning-Qwen-1.5B]] を公開した。 [[Nemotron 3]] ホワイトペーパーでは、ハイブリッド Mamba–Transformer MoE アーキテクチャと [[LatentMoE]]・NVFP4 事前学習・マルチ環境同時 RL を組み合わせた Nano/Super/Ultra の 3 モデルファミリーを発表した。ポストトレーニングソフトウェアスタック [[NeMo-RL]]・NeMo-Gym を Apache 2.0 で公開する。 From Detection to Recovery 論文では、NVIDIA Korea が SKT、Upstage、[[Lablup Inc]]、[[VAST Data]] と統一監視パイプラインを共有する 5 者の一つとして登場する。対象クラスタは 63 ノードの NVIDIA DGX B200、合計 504 GPU で、XID 79/94/119/145/149 などの GPU ドライバエラーを障害検知・復旧判断の一次情報として使う。 [[@2026__ICLR2026__TimeOmni-1 - Incentivizing Complex Reasoning with Time Series in Large Language Models]](ICLR 2026)に NVIDIA Academic Grant として資金提供し、共著者 [[Chao-Han Huck Yang]] が所属する。時系列推論モデルの後訓練(GRPO)研究を支援する位置にある。 [[Oak Ridge National Laboratory]] との共同研究([[@2022__NSDI__Accelerating Collective Communication in Data Parallel Training across Deep Learning Frameworks]]、NSDI 2022)では、[[Joshua Romero]] と Sean Treichler が [[Horovod]] の集団通信改善(応答キャッシュ・グルーピング)を主導し、27,600 GPU([[Summit]] 全体)でスケーリング効率 0.93 と 1.54 エクサフロップス(FP16 持続)を実証した。 CUDA ランタイム(`libcudart.so`)は、eBPF uprobe を使った非侵襲な CUDA API トレースの対象としても扱われる。GPU 利用の入口をソース改変なしで可視化する一例として、[[@2026__eunomia.dev__CUDA Events - eBPF-based CUDA API Tracing]] が挙げられる。(Source: [[@2026__eunomia.dev__CUDA Events - eBPF-based CUDA API Tracing]]) [[Triton Inference Server]]は[[Netflix]]のMSS(Model Scoring Service)でGPU推論の共有バックエンドとして本番運用されており、モデルパッケージング方式(Pythonバックエンド vs vLLMバックエンド)の選択やバージョン整合が本番運用上の主要な論点になっている。(Source: [[@2026__Netflix TechBlog__In-House LLM Serving at Netflix]]) [[MLCommons Chakra]]の共同開発企業の一つ。分散AI/MLワークロードの標準実行トレース形式の策定に主要著者(責任著者 [[Srinivas Sridharan]] を含む10名)を送り込んでおり、PyTorchとNVIDIA NeMoにChakra ETの収集機能を正式統合している。(Source: [[@2026__MLSys2026__MLCommons Chakra - Advancing Performance Benchmarking and Co-design using Standardized Execution Traces]])