Nebius AI - yuuk1's Digital Garden

# Nebius AI Navigation: [[entities/_index]] | [[sources/_index]] マルチターン SWE エージェントの強化学習訓練に関する論文（arXiv:2508.03501, 2025）の主所属組織。12 名の著者のうち 11 名が Nebius AI に所属する。同論文では、Qwen2.5-72B-Instruct に対し棄却ファインチューニング（RFT）と DAPO ベースの RL を適用し、教師蒸留なしで SWE-bench Verified Pass@1 を 11% から 39% に向上させた。訓練・推論インフラとして 16 ノード × 8 H200 GPU クラスタを運用し、JAX ベースの内部訓練フレームワークと vLLM による推論を組み合わせた同期 RL パイプラインを実装している。また、SWE-rebench データセットの構築（arXiv:2505.20411）や非直列環境でのガイド付き探索手法（arXiv:2505.13652）など、SWE エージェント関連の研究を集中的に発表している。 ## 主な関連論文 - [[@2025__arXiv__Training Long-Context Multi-Turn SWE Agents with Reinforcement Learning]]（主所属） - SWE-rebench（arXiv:2505.20411） - Guided Search Strategies（arXiv:2505.13652） ## 出典 - (Source: [[@2025__arXiv__Training Long-Context Multi-Turn SWE Agents with Reinforcement Learning]])