# Nebius AI
Navigation: [[entities/_index]] | [[sources/_index]]
マルチターン SWE エージェントの強化学習訓練に関する論文(arXiv:2508.03501, 2025)の主所属組織。12 名の著者のうち 11 名が Nebius AI に所属する。
同論文では、Qwen2.5-72B-Instruct に対し棄却ファインチューニング(RFT)と DAPO ベースの RL を適用し、教師蒸留なしで SWE-bench Verified Pass@1 を 11% から 39% に向上させた。訓練・推論インフラとして 16 ノード × 8 H200 GPU クラスタを運用し、JAX ベースの内部訓練フレームワークと vLLM による推論を組み合わせた同期 RL パイプラインを実装している。
また、SWE-rebench データセットの構築(arXiv:2505.20411)や非直列環境でのガイド付き探索手法(arXiv:2505.13652)など、SWE エージェント関連の研究を集中的に発表している。
## 主な関連論文
- [[@2025__arXiv__Training Long-Context Multi-Turn SWE Agents with Reinforcement Learning]](主所属)
- SWE-rebench(arXiv:2505.20411)
- Guided Search Strategies(arXiv:2505.13652)
## 出典
- (Source: [[@2025__arXiv__Training Long-Context Multi-Turn SWE Agents with Reinforcement Learning]])