Boris Yangel - yuuk1's Digital Garden

# Boris Yangel Navigation: [[entities/_index]] | [[sources/_index]] 論文投稿時点では Humanoid 所属。マルチターン SWE エージェントの強化学習訓練に関する論文（arXiv:2508.03501, 2025）の最終著者（研究は [[Nebius AI]] 在籍時に実施）。同論文では [[Alexander Golubev]] らとともに、棄却ファインチューニング（RFT）と DAPO を組み合わせた 2 段階パイプラインで Qwen2.5-72B-Instruct を SWE-bench Verified Pass@1 39% に到達させた。SWE-rebench データセットの構築（arXiv:2505.20411）やガイド付き探索手法（arXiv:2505.13652）にも共著者として参加している。 ## 主な業績 - [[@2025__arXiv__Training Long-Context Multi-Turn SWE Agents with Reinforcement Learning]]（最終著者） - SWE-rebench（arXiv:2505.20411、共著） - Guided Search Strategies（arXiv:2505.13652、共著） ## 出典 - (Source: [[@2025__arXiv__Training Long-Context Multi-Turn SWE Agents with Reinforcement Learning]])