SOSP2025 pickup papers 1 - yuuk1's Digital Garden

[SOSP 2025: The 31st Symposium on Operating Systems Principles](https://sigops.org/s/conferences/sosp/2025/accepted.html)o - **Device-Assisted Live Migration of RDMA Devices** , - _Artem Y. Polyakov, Gal Shalom, Asaf Schwartz, Aviad Yehezkel, Omri Ben David, Omri Kahalon, Ariel Shahar, Liran Liss (NVIDIA Corporation)_ - **Mercury: Unlocking Multi-GPU Operator Optimization for LLMs via Remote Memory Scheduling**, - _Yue Guan, Xinwei Qiang, Zaifeng Pan (UCSD), Daniels Johnson, Yuanwei Fang (Meta), Keren Zhou (George Mason University, OpenAI), Yuke Wang (Rice University), Wanlu Li (UCSD), Yufei Ding (UCSD, Meta), Adnan Aziz (Meta)_ - **PhoenixOS: Concurrent OS-level GPU Checkpoint and Restore with Validated Speculation**, - _Xingda Wei (Institute of Parallel and Distributed Systems, Shanghai Jiao Tong University), Zhuobin Huang (National University of Singapore), Tianle Sun, Yingyi Hao, Rong Chen, Mingcong Han, Jinyu Gu, Haibo Chen (Institute of Parallel and Distributed Systems, Shanghai Jiao Tong University)_ - **Pie: A Programmable Serving System for Emerging LLM Applications**, - _In Gim, Zhiyao Ma, Seung-seob Lee, Lin Zhong (Yale University)_ - **Aegaeon: Effective GPU Pooling for Concurrent LLM Serving on the Market**, - _Yuxing Xiang (Peking University), Xue Li, Kun Qian, Yufan Yang, Diwen Zhu, Wenyuan Yu, Ennan Zhai (Alibaba Group), Xuanzhe Liu, Xin Jin (Peking University), Jingren Zhou (Alibaba Group)_ - **LithOS: An Operating System for Efficient Machine Learning on GPUs**, - _Patrick H. Coppock, Brian Zhang, Eliot H. Solomon, Vasileios Kypriotis (Carnegie Mellon University), Leon Yang, Bikash Sharma, Dan Schatzberg (Meta), Todd C. Mowry, Dimitrios Skarlatos (Carnegie Mellon University)_ - **cache_ext: Customizing the Page Cache with eBPF** [[2025__SOSP__cache_ext - Customizing the Page Cache with eBPF]] - **Mantle: Efficient Hierarchical Metadata Management for Cloud Object Storage Services**, - _Jiahao Li (University of Science and Technology of China, Baidu (China) Co., Ltd), Biao Cao, Jielong Jian (Baidu (China) Co., Ltd), Cheng Li (The University of Science and Technology of China, Institute of Artificial Intelligence, Hefei Comprehensive National Science Center), Sen Han, Yiduo Wang, Yufei Wu (University of Science and Technology of China), Kang Chen (Tsinghua University), Zhihui Yin, Qiushi Chen, Jiwei Xiong, Jie Zhao, Fengyuan Liu, Yan Xing, Liguo Duan, Miao Yu, Ran Zheng (Baidu (China) Co., Ltd), Feng Wu (University of Science and Technology of China, Institute of Artificial Intelligence, Hefei Comprehensive National Science Center), Xianjun Meng (Baidu (China) Co., Ltd)_ - - **IC-Cache: Efficient Large Language Model Serving via In-context Caching** _Yifan Yu (University of Illinois Urbana-Champaign), Yu Gan, Nikhil Sarda, Lillian Tsai, Jiaming Shen, Yanqi Zhou (Google), Arvind Krishnamurthy (Google/Univ. of Washington), Fan Lai (University of Illinois Urbana-Champaign), Hank Levy (Google/Univ. of Washington), David Culler (Google)_ - **PrefillOnly: An Inference Engine for Prefill-only Workloads in Large Language Model Applications**, - _Kuntai Du (University of Chicago / TensorMesh, Inc.), Bowen Wang, Chen Zhang (Tsinghua University / UC Berkeley), Yiming Cheng (University of Chicago), Qing Lan, Hejian Sang (LinkedIn), Yihua Cheng, Jiayi Yao (University of Chicago / TensorMesh, Inc.), Xiaoxuan Liu, Yifan Qiao, Ion Stoica (UC Berkeley), Junchen Jiang (University of Chicago / TensorMesh, Inc.)_ - [[2025__SOSP__Robust LLM Training Infrastructure at ByteDance]] - **Sailor: Automating Distributed Training over Dynamic, Heterogeneous, and Geo-distributed Clusters**, - _Foteini Strati, Zhendong Zhang, George Manos (ETH Zurich), Ixeia Sánchez Périz (unaffiliated), Qinghao Hu (MIT), Tiancheng Chen (ETH Zurich), Berk Buzcu (HES-SO), Song Han (MIT), Pamela Delgado (HES-SO), Ana Klimovic (ETH Zurich)_ - **KTransformers: Unleashing the Full Potential of CPU/GPU Hybrid Inference for MoE Models**, - _Hongtao Chen, Weiyu Xie, Boxin Zhang (Tsinghua University), Jingqi Tang (Approaching.AI), Jiahao Wang (Approaching.Al, Hangzhou Dianzi University), Jianwei Dong, Shaoyuan Chen (Tsinghua University), Ziwei Yuan (Approaching.AI, University of Electronic Science and Technology of China), Chen Lin, Chengyu Qiu, Yuening Zhu (Tsinghua University), Qingliang Ou (Approaching.AI, Beijing University of Posts and Telecommunications), Jiaqi Liao (Approaching.AI, Beijing Institute of Technology), Xianglin Chen, Zhiyuan Ai (Approaching.AI), Yongwei Wu, Mingxing Zhang (Tsinghua University)_ - [[2025__SOSP__Mycroft - Tracing Dependencies in Collective Communication Towards Reliable LLM Training]], - _Yangtao Deng (The Chinese University of Hong Kong), Lei Zhang (ByteDance), Qinlong Wang, Xiaoyun Zhi (ByteDance Seed), Xinlei Zhang, Zhuo Jiang, Haohan Xu, Lei Wang (ByteDance), Zuquan Song, Gaohong Liu (ByteDance Seed), Yang Bai (ByteDance), Shuguang Wang, Wencong Xiao (ByteDance Seed), Jianxi Ye (ByteDance), Minlan Yu (Harvard University), Hong Xu (The Chinese University of Hong Kong)_ - **DCP: Addressing Input Dynamism In Long-Context Training via Dynamic Context Parallelism**, - _Chenyu Jiang (The University of Hong Kong), Zhenkun Cai (Amazon Web Services, Inc.), Ye Tian (The University of Hong Kong), Zhen Jia, Yida Wang (Amazon Web Services, Inc.), Chuan Wu (The University of Hong Kong)_ - **TrainVerify: Equivalence-Based Verification for Distributed LLM Training**, - _Yunchi Lu (University of Michigan), Youshan Miao (Microsoft Research), Cheng Tan (Northeastern University), Peng Huang (University of Michigan), Yi Zhu, Xian Zhang, Fan Yang (Microsoft Research)_ - **Managing Scalable Direct Storage Accesses for GPUs with GoFS**, _Shaobo Li, Yirui Eric Zhou, Yuqi Xue, Yuan Xu, Jian Huang (University of Illinois Urbana-Champaign)_ - Optimistic Recovery for High-Availability Software via Partial Process State Preservation, - _Yuzhuo Jing, Yuqi Mai, Angting Cai, Yi Chen, Wanning He, Xiaoyang Qian, Peter M. Chen, Peng Huang (University of Michigan)_