I am a research scientist in Network Research at Alibaba Cloud, and lead the design and implementation of innovations in predictable network (可预期网络). I am now leading the development of the network monitoring and diagnosis system for AI training/inference clusters. My research focuses on building high-performance network solutions for computing and storage systems.

I received my Ph.D. degree from Tsinghua University in 2020, under the guidance of Professor Fengyuan Ren.

Selected Publications

Aegaeon: Effective GPU Pooling for Concurrent LLM Serving on the Market
Yuxing Xiang, Xue Li, Kun Qian, Yufan Yang, Diwen Zhu, Wenyuan Yu, Ennan Zhai, Xuanzhe Liu, Xin Jin, Jingren Zhou.
In Proceedings of the ACM SIGOPS Symposium on Operating Systems Principles 2025 Conference (SOSP’25).

SkeletonHunter: Diagnosing and Localizing Network Failures in Containerized Large Model Training
Wei Liu, Kun Qian, Zhenhua Li, Tianyin Xu, Yunhao Liu, Weicheng Wang, Yun Zhang, Jiakang Li, Shuhong Zhu, Xue Li, Hongfei Xu, Fei Feng, Ennan Zhai.
In Proceedings of the ACM SIGCOMM 2025 Conference (SIGCOMM ‘25).

SyCCL: Exploiting Symmetry for Efficient Collective Communication Scheduling
Jiamin Cao, Shangfeng Shi, Jiaqi Gao, Weisen Liu, Yifan Yang, Yichi Xu, Zhilong Zheng, Yu Guan, Kun Qian, Ying Liu, Mingwei Xu, Tianshu Wang, Ning Wang, Jianbo Dong, Binzhang Fu, Dennis Cai, Ennan Zhai.
In Proceedings of the ACM SIGCOMM 2025 Conference (SIGCOMM ‘25).

Mitigating Scalability Walls of RDMA-based Container Networks [pdf]
Wei Liu, Kun Qian, Zhenhua Li, Feng Qian, Tianyin Xu, Yunhao Liu, Yu Guan, Shuhong Zhu, Hongfei Xu, Lanlan Xi, Chao Qin, and Ennan Zhai.
USENIX Symposium on Networked Systems Design and Implementation (NSDI ‘25).

Evolution of Aegis: Fault Diagnosis for AI Model Training Service in Production [pdf]
Jianbo Dong, Kun Qian (Co-first author), Pengcheng Zhang, Zhilong Zheng, Liang Chen, Fei Feng, Yichi Xu, Yikai Zhu, Gang Lu, Xue Li, Zhihui Ren, Zhicheng Wang, Bin Luo, Peng Zhang, Yang Liu, Yanqing Chen, Yu Guan, Weicheng Wang, Chaojie Yang, Yang Zhang, Man Yuan, Hanyu Zhao, Yong Li, Zihan Zhao, Shan Li, Xianlong Zeng, Zhiping Yao, Binzhang Fu, Ennan Zhai, Wei Lin, Chao Wang, and Dennis Cai.
USENIX Symposium on Networked Systems Design and Implementation (NSDI ‘25).

SimAI: Unifying Architecture Design and Performance Tunning for Large-Scale Large Language Model Training with Scalability and Precision [pdf]
Xizheng Wang, Qingxu Li, Yichi Xu, Gang Lu, Dan Li, Li Chen, Heyang Zhou, Linkang Zheng, Sen Zhang, Yikai Zhu, Yang Liu, Pengcheng Zhang, Kun Qian, Kunling He, Jiaqi Gao, Ennan Zhai, Dennis Cai, Binzhang Fu.
USENIX Symposium on Networked Systems Design and Implementation (NSDI ‘25).

Near-Lossless Gradient Compression for Data-Parallel Distributed DNN Training. [pdf]
Xue Li, Cheng Guo, Kun Qian, Menghao Zhang, Mengyu Yang, Mingwei Xu.
ACM Symposium on Cloud Computing (SoCC ‘24).

Demystifying Datapath Accelerator Enhanced Off-path SmartNIC. [pdf]
Xuzheng Chen, Jie Zhang, Ting Fu, Yifan Shen, Shu Ma, Kun Qian, Lingjun Zhu, Chao Shi, Yin Zhang, Ming Liu, Zeke Wang.
IEEE International Conference on Network Protocols (ICNP ‘24).

Alibaba HPN: A Data Center Network for Large Language Model Training. [pdf]
Kun Qian, Yongqing Xi, Jiamin Cao, Jiaqi Gao, Yichi Xu, Yu Guan, Binzhang Fu, Xuemei Shi Fangbo Zhu, Rui Miao, Chao Wang, Peng Wang, Pengcheng Zhang, Xianlong Zeng Eddie Ruan, Zhiping Yao, Ennan Zhai, Dennis Cai.
In Proceedings of the ACM SIGCOMM 2024 Conference (SIGCOMM ‘24).

Crux: GPU-Efficient Communication Scheduling for Deep Learning Training. [pdf]
Jiamin Cao, Yu Guan, Kun Qian, Jiaqi Gao, Wencong Xiao, Jianbo Dong, Binzhang Fu, Dennis Cai, Ennan Zhai.
In Proceedings of the ACM SIGCOMM 2024 Conference (SIGCOMM ‘24).

Burstable Cloud Block Storage with Data Processing Units. [pdf]
Junyi Shu, Kun Qian, Ennan Zhai, Xuanzhe Liu, Xin Jin.
18th USENIX Symposium on Operating Systems Design and Implementation (OSDI ‘24).

XRON: A Hybrid Elastic Cloud Overlay Network for Video Conferencing at Planetary Scale. paper
Bingyang Wu, Kun Qian, Bo Li, Yunfei Ma, Qi Zhang, Zhigang Jiang, Jiayu Zhao, Dennis Cai, and Ennan Zhai, Xuanzhe Liu and Xin Jin.
In Proceedings of the ACM SIGCOMM 2023 Conference (SIGCOMM ‘23).

Predictable vFabric on informative data plane. paper
Shuai Wang, Kaihui Gao, Kun Qian, Dan Li, Rui Miao, Bo Li, Yu Zhou, Ennan Zhai, Chen Sun, Jiaqi Gao, Dai Zhang, Binzhang Fu, Frank Kelly, Dennis Cai, Hongqiang Harry Liu, and Ming Zhang.
In Proceedings of the ACM SIGCOMM 2022 Conference (SIGCOMM ‘22).

From luna to solar: the evolutions of the compute-to-storage networks in Alibaba cloud. paper
Rui Miao, Lingjun Zhu, Shu Ma, Kun Qian, Shujun Zhuang, Bo Li, Shuguang Cheng, Jiaqi Gao, Yan Zhuang, Pengcheng Zhang, Rong Liu, Chao Shi, Binzhang Fu, Jiaji Zhu, Jiesheng Wu, Dennis Cai, and Hongqiang Harry Liu.
In Proceedings of the ACM SIGCOMM 2022 Conference (SIGCOMM ‘22).

Re-architecting Congestion Management in Lossless Ethernet. paper
Wenxue Cheng, Kun Qian, Wanchun Jiang, Tong Zhang and Fengyuan Ren.
17th USENIX Symposium on Networked Systems Design and Implementation (NSDI ‘20).

Gentle flow control: avoiding deadlock in lossless networks. paper
Kun Qian, Wenxue Cheng, Tong Zhang, and Fengyuan Ren.
In Proceedings of the ACM Special Interest Group on Data Communication (SIGCOMM ‘19).

FlexGate: High-performance Heterogeneous Gateway in Data Centers. paper
Kun Qian, Sai Ma, Mao Miao, Jianyuan Lu, Tong Zhang, Peilong Wang, Chenghao Sun, and Fengyuan Ren.
In Proceedings of the 3rd Asia-Pacific Workshop on Networking 2019 (APNet ‘19).

Awakening Power of Physical Layer: High Precision Time Synchronization for Industrial Ethernet. paper
Kun Qian, Tong Zhang and Fengyuan Ren.
In 2017 IEEE Real-Time Systems Symposium (RTSS ‘17).

XpressEth: Concise and efficient converged real-time Ethernet. paper
Kun Qian, Fengyuan Ren, Danfeng Shan, Wenxue Cheng and Bo Wang.
2017 IEEE/ACM 25th International Symposium on Quality of Service (IWQoS ‘17).