MLSys 2026 论文深度分析报告

研究报告

MLSys 2026 论文深度分析

对会议全部 135 篇录用论文进行系统分类、核心贡献提炼与未来技术趋势预测，覆盖 LLM 推理服务、训练系统、AI Agent、量化压缩、编译器等核心赛道。

135录用论文

10研究方向

48%推理/服务相关

8核心趋势预测

论文分布全景

🚀 LLM 推理 & 服务

~65

占比 ~48%，绝对主导地位

⚡ 模型训练系统

~25

分布式训练、通信优化

🤖 AI Agent 系统

~14

Agentic AI 新兴赛道

🔧 量化 & 压缩

~12

KV Cache、权重量化

🛠 编译器 & 调度

自动调优、IR编译

🔒 联邦学习 & 隐私

隐私计算、联邦微调

💻 硬件 & 芯片协同

ASIC、NoC 设计

重点论文解析（精选 30 篇）

🚀 LLM 推理 & 服务

推理服务

FlashAttention-4: Algorithm and Kernel Pipelining Co-Design for Asymmetric Hardware Scaling

FA 系列第四代，针对最新 GPU 异构计算单元（TMA/WGMMA/Tensor Core 不对称性）进行算法级与 Kernel 级流水线协同设计，推动 Attention 效率进一步突破。

Ted Zadouri, Markus Hoehnerbach, Jay Shah et al.

推理服务

MorphServe: Efficient and Workload-Aware LLM Serving via Runtime Quantized Layer Swapping and KV Cache Resizing

运行时动态调整量化层精度与 KV Cache 大小，在负载感知的基础上实现延迟与吞吐量的联合优化，开创"弹性精度服务"新范式。

Zhaoyuan Su, Zeyu Zhang, Tingfeng Lan et al.

推理服务

Speculative Decoding: Performance or Illusion?

对投机解码的实际收益进行系统性评估，区分真实加速与虚假增益，指出在 RL 训练场景中推测解码可能带来负效益，引发方法论反思。

Lily Liu, Jiaxiang Yu, Jongseok Park, Ion Stoica et al.

推理服务

HELIOS: Adaptive Model And Early-Exit Selection for Efficient LLM Inference

结合模型选择与早退机制，自适应地为不同请求分配不同深度的计算路径，在 SLO 约束下最大化推理效率。

Avinash Kumar, Shashank Nag, Jason Clemons et al.

推理服务

BatchLLM: Optimizing Large Batched LLM Inference with Global Prefix Sharing and Throughput-oriented Token Batching

针对大批量推理场景的全局 Prefix 共享策略，与面向吞吐的 Token 批调度算法，显著降低大规模 Batch 场景的显存占用与延迟。

Zhen Zheng, Xin Ji, Taosong Fang et al.

推理服务

Breaking the Ice: Analyzing Cold Start Latency in vLLM

首次系统分析 vLLM 冷启动延迟成因，涵盖模型加载、CUDA 上下文初始化、KV Cache 预分配等各阶段，并提出针对性优化策略。

Huzaifa Shaaban Kabakibo, Animesh Trivedi, Lin Wang

推理服务

Beyond the Buzz: A Pragmatic Take on Inference Disaggregation

理性评估 Prefill/Decode 分离部署的真实收益与代价，结合工程实践给出选择分离架构的量化决策框架，避免盲目跟风。

Tiyasa Mitra, Ritika Borkar, Nidhi Bhatia et al.

推理服务

SuperInfer: SLO-Aware Rotary Scheduling and Memory Management for LLM Inference on Superchips

针对超级芯片（如 Grace Hopper）的 LLM 推理调度优化，利用旋转调度算法与精细化内存管理满足严格 SLO 约束。

Jiahuan Yu, Mingtao Hu, Minjia Zhang et al.

推理服务

SHIP: SRAM-Based Huge Inference Pipelines for Fast LLM Serving

充分利用片上 SRAM 构建多级流水线推理架构，在廙�迟敏感场景下突破 HBM 带宽瓶颈。

（多位作者）

推理服务

Demystifying the Mixture of Experts Serving Tax

量化 MoE 推理相比 Dense 模型的额外开销来源（路由、通信、负载均衡），为 MoE 服务系统设计提供指导。

Pratyush Patel, Arvind Krishnamurthy

推理服务

TriInfer: Hybrid EPD Disaggregation for Efficient Multimodal Large Language Model Inference

为多模态 LLM 设计三阶段（Encode-Prefill-Decode）混合分离架构，实现视觉编码与语言推理的解耦调度。

Xianzhe Dong, Tongxuan Liu et al.

投机解码

SpecDiff-2: Scaling Diffusion Drafter Alignment for Faster Speculative Decoding

将扩散模型作为投机解码的 Draft 模型，并通过对齐训练提升接受率，为超长序列生成提供新路径。

Wenhao Zheng, Zhengzhong Liu et al.

⚡ 模型训练系统

训练系统

MoEBlaze: Breaking the Memory Wall for Efficient MoE Training on Modern GPUs

针对 MoE 训练的显存墙问题，设计内存感知的专家分片与激活重计算策略，支持在单节点 GPU 集群上训练千亿级 MoE 模型。

Jiyuan Zhang, Yining Liu, Siqi Yan et al.

训练系统

AXLearn: Modular, Hardware-Agnostic Large Model Training

苹果开源的大模型训练框架，强调硬件无关性与模块化设计，支持 TPU/GPU 统一训练接口，已在生产环境验证。

Mark Lee, Tom Gunter, Chang Lan et al. (Apple)

训练系给�

DreamDDP: Accelerating Low-Bandwidth Geo-Distributed LLM Training with Layer-wise Partial Synchronization

为跨地域分布式训练设计逐层部分同步策略，大幅降低跨 WAN 通信量，实现弱网环境下的高效 LLM 训练。

Zhenheng Tang, Zichen Tang et al.

训练系统

MTraining: Distributed Dynamic Sparse Attention for Efficient Ultra-Long Context Training

通过动态稀疏注意力机制支持超长上下文（百万级 Token）的分布式训练，突破标准全注意力的内存与计算瓶颈。

Wenxuan Li, Chengruidong Zhang, Huiqiang Jiang et al.

训练系统

HetRL: Efficient Reinforcement Learning for LLMs in Heterogeneous Environments

面向 RLHF/RLVR 场景的异构 RL 训练系统，支持在不同规格 GPU 混合集群上高效运行 Actor/Critic，降低强化学习阶段的资源成本。

Yongjun He et al.

训练系统

FlexTrain: Scalable Hybrid-Parallel LLM Training with Elastic Resource Utilization and Consistent Accuracy

弹性混合并行训练框架，支持动态调整数据/张量/流水线并行度，在资源波动场景下保持训练精度稳定。

Weilin Cai, Diandian Gu et al.

🤖 AI Agent 系统

Agent 系统

The OpenHands Software Agent SDK: A Composable and Extensible Foundation for Production Agents

开源软件 Agent SDK，提供可组合、可扩展的生产级 Agent 基础设施，支持工具调用、沙箱执行、状态持久化等核心能力。

Xingyao Wang et al. (OpenHands Team)

Agent 系统

Hippocampus: An Efficient and Scalable Memory Module for Agentic AI

受海马体启发的 Agent 记忆模块，支持层次化长短期记忆管理，在多轮对话与长任务中显著提升 Agent 的上下文利用效率。

Yi Li, Lianjie Cao, Faraz Ahmed et al.

Agent 系统

ADS: An Agentic Detection System for Enterprise Agentic AI Security

企业级 Agentic AI 安全检测系统，识别 Prompt 注入、工具滥用、数据泄露等威胁，为 Agent 部署提供安全护栏。

Chenning Li, Pan Hu, Justin Xu et al.

Agent 系统

FlashAgents: Accelerating Multi-Agent LLM Systems via Streaming Prefill Overlap

通过流式 Prefill 重叠机制加速多 Agent 协作场景的 LLM 推理，减少 Agent 间通信等待，提升端到端响应速度。

Taosong Fang, Zhen Zheng et al.

Agent 系统

AgenticCache: Cache-Driven Asynchronous Planning for Embodied AI Agents

为具身 Agent 设计缓存驱动的异步规划框架，利用感知缓存避免重复推理，大幅提升机器人决策的实时性。

Hojoon Kim, Yuheng Wu, Thierry Tambe

Agent 系统

OSWorld-Human: Benchmarking the Efficiency of Computer-Use Agents

计算机操作 Agent 的效率评测基准，引入人类操作对照数据，从任务完成率、步骤效率、错误恢复等多维度量化 Agent 性能。

（多位作者）

🔧 量化 & 压缩

量化压缩

NVFP4 Search Your Scales!

NVIDIA FP4 格式下的量化缩放因子搜索算法，解决超低精度量化的精度保持难题，为下一代 GPU（Blackwell）的 FP4 推理铺路。

Tanmaey Gupta, Hayden Prairie, Xiaoxia Wu et al.

量化压缩

Kitty: Accurate and Efficient 2-bit KV Cache Quantization with Dynamic Channel-wise Precision Boost

KV Cache 极致压缩至 2-bit，引入动态通道精度提升机制保护重要通道，在极低 bit-width 下维持推理质量。

Haojun Xia, Xiaoxia Wu et al.

量化压缩

FP8-Flow-MoE: A Casting-Free FP8 Recipe without Double Quantization Error

专为 MoE 模型设计的无投射 FP8 量化方案，消除二次量化误差，在 FP8 训练与推理的精度-效率 trade-off 上取得新突破。

Fengjuan Wang, Zhiyi Su et al.

量化压缩

SkipKV: Selective Skipping of KV Generation and Storage for Efficient Inference with Large Reasoning Models

针对长链推理（Chain-of-Thought）模型，选择性跳过中间推理步骤的 KV 缓存生成，显著降低 KV Cache 内存占用。

Jiayi Tian, Seyedarmin Azizi et al.

🛠 编译器 & 调度优化

编译器

CATWILD: Compiler Autotuning for TPU Workloads in the Wild

谷歌针对 TPU 生产负载的编译器自动调优系统，利用 ML 反馈驱动调优，覆盖"野外"真实工作负载的多样性与复杂性。

Ignacio Cano, Yu Wang, Phitchaya Phothilimthana et al. (Google)

编译器

WAVE: A Symbolic Python DSL and Compiler for High Performance Machine Learning

符号化 Python DSL 及其配套编译器，支持将高层 ML 计算描述直接编译到高性能核函数，降低 Kernel 工程门槛。

Harsh Menon et al. (AMD)

编译器

Agentic Operator Generation for ML ASICs

利用 LLM Agent 自动生成 ML 专用 ASIC 的算子代码，打通从算法规格到硬件实现的自动化链路，加速 AI 芯片研发。

Aram Markosyan, Aman Dontula et al. (Meta)

编译器

SchedFlow: Unified Transparent and Flexible Intra-Device Parallelism via Programmable Operator Scheduling

可编程算子调度框架，统一设备内并行策略，支持在不修改算子代码的情况下灵活切换调度策略。

Yi Pan, Yile Gu et al.

全部论文分类总览

#	论文名称	方向	核心贡献摘要
1	FlashAttention-4	推理服务	FA4 算法与 Kernel 流水线协同设计，针对不对称硬件缩放
2	MorphServe	推理服务	运行时量化层切换 + KV Cache 动态调整，负载感知服务
3	PLA-Serve	推理服务	Prefill 长度感知的 LLM 服务系统，优化首 Token 延迟
4	SpecDiff-2	投机解码	Diffusion 模型作为 Draft，扩展投机解码到扩散范式
5	LLMInfer-Bench	基准测试	LLM 推理系统综合基准，多维度性能对比
6	Meeting SLOs, Slashing Hours	推理服务	企业级 LLM 优化，SLO 达标的同时大幅降低推理成本
7	OptiKIT	推理服务	AI 驱动企业 LLM 推理优化工具包
8	Hippocampus	Agent	高效可扩展的 Agentic AI 记忆模块
9	IntAttention	量化	全整数注意力流水线，面向边缘推理
10	Using Span Queries	基础设施	Span 查询优化 Cache 与 Attention 局部性
11	NEST: Network/Memory-Aware Device Placement	训练系给�	分布式深度学习的网络感知设备放置
12	FP8-Flow-MoE	量化	MoE 无投射 FP8 方案
13	FlexiCache	KV Cache	利用注意力头时序稳定性的 KV Cache 管理
14	Efficient Long-Context LM Training	训练系统	核忙�注意力分离架构支持超长上下文训练
15	Agentic Operator Generation for ML ASICs	编译器	Agent 自动生成 ASIC 算子
16	ADS: Agentic Detection System	安全	企业级 Agentic AI 安全检测系统
17	Accelerating Large-Scale Reasoning with Sparse Self-Speculative Decoding	投机解码	稀疏自投机解码加速大规模推理模型
18	ProToken	联邦学习	联邦大模型 Token 级归因
19	Beyond the Buzz: Inference Disaggregation	推理服务	推理分离的务实评估框架
20	Blueprint/Bootstrap/Bridge: NVIDIA GPU Confidential Computing	安全	NVIDIA GPU 机密计算安全综述
21	BEAM: Joint Resource-Power Optimization	推理服务	SLO 约束下的能效联合优化
22	Learning from Less (RLVR)	训练系统	低数据量 RLVR 有效性评估
23	SkipKV	量化	大推理模型的 KV 生成与存储选择性跳过
24	SchedFlow	编译器	可编程算子调度支持灵活设备内并行
25	LLM Model for Power/Performance/Area Prediction	硬件	从硬件代码预测 PPA 指标
26	BLASST: Dynamic Attention Sparsity via Softmax Thresholding	推理服务	动态块稀疏注意力，Softmax 阈值化实现
27	Spira: Voxel Sparse Convolution	特定场景	点云网络高效稀疏卷积
28	CAGE: Curvature-Aware Quantization-Aware Training	量化	曲率感知梯度估计提升 QAT 精度
29	ApproxMLIR: Accuracy-Aware Compiler	编译器	精度感知 ML 系统编译器
30	Privatar: Privacy-preserving Multi-user VR	安全/隐私	安全卸载的可扩展多用户 VR
31	Scaling Up LLM Serving for Semantic Job Search	推理服务	语义职位搜索的 LLM 服务系统扩展
32	NVFP4 Search Your Scales	量化	FP4 量化缩放因子搜索
33	Zero Redundancy Distributed Learning with Differential Privacy	隐私	零冗余差分隐私分布式训练
34	PRISM: Parametrically Restructured Inference for Speculative Sampling	投机解码	参数化重组推理加速投机采样
35	WAVE: Symbolic Python DSL and Compiler	编译器	AMD 高性能 ML 符号编译器
36	MoEBlaze	训练系统	打破 MoE 训练显存墙
37	FreeScale	训练系统	推荐模型序列低代价分布式训练
38	When Enough is Enough: Rank-Aware Early Termination for Vector Search	基础设施	向量搜索排名感知早退机制
39	Once-for-All Channel Mixers (HyperTinyPW)	压缩	TinyML 生成式压缩
40	FlashAttention-4	推理服务	（同上）
41	AIRS: Scaling Live Inference in Resource-Constrained Environments	基础设施	资源约束环境的实时推理扩展
42	CATWILD	编译器	谷歌 TPU 生产编译器自动调优
43	PROMPTS: Multi-Agent Planning for LLM Training and Serving	Agent	多 Agent 协同规划优化 LLM 训练与服务性能
44	ML Fleet Efficiency: Improving TPU Systems at Scale	基础设施	Google TPU 机群效率与 ML 生产力度量
45	XProf: Open, Scalable ML Profiling System	基础设施	现代 ML 栈的开源可扩展剖析系统
46	MTraining: Ultra-Long Context Training	训练系统	分布式动态稀疏注意力超长上下文训练
47	Stream2LLM: Streaming Context Prefill	推理服务	流式上下文传输与 Prefill 重叠减少 TTFT
48	REPARO: Loss-Resilient Generative Video Codec	视频	甙�成式视频会议编解码器
49	ZK-APEX: Zero-Knowledge Approximate Personalized Unlearning	安全/隐私	零知识证明的近似个性化遗忘
50	Automated Algorithm Design for Auto-Tuning Optimizers	编译器	自动调优优化器的算法自动设计
51	Ontology-Guided Long-Term Memory for RAG	Agent	本体引导的 RAG 对话长期记忆
52	From Tokens to Layers: Stall-Free Scheduling with Layered Prefill	推理服务	分层 Prefill 无停顿 LLM 服务调度
53	AXLearn	训练系统	苹果模块化硬件无关大模型训练框架
54	ProfInfer: eBPF-based LLM Inference Profiler	基础设施	基于 eBPF 的细粒度 LLM 推理分析器
55	Event Tensor: Unified Abstraction for Dynamic Megakernel Compilation	编译器	动态大 Kernel 编译的统一事件张量抽象
56	HELIOS: Adaptive Early-Exit for LLM Inference	推理服务	自适应模型与早退联合选择
57	NodeSweep: Straggler Detection for Foundation Model Training	基础设施	大规模基础模型训练的慢节点检测与健康监控
58	AgenticCache	Agent	具身 Agent 缓存驱动异步规划
59	ProTrain: LLM Training via Automatic Memory Management	训练系统	自动内存管理的高效 LLM 训练
60	CDLM: Consistency Diffusion Language Models	推理	一致性扩散语言模型加速采样
61	Pylo: Learned Optimizers in PyTorch	训练系统	PyTorch 中可访问的学习式优化器
62	RDMA Point-to-Point Communication for LLM Systems	基础设施	LLM 系统 RDMA 点对点通信
63	TiDAR: Think in Diffusion, Talk in Autoregression	生成	扩散思考 + 自回归输出的混合生成范式
64	ParallelKittens: Simplification of Multi-GPU AI Kernels	编译器	多 GPU AI Kernel 系统化简化框架
65	PLayer-FL: Personalized Layer-wise Cross-Silo Federated Learning	联邦学习	原则化逐层个性化跨孤岛联邦学习
66	AccelOpt: Self-Improving LLM Agentic System for AI Accelerator Kernel Optimization	Agent	LLM Agent 自改进加速器 Kernel 优化
67	DisAgg: Distributed Aggregators for Secure Aggregation	联邦学习	高效安全聚合的分布式聚合器
68	RagInfer: Efficient RAG Inference with Lookahead Retrieval	RAG	超前检索的高效 RAG 推理
69	VeriMoA: Mixture-of-Agents for Spec-to-HDL Generation	Agent	多 Agent 框架辙�助 HDL 硬件代码生成
70	BOOST: Bottleneck-Optimized Scalable Training for LoRA LLMs	训练系统	低秩大模型的瓶颈优化可扩展训练
71	SONAR: Benchmarking Topology in Decentralized Learning	训练系统	去中心化学习的拓扑与协作基准
72	VM NUMA Placement at Scale	基础设施	大规模 NUMA 感知虚拟机放置学习
73	SHIP: SRAM-Based Inference Pipelines	推理服务	SRAM 流水线快速 LLM 服务
74	HipKittens: Fast AMD Kernels	编译器	AMD GPU 高性能 Kernel 框架
75	RaidServe: High-performance Resilient Serving	推理服务	高性能容灾 LLM 服务系统
76	Beat the Long Tail: Distribution-Aware Speculative Decoding for RL Training	投机解码	面向 RL 训练的分布感知投机解码
77	db-SP: Dual-Balanced Sequence Parallelism for Visual Generative Models	训练系统	视觉生成模型稀疏注意力加速
78	When ML Isn't Sure: Resilient ML-Based Computer Systems	基础设施	拥抱不确定性构建弹性 ML 计算机系统
79	Cost-aware Duration Prediction for Software Upgrades	基础设施	数据中心软件升级时长的代价感知预测
80	Shannonic: Efficient Entropy-Optimal Compression	压缩	ML 负载的熵最优高效压缩
81	FlexTrain	训练系统	弹性资源混合并行 LLM 训练
82	Toward Principled Safety Testing: Solving the Jailbreak Oracle Problem	安全	越狱攻击的 Oracle 问题原则化安全测试
83	Unleashing Scalable Context Parallelism (FCP)	训练系统	FCP 解锁基础模型预训练的上下文并行
84	CRAFT: Cost-aware Expert Replica Allocation	MoE	细粒度逐层 MoE 专家副本代价感知分配
85	G-HEMP: Fast Multi-GPU Private Inference for GCNs with HE	安全/隐私	同态加密下大规模 GCN 多 GPU 隐私推理
86	RAGBoost: Efficient RAG with Accuracy-Preserving Context Reuse	RAG	精度保持的 RAG 上下文复用加速
87	StreamDiffusionV2	生成	动态交互视频生成的流式系统
88	EarthSight: Distributed Low-Latency Satellite Intelligence	边缘	低延迟卫星边缘 AI 分布式框架
89	GhostServe: Lightweight Checkpointing for Fault-Tolerant LLM Serving	推理服务	影子检查点轻量级容错 LLM 服务
90	MixLLM: Mixed-precision LLM Quantization	量化	输出特征级全局混合精度量化
91	FLoRIST: SVD Thresholding for Federated Fine-Tuning	联邦学习	奇异值阈值化的高效准确联邦微调
92	DriftBench: Measuring and Predicting Infrastructure Drift	基础设施	LLM 服务系统基础设施漂移测量与预测
93	Grolar: Efficient LLM Training on Heterogeneous Clusters	训练系统	异构集群高效 LLM 训练
94	Flashlight: PyTorch Compiler Extensions for Attention Variants	编译器	PyTorch 编译器扩展加速注意力变体
95	DreamDDP	训练系统	低带宽跨地域 LLM 训练逐层部分同步
96	Locality-Aware Beam Scheduling for Test-Time Compute	推理服务	消费级 GPU 的局部感知 Beam 调度测试时计算
97	OPKV: High-Throughput Plugin-Driven Recallable Sparsity in Paged KV Cache	KV Cache	分页 KV Cache 可召回稀疏插件框架
98	SuperInfer	推理服务	超级芯片上的 SLO 感知轮转调度
99	Breaking the Ice: Cold Start in vLLM	推理服务	vLLM 冷启动延迟分析
100	BatchLLM	推理服务	全局 Prefix 共享 + 吞吐导向批处理
101	ExecuTorch: Unified PyTorch Mobile/On-Device ML	端侧	Meta 统一端侧 PyTorch ML 解决方案
102	Rethinking DVFS for Mobile LLMs	端侧	移动端 LLM 统一能效感知 DVFS 调度
103	TokenBlend: Accelerating TP LLM Inference via Compute-Communication Overlap	推理服务	张量并行 LLM 推理计算通信重叠
104	Matrix: Peer-to-Peer Multi-Agent Synthetic Data Generation	Agent	多 Agent 点对点合成数据生成框架
105	Parrot: Persuasion and Agreement Robustness Rating	安全	LLM 输出真实性的说服与一致性鲁棒性评级
106	Kitty: 2-bit KV Cache Quantization	量化	动态通道精度提升的 2-bit KV Cache
107	FlexScale: High-Performance FSDP at Scale	训练系统	灵活高性能大规模 FSDP
108	HetRL	训练系统	异构环境 LLM 强化学习
109	Massive-Scale Out-Of-Core UMAP on GPU	数据处理	超大规模 GPU 外存 UMAP 降维
110	HexiScale: LLM Training over Heterogeneous Hardware	训练系统	异构硬件大模型训练
111	BOute: Cost-Efficient LLM Serving with Heterogeneous LLMs/GPUs	推理服务	多目标贝叶斯优化异构 LLM/GPU 服务
112	MAC-Attention: Match-Amend-Complete Attention	推理服务	快速精准注意力的匹配-修正-补全机制
113	Sparing Strategies for Large Training Jobs	基础设施	最小化大训练任务可靠性影响的冗余策略
114	Speculative Decoding: Performance or Illusion?	投机解码	投机解码真实收益的系统评估
115	NexSpec: Speculative Decoding in RL Systems	投机解码	强化学习系统中的投机解码优化
116	Optimizing Deployment Configurations for LLM Inference	推理服务	Meta 大规模 LLM 推理部署配置优化
117	Demystifying MoE Serving Tax	MoE	MoE 服务额外开销量化分析
118	Flash3DGS: Algorithm and System Co-Optimization for 3DGS on GPUs	特定场景	GPU 3D 高斯泼溅算法系统协同优化
119	SAKURAONE: Open Ethernet-Based AI HPC System	硬件	以太网 AI HPC 系统及其负载动态分析
120	CSLE: RL Platform for Autonomous Security Management	安全	自主安全管理的强化学习平台
121	Dataflow Is All You Need	编译器	数据流为核心的 ML 系统编译框架
122	OSWorld-Human	Agent	计算机使用 Agent 效率基准
123	LEANN: Low-Storage Overhead Vector Index	存储	低存储开销向量索引
124	The OpenHands Software Agent SDK	Agent	生产级 Agent 可组合可扩展基础
125	FlashAgents	Agent	流式 Prefill 重叠加速多 Agent 系统
126	FaaScale: Fast LLM Scaling for Serverless Inference	推理服务	Serverless 推理的快速 LLM 扩展
127	Charon: Unified Simulator for Large-Scale LLM Training and Inference	基础设施	大规模 LLM 训推统一细粒度模拟器
128	Hawkeye: Reproducing GPU-Level Non-Determinism	基础设施	GPU 级不确定性复现与调试工具
129	FarSkip-Collectives: Unhobbling Blocking Communication in MoE	训练系统	解除 MoE 阻塞集合通信限制
130	MLCommons Chakra: Performance Benchmarking with Execution Traces	基准测试	基于标准执行 Trace 的 ML 性能基准与协同设计
131	TriInfer: Hybrid EPD Disaggregation for Multimodal LLMs	推理服务	多模态 LLM 三阶段混合分离推理
132	A Lightweight High-Throughput Collective-Capable NoC for Large-Scale ML Accelerators	硬件	大规模 ML 加速器高吞吐片上网络
133	GriNNder: Breaking Memory Capacity Wall in GNN Training with Storage Offloading	训练系统	存储卸载突破全图 GNN 讙�练显存墙
134	Efficient VRAM-Constrained xLM Inference on Clients	端侧	客户端 VRAM 约束下的跨语言模型推理
135	Attribution-based Sparse Activation in LLMs	推理服务	基于归因的 LLM 稀疏激活

八大核心技术趋势

⚡

趋势一：推理系统成为 MLSys 绝对核心

约 48% 的论文聚焦 LLM 推理与服务系统，覆盖 KV Cache 管理（FlexiCache、SkipKV、Kitty）、投机解码（SpecDiff-2、NexSpec、BLASST）、Prefill/Decode 分离（TriInfer、PLA-Serve）、调度优化（SuperInfer、SchedFlow）等多个子赛道。传统 CV/NLP 系统研究几乎消失，LLM 推理成为新时代的 OS 内核级挑战。

已成主流

🧩

趋势二：MoE 模型系统支持全面深化

MoE 专项论文高达 8+ 篇：MoEBlaze（训练显存墙）、FP8-Flow-MoE（量化）、CRAFT（专家副本分配）、Demystifying MoE Serving Tax（服务开销分析）、FarSkip-Collectives（通信优化）。MoE 已从研究对象演变为生产必选架构，系统支持刻不容缓。

已成主流

🤖

趋势三：Agentic AI 系统崛起为独立赛道

Agent 系统论文数量与写�容多样性均首次达到会议独立赛道规模：记忆管理（Hippocampus）、安全（ADS）、具身智能（AgenticCache）、SDK（OpenHands）、多 Agent 推理加速（FlashAgents）、Kernel 优化（AccelOpt）、HDL 生成（VeriMoA）。Agent OS 研究方向正在形成。

快速成长

🔢

趋势四：量化精度向 4-bit 乃至 2-bit 激进推进

NVFP4（FP4 量化）、Kitty（2-bit KV Cache）、IntAttention（全整数注意力）标志着量化前沿已从 FP16→FP8 进一步跨越至 FP4/INT4/INT2 区间。CAGE 针对 QAT 的曲率感知梯度估计、FP8-Flow-MoE 的零投射方案，体现了从"能量化"到"高质量量化"的深化。

1-2年内普及

📏

趋势五：超长上下文（1M+ Token）成为系统级挑战

MTraining（分布式动态稀疏注意力）、Efficient Long-Context LM Training（核注意力分离）、Unleashing Scalable Context Parallelism（FCP 上下文并行）、Stream2LLM（流式 Prefill）等多篇论文针对百万级 Token 的训练与推理展开攻关。长上下文将倒逼注意力算法、KV Cache 策略、通信拓扑的全栈重设讙�。

1-2年内主流

🌐

趋势六：异构硬件与跨设备训练系统化

Grolar（异构集群 LLM 训练）、HexiScale（异构硬件）、HetRL（异构 RL 环境）、FlexScale（弹性 FSDP）、BOute（异构 LLM/GPU 服务）、NEST（网络内存感知设备放置）。随着算力碎片化９�不同代 GPU/TPU/自研芯片共存），异构系统将成为工业界的常态挑战。

2年内成标准

🔁

趋势七：强化学习训练系统专项优化兴起

随着 RLHF/RLVR 成为 LLM 后训练的核心，出现了多篇专门针对 RL 训练阶段的系统优化：HetRL（异构 RL）、NexSpec（RL 系统中的投机解码）、Beat the Long Tail（RL 训练投机解码）、Learning from Less（低数据/计算 RLVR 评估）。RL 训练系统将成为继预训练之后的下一个系统级难题。

正在快速增长

🛡️

趋势八：AI 安全与隐私进入系统级讨论

从经典的联邦学习（DisAgg、PLayer-FL、FLoRIST）扩展到 LLM 安全新领域：ZK-APEX（零知识遗忘）、G-HEMP（同态加密 GCN 推理）、ADS（Agentic AI 安全检测）、Toward Principled Safety Testing（越狱 Oracle 问题）、Blueprint（GPU 机密计算）。AI 安全正从算法层下沉至系统层。

2-3年成熟

技术演进时间轴预测（2026–2030）

2026

推理分离架构全面落地，FP8/FP4 成行业标配

Prefill-Decode 分离部署进入主流云服务；FlashAttention-4 推动各框架默认 Attention 实现更新；FP8 训练与推理在主流 GPU 平台标准化；MoE 成为新发布大模型的默认架构，对应服务系统随之成熟。

2027

Agent OS 雏形出现，百万 Token 上下文成工程常态

Agent 记忆、工具调用、安全沙箱在主流框架（如 OpenHands）中统一；1M+ Token 的推理服务借助 FCP/稀疏注意力/流式 Prefill 可商业化部署；2-bit KV Cache 量化走向生产；RL 训练系统与预训练系统在框架层面统一。

2028

异构 AI 算力云成为主流，编译器智能化飞跃

跨厂商 GPU/TPU/定制 ASIC 的统一训推平台成熟；CATWILD/WAVE 类自动调优编译器集成到主要 MLOps 平台；Agentic Operator Generation 工具链进入 ASIC 研发标准流程；Serverless LLM 推理（FaaScale）成为云原生 AI 的主流交付模式。

2029–2030

隐私计算与可信 AI 成为企业 AI 基础设施必选项

同态加密推理（G-HEMP）从研究走向实用；零知识遗忘（ZK-APEX）应对 GDPR 等合规需求；GPU 机密计算（Blueprint）成为云端 AI 服务的 SLA 一部分；Agentic AI 的安全检测系统（ADS 类）内置于主流 Agent 平台；MLCommons Chakra 类标准执行 Trace 推动 AI 硬件互操作性。

六大深度洞察

🔭

推理系统研究已超越传统 CV/NLP 系统

本届约 48% 的论文聚焦 LLM 推理，是过去 MLSys 各届会议中占比最高的一次，标志着 LLM 已从算法研究客体转变为系统研究的"新主机"。

🏭

顶级工业界主导研究议题

Google（CATWILD、ML Fleet、XProf）、Apple（AXLearn）、Meta（ExecuTorch、Agentic Operator Generation、Optimizing Deployment）、NVIDIA（NVFP4）等主导了大量高影响力论文，产学研边界继续模糊化。

⚠️

投机解砙�的"祛魅"时刻

"Speculative Decoding: Performance or Illusion?" 与 "Beyond the Buzz" 等论文开始对此前被过度热炒的技术路线进行理性审视，MLSys 研究社区正在走向更成熟的工程化批判思维。

🔗

系统研究与算法研究的耦合度史上最高

本届大量论文同时贡献算法创新与系统实现（FlashAttention-4、BLASST、MAC-Attention、MTraining），纯系统工程论文比例下降，"算法-系统协同设计"已成第一原则。

📡

端侧与 Serverless AI 形成新战场

ExecuTorch、AIRS、VRAM-Constrained xLM Inference、FaaScale、Rethinking DVFS for Mobile LLMs 等论文体现出推理战场向边缘延伸的强烈趋势，算力碎片化驱动系统设计多元化。

🔬

基准与可观测性研究补齐工具链缺口

MLCommons Chakra、XProf、DriftBench、OSWorld-Human、LLMInfer-Bench 等专门讨论评测与可观测性的论文数量增加，反映出行业对"如何度量 AI 系统"的重视程度显著上升。

热词热度图

KV Cache

LLM Serving

MoE

Speculative Decoding

Distributed Training

FSDP

Quantization

FP8/FP4

Agentic AI

Agent Memory

Auto-Tuning

Compiler

Federated Learning

Privacy Computing

Heterogeneous

ASIC Design

Benchmarking

Profiling

Long Context

SLO Optimization

RL for LLMs

RLHF/RLVR

On-Device Inference

Serverless

RAG System

Multi-Agent