MLSys 2026 论文深度分析报告
研究报告

MLSys 2026 论文深度分析

对会议全部 135 篇录用论文进行系统分类、核心贡献提炼与未来技术趋势预测,覆盖 LLM 推理服务、训练系统、AI Agent、量化压缩、编译器等核心赛道。

135录用论文
10研究方向
48%推理/服务相关
8核心趋势预测
论文分布全景
🚀 LLM 推理 & 服务
~65
占比 ~48%,绝对主导地位
⚡ 模型训练系统
~25
分布式训练、通信优化
🤖 AI Agent 系统
~14
Agentic AI 新兴赛道
🔧 量化 & 压缩
~12
KV Cache、权重量化
🛠 编译器 & 调度
~9
自动调优、IR编译
🔒 联邦学习 & 隐私
~5
隐私计算、联邦微调
💻 硬件 & 芯片协同
~5
ASIC、NoC 设计
重点论文解析(精选 30 篇)

🚀 LLM 推理 & 服务

推理服务

FlashAttention-4: Algorithm and Kernel Pipelining Co-Design for Asymmetric Hardware Scaling

FA 系列第四代,针对最新 GPU 异构计算单元(TMA/WGMMA/Tensor Core 不对称性)进行算法级与 Kernel 级流水线协同设计,推动 Attention 效率进一步突破。
Ted Zadouri, Markus Hoehnerbach, Jay Shah et al.
推理服务

MorphServe: Efficient and Workload-Aware LLM Serving via Runtime Quantized Layer Swapping and KV Cache Resizing

运行时动态调整量化层精度与 KV Cache 大小,在负载感知的基础上实现延迟与吞吐量的联合优化,开创"弹性精度服务"新范式。
Zhaoyuan Su, Zeyu Zhang, Tingfeng Lan et al.
推理服务

Speculative Decoding: Performance or Illusion?

对投机解码的实际收益进行系统性评估,区分真实加速与虚假增益,指出在 RL 训练场景中推测解码可能带来负效益,引发方法论反思。
Lily Liu, Jiaxiang Yu, Jongseok Park, Ion Stoica et al.
推理服务

HELIOS: Adaptive Model And Early-Exit Selection for Efficient LLM Inference

结合模型选择与早退机制,自适应地为不同请求分配不同深度的计算路径,在 SLO 约束下最大化推理效率。
Avinash Kumar, Shashank Nag, Jason Clemons et al.
推理服务

BatchLLM: Optimizing Large Batched LLM Inference with Global Prefix Sharing and Throughput-oriented Token Batching

针对大批量推理场景的全局 Prefix 共享策略,与面向吞吐的 Token 批调度算法,显著降低大规模 Batch 场景的显存占用与延迟。
Zhen Zheng, Xin Ji, Taosong Fang et al.
推理服务

Breaking the Ice: Analyzing Cold Start Latency in vLLM

首次系统分析 vLLM 冷启动延迟成因,涵盖模型加载、CUDA 上下文初始化、KV Cache 预分配等各阶段,并提出针对性优化策略。
Huzaifa Shaaban Kabakibo, Animesh Trivedi, Lin Wang
推理服务

Beyond the Buzz: A Pragmatic Take on Inference Disaggregation

理性评估 Prefill/Decode 分离部署的真实收益与代价,结合工程实践给出选择分离架构的量化决策框架,避免盲目跟风。
Tiyasa Mitra, Ritika Borkar, Nidhi Bhatia et al.
推理服务

SuperInfer: SLO-Aware Rotary Scheduling and Memory Management for LLM Inference on Superchips

针对超级芯片(如 Grace Hopper)的 LLM 推理调度优化,利用旋转调度算法与精细化内存管理满足严格 SLO 约束。
Jiahuan Yu, Mingtao Hu, Minjia Zhang et al.
推理服务

SHIP: SRAM-Based Huge Inference Pipelines for Fast LLM Serving

充分利用片上 SRAM 构建多级流水线推理架构,在廙�迟敏感场景下突破 HBM 带宽瓶颈。
(多位作者)
推理服务

Demystifying the Mixture of Experts Serving Tax

量化 MoE 推理相比 Dense 模型的额外开销来源(路由、通信、负载均衡),为 MoE 服务系统设计提供指导。
Pratyush Patel, Arvind Krishnamurthy
推理服务

TriInfer: Hybrid EPD Disaggregation for Efficient Multimodal Large Language Model Inference

为多模态 LLM 设计三阶段(Encode-Prefill-Decode)混合分离架构,实现视觉编码与语言推理的解耦调度。
Xianzhe Dong, Tongxuan Liu et al.
投机解码

SpecDiff-2: Scaling Diffusion Drafter Alignment for Faster Speculative Decoding

将扩散模型作为投机解码的 Draft 模型,并通过对齐训练提升接受率,为超长序列生成提供新路径。
Wenhao Zheng, Zhengzhong Liu et al.

⚡ 模型训练系统

训练系统

MoEBlaze: Breaking the Memory Wall for Efficient MoE Training on Modern GPUs

针对 MoE 训练的显存墙问题,设计内存感知的专家分片与激活重计算策略,支持在单节点 GPU 集群上训练千亿级 MoE 模型。
Jiyuan Zhang, Yining Liu, Siqi Yan et al.
训练系统

AXLearn: Modular, Hardware-Agnostic Large Model Training

苹果开源的大模型训练框架,强调硬件无关性与模块化设计,支持 TPU/GPU 统一训练接口,已在生产环境验证。
Mark Lee, Tom Gunter, Chang Lan et al. (Apple)
训练系给�

DreamDDP: Accelerating Low-Bandwidth Geo-Distributed LLM Training with Layer-wise Partial Synchronization

为跨地域分布式训练设计逐层部分同步策略,大幅降低跨 WAN 通信量,实现弱网环境下的高效 LLM 训练。
Zhenheng Tang, Zichen Tang et al.
训练系统

MTraining: Distributed Dynamic Sparse Attention for Efficient Ultra-Long Context Training

通过动态稀疏注意力机制支持超长上下文(百万级 Token)的分布式训练,突破标准全注意力的内存与计算瓶颈。
Wenxuan Li, Chengruidong Zhang, Huiqiang Jiang et al.
训练系统

HetRL: Efficient Reinforcement Learning for LLMs in Heterogeneous Environments

面向 RLHF/RLVR 场景的异构 RL 训练系统,支持在不同规格 GPU 混合集群上高效运行 Actor/Critic,降低强化学习阶段的资源成本。
Yongjun He et al.
训练系统

FlexTrain: Scalable Hybrid-Parallel LLM Training with Elastic Resource Utilization and Consistent Accuracy

弹性混合并行训练框架,支持动态调整数据/张量/流水线并行度,在资源波动场景下保持训练精度稳定。
Weilin Cai, Diandian Gu et al.

🤖 AI Agent 系统

Agent 系统

The OpenHands Software Agent SDK: A Composable and Extensible Foundation for Production Agents

开源软件 Agent SDK,提供可组合、可扩展的生产级 Agent 基础设施,支持工具调用、沙箱执行、状态持久化等核心能力。
Xingyao Wang et al. (OpenHands Team)
Agent 系统

Hippocampus: An Efficient and Scalable Memory Module for Agentic AI

受海马体启发的 Agent 记忆模块,支持层次化长短期记忆管理,在多轮对话与长任务中显著提升 Agent 的上下文利用效率。
Yi Li, Lianjie Cao, Faraz Ahmed et al.
Agent 系统

ADS: An Agentic Detection System for Enterprise Agentic AI Security

企业级 Agentic AI 安全检测系统,识别 Prompt 注入、工具滥用、数据泄露等威胁,为 Agent 部署提供安全护栏。
Chenning Li, Pan Hu, Justin Xu et al.
Agent 系统

FlashAgents: Accelerating Multi-Agent LLM Systems via Streaming Prefill Overlap

通过流式 Prefill 重叠机制加速多 Agent 协作场景的 LLM 推理,减少 Agent 间通信等待,提升端到端响应速度。
Taosong Fang, Zhen Zheng et al.
Agent 系统

AgenticCache: Cache-Driven Asynchronous Planning for Embodied AI Agents

为具身 Agent 设计缓存驱动的异步规划框架,利用感知缓存避免重复推理,大幅提升机器人决策的实时性。
Hojoon Kim, Yuheng Wu, Thierry Tambe
Agent 系统

OSWorld-Human: Benchmarking the Efficiency of Computer-Use Agents

计算机操作 Agent 的效率评测基准,引入人类操作对照数据,从任务完成率、步骤效率、错误恢复等多维度量化 Agent 性能。
(多位作者)

🔧 量化 & 压缩

量化压缩

NVFP4 Search Your Scales!

NVIDIA FP4 格式下的量化缩放因子搜索算法,解决超低精度量化的精度保持难题,为下一代 GPU(Blackwell)的 FP4 推理铺路。
Tanmaey Gupta, Hayden Prairie, Xiaoxia Wu et al.
量化压缩

Kitty: Accurate and Efficient 2-bit KV Cache Quantization with Dynamic Channel-wise Precision Boost

KV Cache 极致压缩至 2-bit,引入动态通道精度提升机制保护重要通道,在极低 bit-width 下维持推理质量。
Haojun Xia, Xiaoxia Wu et al.
量化压缩

FP8-Flow-MoE: A Casting-Free FP8 Recipe without Double Quantization Error

专为 MoE 模型设计的无投射 FP8 量化方案,消除二次量化误差,在 FP8 训练与推理的精度-效率 trade-off 上取得新突破。
Fengjuan Wang, Zhiyi Su et al.
量化压缩

SkipKV: Selective Skipping of KV Generation and Storage for Efficient Inference with Large Reasoning Models

针对长链推理(Chain-of-Thought)模型,选择性跳过中间推理步骤的 KV 缓存生成,显著降低 KV Cache 内存占用。
Jiayi Tian, Seyedarmin Azizi et al.

🛠 编译器 & 调度优化

编译器

CATWILD: Compiler Autotuning for TPU Workloads in the Wild

谷歌针对 TPU 生产负载的编译器自动调优系统,利用 ML 反馈驱动调优,覆盖"野外"真实工作负载的多样性与复杂性。
Ignacio Cano, Yu Wang, Phitchaya Phothilimthana et al. (Google)
编译器

WAVE: A Symbolic Python DSL and Compiler for High Performance Machine Learning

符号化 Python DSL 及其配套编译器,支持将高层 ML 计算描述直接编译到高性能核函数,降低 Kernel 工程门槛。
Harsh Menon et al. (AMD)
编译器

Agentic Operator Generation for ML ASICs

利用 LLM Agent 自动生成 ML 专用 ASIC 的算子代码,打通从算法规格到硬件实现的自动化链路,加速 AI 芯片研发。
Aram Markosyan, Aman Dontula et al. (Meta)
编译器

SchedFlow: Unified Transparent and Flexible Intra-Device Parallelism via Programmable Operator Scheduling

可编程算子调度框架,统一设备内并行策略,支持在不修改算子代码的情况下灵活切换调度策略。
Yi Pan, Yile Gu et al.
全部论文分类总览
# 论文名称 方向 核心贡献摘要
1FlashAttention-4推理服务FA4 算法与 Kernel 流水线协同设计,针对不对称硬件缩放
2MorphServe推理服务运行时量化层切换 + KV Cache 动态调整,负载感知服务
3PLA-Serve推理服务Prefill 长度感知的 LLM 服务系统,优化首 Token 延迟
4SpecDiff-2投机解码Diffusion 模型作为 Draft,扩展投机解码到扩散范式
5LLMInfer-Bench基准测试LLM 推理系统综合基准,多维度性能对比
6Meeting SLOs, Slashing Hours推理服务企业级 LLM 优化,SLO 达标的同时大幅降低推理成本
7OptiKIT推理服务AI 驱动企业 LLM 推理优化工具包
8HippocampusAgent高效可扩展的 Agentic AI 记忆模块
9IntAttention量化全整数注意力流水线,面向边缘推理
10Using Span Queries基础设施Span 查询优化 Cache 与 Attention 局部性
11NEST: Network/Memory-Aware Device Placement训练系给�分布式深度学习的网络感知设备放置
12FP8-Flow-MoE量化MoE 无投射 FP8 方案
13FlexiCacheKV Cache利用注意力头时序稳定性的 KV Cache 管理
14Efficient Long-Context LM Training训练系统核忙�注意力分离架构支持超长上下文训练
15Agentic Operator Generation for ML ASICs编译器Agent 自动生成 ASIC 算子
16ADS: Agentic Detection System安全企业级 Agentic AI 安全检测系统
17Accelerating Large-Scale Reasoning with Sparse Self-Speculative Decoding投机解码稀疏自投机解码加速大规模推理模型
18ProToken联邦学习联邦大模型 Token 级归因
19Beyond the Buzz: Inference Disaggregation推理服务推理分离的务实评估框架
20Blueprint/Bootstrap/Bridge: NVIDIA GPU Confidential Computing安全NVIDIA GPU 机密计算安全综述
21BEAM: Joint Resource-Power Optimization推理服务SLO 约束下的能效联合优化
22Learning from Less (RLVR)训练系统低数据量 RLVR 有效性评估
23SkipKV量化大推理模型的 KV 生成与存储选择性跳过
24SchedFlow编译器可编程算子调度支持灵活设备内并行
25LLM Model for Power/Performance/Area Prediction硬件从硬件代码预测 PPA 指标
26BLASST: Dynamic Attention Sparsity via Softmax Thresholding推理服务动态块稀疏注意力,Softmax 阈值化实现
27Spira: Voxel Sparse Convolution特定场景点云网络高效稀疏卷积
28CAGE: Curvature-Aware Quantization-Aware Training量化曲率感知梯度估计提升 QAT 精度
29ApproxMLIR: Accuracy-Aware Compiler编译器精度感知 ML 系统编译器
30Privatar: Privacy-preserving Multi-user VR安全/隐私安全卸载的可扩展多用户 VR
31Scaling Up LLM Serving for Semantic Job Search推理服务语义职位搜索的 LLM 服务系统扩展
32NVFP4 Search Your Scales量化FP4 量化缩放因子搜索
33Zero Redundancy Distributed Learning with Differential Privacy隐私零冗余差分隐私分布式训练
34PRISM: Parametrically Restructured Inference for Speculative Sampling投机解码参数化重组推理加速投机采样
35WAVE: Symbolic Python DSL and Compiler编译器AMD 高性能 ML 符号编译器
36MoEBlaze训练系统打破 MoE 训练显存墙
37FreeScale训练系统推荐模型序列低代价分布式训练
38When Enough is Enough: Rank-Aware Early Termination for Vector Search基础设施向量搜索排名感知早退机制
39Once-for-All Channel Mixers (HyperTinyPW)压缩TinyML 生成式压缩
40FlashAttention-4推理服务(同上)
41AIRS: Scaling Live Inference in Resource-Constrained Environments基础设施资源约束环境的实时推理扩展
42CATWILD编译器谷歌 TPU 生产编译器自动调优
43PROMPTS: Multi-Agent Planning for LLM Training and ServingAgent多 Agent 协同规划优化 LLM 训练与服务性能
44ML Fleet Efficiency: Improving TPU Systems at Scale基础设施Google TPU 机群效率与 ML 生产力度量
45XProf: Open, Scalable ML Profiling System基础设施现代 ML 栈的开源可扩展剖析系统
46MTraining: Ultra-Long Context Training训练系统分布式动态稀疏注意力超长上下文训练
47Stream2LLM: Streaming Context Prefill推理服务流式上下文传输与 Prefill 重叠减少 TTFT
48REPARO: Loss-Resilient Generative Video Codec视频甙�成式视频会议编解码器
49ZK-APEX: Zero-Knowledge Approximate Personalized Unlearning安全/隐私零知识证明的近似个性化遗忘
50Automated Algorithm Design for Auto-Tuning Optimizers编译器自动调优优化器的算法自动设计
51Ontology-Guided Long-Term Memory for RAGAgent本体引导的 RAG 对话长期记忆
52From Tokens to Layers: Stall-Free Scheduling with Layered Prefill推理服务分层 Prefill 无停顿 LLM 服务调度
53AXLearn训练系统苹果模块化硬件无关大模型训练框架
54ProfInfer: eBPF-based LLM Inference Profiler基础设施基于 eBPF 的细粒度 LLM 推理分析器
55Event Tensor: Unified Abstraction for Dynamic Megakernel Compilation编译器动态大 Kernel 编译的统一事件张量抽象
56HELIOS: Adaptive Early-Exit for LLM Inference推理服务自适应模型与早退联合选择
57NodeSweep: Straggler Detection for Foundation Model Training基础设施大规模基础模型训练的慢节点检测与健康监控
58AgenticCacheAgent具身 Agent 缓存驱动异步规划
59ProTrain: LLM Training via Automatic Memory Management训练系统自动内存管理的高效 LLM 训练
60CDLM: Consistency Diffusion Language Models推理一致性扩散语言模型加速采样
61Pylo: Learned Optimizers in PyTorch训练系统PyTorch 中可访问的学习式优化器
62RDMA Point-to-Point Communication for LLM Systems基础设施LLM 系统 RDMA 点对点通信
63TiDAR: Think in Diffusion, Talk in Autoregression生成扩散思考 + 自回归输出的混合生成范式
64ParallelKittens: Simplification of Multi-GPU AI Kernels编译器多 GPU AI Kernel 系统化简化框架
65PLayer-FL: Personalized Layer-wise Cross-Silo Federated Learning联邦学习原则化逐层个性化跨孤岛联邦学习
66AccelOpt: Self-Improving LLM Agentic System for AI Accelerator Kernel OptimizationAgentLLM Agent 自改进加速器 Kernel 优化
67DisAgg: Distributed Aggregators for Secure Aggregation联邦学习高效安全聚合的分布式聚合器
68RagInfer: Efficient RAG Inference with Lookahead RetrievalRAG超前检索的高效 RAG 推理
69VeriMoA: Mixture-of-Agents for Spec-to-HDL GenerationAgent多 Agent 框架辙�助 HDL 硬件代码生成
70BOOST: Bottleneck-Optimized Scalable Training for LoRA LLMs训练系统低秩大模型的瓶颈优化可扩展训练
71SONAR: Benchmarking Topology in Decentralized Learning训练系统去中心化学习的拓扑与协作基准
72VM NUMA Placement at Scale基础设施大规模 NUMA 感知虚拟机放置学习
73SHIP: SRAM-Based Inference Pipelines推理服务SRAM 流水线快速 LLM 服务
74HipKittens: Fast AMD Kernels编译器AMD GPU 高性能 Kernel 框架
75RaidServe: High-performance Resilient Serving推理服务高性能容灾 LLM 服务系统
76Beat the Long Tail: Distribution-Aware Speculative Decoding for RL Training投机解码面向 RL 训练的分布感知投机解码
77db-SP: Dual-Balanced Sequence Parallelism for Visual Generative Models训练系统视觉生成模型稀疏注意力加速
78When ML Isn't Sure: Resilient ML-Based Computer Systems基础设施拥抱不确定性构建弹性 ML 计算机系统
79Cost-aware Duration Prediction for Software Upgrades基础设施数据中心软件升级时长的代价感知预测
80Shannonic: Efficient Entropy-Optimal Compression压缩ML 负载的熵最优高效压缩
81FlexTrain训练系统弹性资源混合并行 LLM 训练
82Toward Principled Safety Testing: Solving the Jailbreak Oracle Problem安全越狱攻击的 Oracle 问题原则化安全测试
83Unleashing Scalable Context Parallelism (FCP)训练系统FCP 解锁基础模型预训练的上下文并行
84CRAFT: Cost-aware Expert Replica AllocationMoE细粒度逐层 MoE 专家副本代价感知分配
85G-HEMP: Fast Multi-GPU Private Inference for GCNs with HE安全/隐私同态加密下大规模 GCN 多 GPU 隐私推理
86RAGBoost: Efficient RAG with Accuracy-Preserving Context ReuseRAG精度保持的 RAG 上下文复用加速
87StreamDiffusionV2生成动态交互视频生成的流式系统
88EarthSight: Distributed Low-Latency Satellite Intelligence边缘低延迟卫星边缘 AI 分布式框架
89GhostServe: Lightweight Checkpointing for Fault-Tolerant LLM Serving推理服务影子检查点轻量级容错 LLM 服务
90MixLLM: Mixed-precision LLM Quantization量化输出特征级全局混合精度量化
91FLoRIST: SVD Thresholding for Federated Fine-Tuning联邦学习奇异值阈值化的高效准确联邦微调
92DriftBench: Measuring and Predicting Infrastructure Drift基础设施LLM 服务系统基础设施漂移测量与预测
93Grolar: Efficient LLM Training on Heterogeneous Clusters训练系统异构集群高效 LLM 训练
94Flashlight: PyTorch Compiler Extensions for Attention Variants编译器PyTorch 编译器扩展加速注意力变体
95DreamDDP训练系统低带宽跨地域 LLM 训练逐层部分同步
96Locality-Aware Beam Scheduling for Test-Time Compute推理服务消费级 GPU 的局部感知 Beam 调度测试时计算
97OPKV: High-Throughput Plugin-Driven Recallable Sparsity in Paged KV CacheKV Cache分页 KV Cache 可召回稀疏插件框架
98SuperInfer推理服务超级芯片上的 SLO 感知轮转调度
99Breaking the Ice: Cold Start in vLLM推理服务vLLM 冷启动延迟分析
100BatchLLM推理服务全局 Prefix 共享 + 吞吐导向批处理
101ExecuTorch: Unified PyTorch Mobile/On-Device ML端侧Meta 统一端侧 PyTorch ML 解决方案
102Rethinking DVFS for Mobile LLMs端侧移动端 LLM 统一能效感知 DVFS 调度
103TokenBlend: Accelerating TP LLM Inference via Compute-Communication Overlap推理服务张量并行 LLM 推理计算通信重叠
104Matrix: Peer-to-Peer Multi-Agent Synthetic Data GenerationAgent多 Agent 点对点合成数据生成框架
105Parrot: Persuasion and Agreement Robustness Rating安全LLM 输出真实性的说服与一致性鲁棒性评级
106Kitty: 2-bit KV Cache Quantization量化动态通道精度提升的 2-bit KV Cache
107FlexScale: High-Performance FSDP at Scale训练系统灵活高性能大规模 FSDP
108HetRL训练系统异构环境 LLM 强化学习
109Massive-Scale Out-Of-Core UMAP on GPU数据处理超大规模 GPU 外存 UMAP 降维
110HexiScale: LLM Training over Heterogeneous Hardware训练系统异构硬件大模型训练
111BOute: Cost-Efficient LLM Serving with Heterogeneous LLMs/GPUs推理服务多目标贝叶斯优化异构 LLM/GPU 服务
112MAC-Attention: Match-Amend-Complete Attention推理服务快速精准注意力的匹配-修正-补全机制
113Sparing Strategies for Large Training Jobs基础设施最小化大训练任务可靠性影响的冗余策略
114Speculative Decoding: Performance or Illusion?投机解码投机解码真实收益的系统评估
115NexSpec: Speculative Decoding in RL Systems投机解码强化学习系统中的投机解码优化
116Optimizing Deployment Configurations for LLM Inference推理服务Meta 大规模 LLM 推理部署配置优化
117Demystifying MoE Serving TaxMoEMoE 服务额外开销量化分析
118Flash3DGS: Algorithm and System Co-Optimization for 3DGS on GPUs特定场景GPU 3D 高斯泼溅算法系统协同优化
119SAKURAONE: Open Ethernet-Based AI HPC System硬件以太网 AI HPC 系统及其负载动态分析
120CSLE: RL Platform for Autonomous Security Management安全自主安全管理的强化学习平台
121Dataflow Is All You Need编译器数据流为核心的 ML 系统编译框架
122OSWorld-HumanAgent计算机使用 Agent 效率基准
123LEANN: Low-Storage Overhead Vector Index存储低存储开销向量索引
124The OpenHands Software Agent SDKAgent生产级 Agent 可组合可扩展基础
125FlashAgentsAgent流式 Prefill 重叠加速多 Agent 系统
126FaaScale: Fast LLM Scaling for Serverless Inference推理服务Serverless 推理的快速 LLM 扩展
127Charon: Unified Simulator for Large-Scale LLM Training and Inference基础设施大规模 LLM 训推统一细粒度模拟器
128Hawkeye: Reproducing GPU-Level Non-Determinism基础设施GPU 级不确定性复现与调试工具
129FarSkip-Collectives: Unhobbling Blocking Communication in MoE训练系统解除 MoE 阻塞集合通信限制
130MLCommons Chakra: Performance Benchmarking with Execution Traces基准测试基于标准执行 Trace 的 ML 性能基准与协同设计
131TriInfer: Hybrid EPD Disaggregation for Multimodal LLMs推理服务多模态 LLM 三阶段混合分离推理
132A Lightweight High-Throughput Collective-Capable NoC for Large-Scale ML Accelerators硬件大规模 ML 加速器高吞吐片上网络
133GriNNder: Breaking Memory Capacity Wall in GNN Training with Storage Offloading训练系统存储卸载突破全图 GNN 讙�练显存墙
134Efficient VRAM-Constrained xLM Inference on Clients端侧客户端 VRAM 约束下的跨语言模型推理
135Attribution-based Sparse Activation in LLMs推理服务基于归因的 LLM 稀疏激活
八大核心技术趋势
趋势一:推理系统成为 MLSys 绝对核心
约 48% 的论文聚焦 LLM 推理与服务系统,覆盖 KV Cache 管理(FlexiCache、SkipKV、Kitty)、投机解码(SpecDiff-2、NexSpec、BLASST)、Prefill/Decode 分离(TriInfer、PLA-Serve)、调度优化(SuperInfer、SchedFlow)等多个子赛道。传统 CV/NLP 系统研究几乎消失,LLM 推理成为新时代的 OS 内核级挑战。
已成主流
🧩
趋势二:MoE 模型系统支持全面深化
MoE 专项论文高达 8+ 篇:MoEBlaze(训练显存墙)、FP8-Flow-MoE(量化)、CRAFT(专家副本分配)、Demystifying MoE Serving Tax(服务开销分析)、FarSkip-Collectives(通信优化)。MoE 已从研究对象演变为生产必选架构,系统支持刻不容缓。
已成主流
🤖
趋势三:Agentic AI 系统崛起为独立赛道
Agent 系统论文数量与写�容多样性均首次达到会议独立赛道规模:记忆管理(Hippocampus)、安全(ADS)、具身智能(AgenticCache)、SDK(OpenHands)、多 Agent 推理加速(FlashAgents)、Kernel 优化(AccelOpt)、HDL 生成(VeriMoA)。Agent OS 研究方向正在形成。
快速成长
🔢
趋势四:量化精度向 4-bit 乃至 2-bit 激进推进
NVFP4(FP4 量化)、Kitty(2-bit KV Cache)、IntAttention(全整数注意力)标志着量化前沿已从 FP16→FP8 进一步跨越至 FP4/INT4/INT2 区间。CAGE 针对 QAT 的曲率感知梯度估计、FP8-Flow-MoE 的零投射方案,体现了从"能量化"到"高质量量化"的深化。
1-2年内普及
📏
趋势五:超长上下文(1M+ Token)成为系统级挑战
MTraining(分布式动态稀疏注意力)、Efficient Long-Context LM Training(核注意力分离)、Unleashing Scalable Context Parallelism(FCP 上下文并行)、Stream2LLM(流式 Prefill)等多篇论文针对百万级 Token 的训练与推理展开攻关。长上下文将倒逼注意力算法、KV Cache 策略、通信拓扑的全栈重设讙�。
1-2年内主流
🌐
趋势六:异构硬件与跨设备训练系统化
Grolar(异构集群 LLM 训练)、HexiScale(异构硬件)、HetRL(异构 RL 环境)、FlexScale(弹性 FSDP)、BOute(异构 LLM/GPU 服务)、NEST(网络内存感知设备放置)。随着算力碎片化9�不同代 GPU/TPU/自研芯片共存),异构系统将成为工业界的常态挑战。
2年内成标准
🔁
趋势七:强化学习训练系统专项优化兴起
随着 RLHF/RLVR 成为 LLM 后训练的核心,出现了多篇专门针对 RL 训练阶段的系统优化:HetRL(异构 RL)、NexSpec(RL 系统中的投机解码)、Beat the Long Tail(RL 训练投机解码)、Learning from Less(低数据/计算 RLVR 评估)。RL 训练系统将成为继预训练之后的下一个系统级难题。
正在快速增长
🛡️
趋势八:AI 安全与隐私进入系统级讨论
从经典的联邦学习(DisAgg、PLayer-FL、FLoRIST)扩展到 LLM 安全新领域:ZK-APEX(零知识遗忘)、G-HEMP(同态加密 GCN 推理)、ADS(Agentic AI 安全检测)、Toward Principled Safety Testing(越狱 Oracle 问题)、Blueprint(GPU 机密计算)。AI 安全正从算法层下沉至系统层。
2-3年成熟
技术演进时间轴预测(2026–2030)
2026

推理分离架构全面落地,FP8/FP4 成行业标配

Prefill-Decode 分离部署进入主流云服务;FlashAttention-4 推动各框架默认 Attention 实现更新;FP8 训练与推理在主流 GPU 平台标准化;MoE 成为新发布大模型的默认架构,对应服务系统随之成熟。

2027

Agent OS 雏形出现,百万 Token 上下文成工程常态

Agent 记忆、工具调用、安全沙箱在主流框架(如 OpenHands)中统一;1M+ Token 的推理服务借助 FCP/稀疏注意力/流式 Prefill 可商业化部署;2-bit KV Cache 量化走向生产;RL 训练系统与预训练系统在框架层面统一。

2028

异构 AI 算力云成为主流,编译器智能化飞跃

跨厂商 GPU/TPU/定制 ASIC 的统一训推平台成熟;CATWILD/WAVE 类自动调优编译器集成到主要 MLOps 平台;Agentic Operator Generation 工具链进入 ASIC 研发标准流程;Serverless LLM 推理(FaaScale)成为云原生 AI 的主流交付模式。

2029–2030

隐私计算与可信 AI 成为企业 AI 基础设施必选项

同态加密推理(G-HEMP)从研究走向实用;零知识遗忘(ZK-APEX)应对 GDPR 等合规需求;GPU 机密计算(Blueprint)成为云端 AI 服务的 SLA 一部分;Agentic AI 的安全检测系统(ADS 类)内置于主流 Agent 平台;MLCommons Chakra 类标准执行 Trace 推动 AI 硬件互操作性。

六大深度洞察
🔭

推理系统研究已超越传统 CV/NLP 系统

本届约 48% 的论文聚焦 LLM 推理,是过去 MLSys 各届会议中占比最高的一次,标志着 LLM 已从算法研究客体转变为系统研究的"新主机"。

🏭

顶级工业界主导研究议题

Google(CATWILD、ML Fleet、XProf)、Apple(AXLearn)、Meta(ExecuTorch、Agentic Operator Generation、Optimizing Deployment)、NVIDIA(NVFP4)等主导了大量高影响力论文,产学研边界继续模糊化。

⚠️

投机解砙�的"祛魅"时刻

"Speculative Decoding: Performance or Illusion?" 与 "Beyond the Buzz" 等论文开始对此前被过度热炒的技术路线进行理性审视,MLSys 研究社区正在走向更成熟的工程化批判思维。

🔗

系统研究与算法研究的耦合度史上最高

本届大量论文同时贡献算法创新与系统实现(FlashAttention-4、BLASST、MAC-Attention、MTraining),纯系统工程论文比例下降,"算法-系统协同设计"已成第一原则。

📡

端侧与 Serverless AI 形成新战场

ExecuTorch、AIRS、VRAM-Constrained xLM Inference、FaaScale、Rethinking DVFS for Mobile LLMs 等论文体现出推理战场向边缘延伸的强烈趋势,算力碎片化驱动系统设计多元化。

🔬

基准与可观测性研究补齐工具链缺口

MLCommons Chakra、XProf、DriftBench、OSWorld-Human、LLMInfer-Bench 等专门讨论评测与可观测性的论文数量增加,反映出行业对"如何度量 AI 系统"的重视程度显著上升。

热词热度图
KV Cache
LLM Serving
MoE
Speculative Decoding
Distributed Training
FSDP
Quantization
FP8/FP4
Agentic AI
Agent Memory
Auto-Tuning
Compiler
Federated Learning
Privacy Computing
Heterogeneous
ASIC Design
Benchmarking
Profiling
Long Context
SLO Optimization
RL for LLMs
RLHF/RLVR
On-Device Inference
Serverless
RAG System
Multi-Agent