MLSys 2026 论文深度分析
对会议全部 135 篇录用论文进行系统分类、核心贡献提炼与未来技术趋势预测,覆盖 LLM 推理服务、训练系统、AI Agent、量化压缩、编译器等核心赛道。
🚀 LLM 推理 & 服务
FlashAttention-4: Algorithm and Kernel Pipelining Co-Design for Asymmetric Hardware Scaling
MorphServe: Efficient and Workload-Aware LLM Serving via Runtime Quantized Layer Swapping and KV Cache Resizing
Speculative Decoding: Performance or Illusion?
HELIOS: Adaptive Model And Early-Exit Selection for Efficient LLM Inference
BatchLLM: Optimizing Large Batched LLM Inference with Global Prefix Sharing and Throughput-oriented Token Batching
Breaking the Ice: Analyzing Cold Start Latency in vLLM
Beyond the Buzz: A Pragmatic Take on Inference Disaggregation
SuperInfer: SLO-Aware Rotary Scheduling and Memory Management for LLM Inference on Superchips
SHIP: SRAM-Based Huge Inference Pipelines for Fast LLM Serving
Demystifying the Mixture of Experts Serving Tax
TriInfer: Hybrid EPD Disaggregation for Efficient Multimodal Large Language Model Inference
SpecDiff-2: Scaling Diffusion Drafter Alignment for Faster Speculative Decoding
⚡ 模型训练系统
MoEBlaze: Breaking the Memory Wall for Efficient MoE Training on Modern GPUs
AXLearn: Modular, Hardware-Agnostic Large Model Training
DreamDDP: Accelerating Low-Bandwidth Geo-Distributed LLM Training with Layer-wise Partial Synchronization
MTraining: Distributed Dynamic Sparse Attention for Efficient Ultra-Long Context Training
HetRL: Efficient Reinforcement Learning for LLMs in Heterogeneous Environments
FlexTrain: Scalable Hybrid-Parallel LLM Training with Elastic Resource Utilization and Consistent Accuracy
🤖 AI Agent 系统
The OpenHands Software Agent SDK: A Composable and Extensible Foundation for Production Agents
Hippocampus: An Efficient and Scalable Memory Module for Agentic AI
ADS: An Agentic Detection System for Enterprise Agentic AI Security
FlashAgents: Accelerating Multi-Agent LLM Systems via Streaming Prefill Overlap
AgenticCache: Cache-Driven Asynchronous Planning for Embodied AI Agents
OSWorld-Human: Benchmarking the Efficiency of Computer-Use Agents
🔧 量化 & 压缩
NVFP4 Search Your Scales!
Kitty: Accurate and Efficient 2-bit KV Cache Quantization with Dynamic Channel-wise Precision Boost
FP8-Flow-MoE: A Casting-Free FP8 Recipe without Double Quantization Error
SkipKV: Selective Skipping of KV Generation and Storage for Efficient Inference with Large Reasoning Models
🛠 编译器 & 调度优化
CATWILD: Compiler Autotuning for TPU Workloads in the Wild
WAVE: A Symbolic Python DSL and Compiler for High Performance Machine Learning
Agentic Operator Generation for ML ASICs
SchedFlow: Unified Transparent and Flexible Intra-Device Parallelism via Programmable Operator Scheduling
| # | 论文名称 | 方向 | 核心贡献摘要 |
|---|---|---|---|
| 1 | FlashAttention-4 | 推理服务 | FA4 算法与 Kernel 流水线协同设计,针对不对称硬件缩放 |
| 2 | MorphServe | 推理服务 | 运行时量化层切换 + KV Cache 动态调整,负载感知服务 |
| 3 | PLA-Serve | 推理服务 | Prefill 长度感知的 LLM 服务系统,优化首 Token 延迟 |
| 4 | SpecDiff-2 | 投机解码 | Diffusion 模型作为 Draft,扩展投机解码到扩散范式 |
| 5 | LLMInfer-Bench | 基准测试 | LLM 推理系统综合基准,多维度性能对比 |
| 6 | Meeting SLOs, Slashing Hours | 推理服务 | 企业级 LLM 优化,SLO 达标的同时大幅降低推理成本 |
| 7 | OptiKIT | 推理服务 | AI 驱动企业 LLM 推理优化工具包 |
| 8 | Hippocampus | Agent | 高效可扩展的 Agentic AI 记忆模块 |
| 9 | IntAttention | 量化 | 全整数注意力流水线,面向边缘推理 |
| 10 | Using Span Queries | 基础设施 | Span 查询优化 Cache 与 Attention 局部性 |
| 11 | NEST: Network/Memory-Aware Device Placement | 训练系给� | 分布式深度学习的网络感知设备放置 |
| 12 | FP8-Flow-MoE | 量化 | MoE 无投射 FP8 方案 |
| 13 | FlexiCache | KV Cache | 利用注意力头时序稳定性的 KV Cache 管理 |
| 14 | Efficient Long-Context LM Training | 训练系统 | 核忙�注意力分离架构支持超长上下文训练 |
| 15 | Agentic Operator Generation for ML ASICs | 编译器 | Agent 自动生成 ASIC 算子 |
| 16 | ADS: Agentic Detection System | 安全 | 企业级 Agentic AI 安全检测系统 |
| 17 | Accelerating Large-Scale Reasoning with Sparse Self-Speculative Decoding | 投机解码 | 稀疏自投机解码加速大规模推理模型 |
| 18 | ProToken | 联邦学习 | 联邦大模型 Token 级归因 |
| 19 | Beyond the Buzz: Inference Disaggregation | 推理服务 | 推理分离的务实评估框架 |
| 20 | Blueprint/Bootstrap/Bridge: NVIDIA GPU Confidential Computing | 安全 | NVIDIA GPU 机密计算安全综述 |
| 21 | BEAM: Joint Resource-Power Optimization | 推理服务 | SLO 约束下的能效联合优化 |
| 22 | Learning from Less (RLVR) | 训练系统 | 低数据量 RLVR 有效性评估 |
| 23 | SkipKV | 量化 | 大推理模型的 KV 生成与存储选择性跳过 |
| 24 | SchedFlow | 编译器 | 可编程算子调度支持灵活设备内并行 |
| 25 | LLM Model for Power/Performance/Area Prediction | 硬件 | 从硬件代码预测 PPA 指标 |
| 26 | BLASST: Dynamic Attention Sparsity via Softmax Thresholding | 推理服务 | 动态块稀疏注意力,Softmax 阈值化实现 |
| 27 | Spira: Voxel Sparse Convolution | 特定场景 | 点云网络高效稀疏卷积 |
| 28 | CAGE: Curvature-Aware Quantization-Aware Training | 量化 | 曲率感知梯度估计提升 QAT 精度 |
| 29 | ApproxMLIR: Accuracy-Aware Compiler | 编译器 | 精度感知 ML 系统编译器 |
| 30 | Privatar: Privacy-preserving Multi-user VR | 安全/隐私 | 安全卸载的可扩展多用户 VR |
| 31 | Scaling Up LLM Serving for Semantic Job Search | 推理服务 | 语义职位搜索的 LLM 服务系统扩展 |
| 32 | NVFP4 Search Your Scales | 量化 | FP4 量化缩放因子搜索 |
| 33 | Zero Redundancy Distributed Learning with Differential Privacy | 隐私 | 零冗余差分隐私分布式训练 |
| 34 | PRISM: Parametrically Restructured Inference for Speculative Sampling | 投机解码 | 参数化重组推理加速投机采样 |
| 35 | WAVE: Symbolic Python DSL and Compiler | 编译器 | AMD 高性能 ML 符号编译器 |
| 36 | MoEBlaze | 训练系统 | 打破 MoE 训练显存墙 |
| 37 | FreeScale | 训练系统 | 推荐模型序列低代价分布式训练 |
| 38 | When Enough is Enough: Rank-Aware Early Termination for Vector Search | 基础设施 | 向量搜索排名感知早退机制 |
| 39 | Once-for-All Channel Mixers (HyperTinyPW) | 压缩 | TinyML 生成式压缩 |
| 40 | FlashAttention-4 | 推理服务 | (同上) |
| 41 | AIRS: Scaling Live Inference in Resource-Constrained Environments | 基础设施 | 资源约束环境的实时推理扩展 |
| 42 | CATWILD | 编译器 | 谷歌 TPU 生产编译器自动调优 |
| 43 | PROMPTS: Multi-Agent Planning for LLM Training and Serving | Agent | 多 Agent 协同规划优化 LLM 训练与服务性能 |
| 44 | ML Fleet Efficiency: Improving TPU Systems at Scale | 基础设施 | Google TPU 机群效率与 ML 生产力度量 |
| 45 | XProf: Open, Scalable ML Profiling System | 基础设施 | 现代 ML 栈的开源可扩展剖析系统 |
| 46 | MTraining: Ultra-Long Context Training | 训练系统 | 分布式动态稀疏注意力超长上下文训练 |
| 47 | Stream2LLM: Streaming Context Prefill | 推理服务 | 流式上下文传输与 Prefill 重叠减少 TTFT |
| 48 | REPARO: Loss-Resilient Generative Video Codec | 视频 | 甙�成式视频会议编解码器 |
| 49 | ZK-APEX: Zero-Knowledge Approximate Personalized Unlearning | 安全/隐私 | 零知识证明的近似个性化遗忘 |
| 50 | Automated Algorithm Design for Auto-Tuning Optimizers | 编译器 | 自动调优优化器的算法自动设计 |
| 51 | Ontology-Guided Long-Term Memory for RAG | Agent | 本体引导的 RAG 对话长期记忆 |
| 52 | From Tokens to Layers: Stall-Free Scheduling with Layered Prefill | 推理服务 | 分层 Prefill 无停顿 LLM 服务调度 |
| 53 | AXLearn | 训练系统 | 苹果模块化硬件无关大模型训练框架 |
| 54 | ProfInfer: eBPF-based LLM Inference Profiler | 基础设施 | 基于 eBPF 的细粒度 LLM 推理分析器 |
| 55 | Event Tensor: Unified Abstraction for Dynamic Megakernel Compilation | 编译器 | 动态大 Kernel 编译的统一事件张量抽象 |
| 56 | HELIOS: Adaptive Early-Exit for LLM Inference | 推理服务 | 自适应模型与早退联合选择 |
| 57 | NodeSweep: Straggler Detection for Foundation Model Training | 基础设施 | 大规模基础模型训练的慢节点检测与健康监控 |
| 58 | AgenticCache | Agent | 具身 Agent 缓存驱动异步规划 |
| 59 | ProTrain: LLM Training via Automatic Memory Management | 训练系统 | 自动内存管理的高效 LLM 训练 |
| 60 | CDLM: Consistency Diffusion Language Models | 推理 | 一致性扩散语言模型加速采样 |
| 61 | Pylo: Learned Optimizers in PyTorch | 训练系统 | PyTorch 中可访问的学习式优化器 |
| 62 | RDMA Point-to-Point Communication for LLM Systems | 基础设施 | LLM 系统 RDMA 点对点通信 |
| 63 | TiDAR: Think in Diffusion, Talk in Autoregression | 生成 | 扩散思考 + 自回归输出的混合生成范式 |
| 64 | ParallelKittens: Simplification of Multi-GPU AI Kernels | 编译器 | 多 GPU AI Kernel 系统化简化框架 |
| 65 | PLayer-FL: Personalized Layer-wise Cross-Silo Federated Learning | 联邦学习 | 原则化逐层个性化跨孤岛联邦学习 |
| 66 | AccelOpt: Self-Improving LLM Agentic System for AI Accelerator Kernel Optimization | Agent | LLM Agent 自改进加速器 Kernel 优化 |
| 67 | DisAgg: Distributed Aggregators for Secure Aggregation | 联邦学习 | 高效安全聚合的分布式聚合器 |
| 68 | RagInfer: Efficient RAG Inference with Lookahead Retrieval | RAG | 超前检索的高效 RAG 推理 |
| 69 | VeriMoA: Mixture-of-Agents for Spec-to-HDL Generation | Agent | 多 Agent 框架辙�助 HDL 硬件代码生成 |
| 70 | BOOST: Bottleneck-Optimized Scalable Training for LoRA LLMs | 训练系统 | 低秩大模型的瓶颈优化可扩展训练 |
| 71 | SONAR: Benchmarking Topology in Decentralized Learning | 训练系统 | 去中心化学习的拓扑与协作基准 |
| 72 | VM NUMA Placement at Scale | 基础设施 | 大规模 NUMA 感知虚拟机放置学习 |
| 73 | SHIP: SRAM-Based Inference Pipelines | 推理服务 | SRAM 流水线快速 LLM 服务 |
| 74 | HipKittens: Fast AMD Kernels | 编译器 | AMD GPU 高性能 Kernel 框架 |
| 75 | RaidServe: High-performance Resilient Serving | 推理服务 | 高性能容灾 LLM 服务系统 |
| 76 | Beat the Long Tail: Distribution-Aware Speculative Decoding for RL Training | 投机解码 | 面向 RL 训练的分布感知投机解码 |
| 77 | db-SP: Dual-Balanced Sequence Parallelism for Visual Generative Models | 训练系统 | 视觉生成模型稀疏注意力加速 |
| 78 | When ML Isn't Sure: Resilient ML-Based Computer Systems | 基础设施 | 拥抱不确定性构建弹性 ML 计算机系统 |
| 79 | Cost-aware Duration Prediction for Software Upgrades | 基础设施 | 数据中心软件升级时长的代价感知预测 |
| 80 | Shannonic: Efficient Entropy-Optimal Compression | 压缩 | ML 负载的熵最优高效压缩 |
| 81 | FlexTrain | 训练系统 | 弹性资源混合并行 LLM 训练 |
| 82 | Toward Principled Safety Testing: Solving the Jailbreak Oracle Problem | 安全 | 越狱攻击的 Oracle 问题原则化安全测试 |
| 83 | Unleashing Scalable Context Parallelism (FCP) | 训练系统 | FCP 解锁基础模型预训练的上下文并行 |
| 84 | CRAFT: Cost-aware Expert Replica Allocation | MoE | 细粒度逐层 MoE 专家副本代价感知分配 |
| 85 | G-HEMP: Fast Multi-GPU Private Inference for GCNs with HE | 安全/隐私 | 同态加密下大规模 GCN 多 GPU 隐私推理 |
| 86 | RAGBoost: Efficient RAG with Accuracy-Preserving Context Reuse | RAG | 精度保持的 RAG 上下文复用加速 |
| 87 | StreamDiffusionV2 | 生成 | 动态交互视频生成的流式系统 |
| 88 | EarthSight: Distributed Low-Latency Satellite Intelligence | 边缘 | 低延迟卫星边缘 AI 分布式框架 |
| 89 | GhostServe: Lightweight Checkpointing for Fault-Tolerant LLM Serving | 推理服务 | 影子检查点轻量级容错 LLM 服务 |
| 90 | MixLLM: Mixed-precision LLM Quantization | 量化 | 输出特征级全局混合精度量化 |
| 91 | FLoRIST: SVD Thresholding for Federated Fine-Tuning | 联邦学习 | 奇异值阈值化的高效准确联邦微调 |
| 92 | DriftBench: Measuring and Predicting Infrastructure Drift | 基础设施 | LLM 服务系统基础设施漂移测量与预测 |
| 93 | Grolar: Efficient LLM Training on Heterogeneous Clusters | 训练系统 | 异构集群高效 LLM 训练 |
| 94 | Flashlight: PyTorch Compiler Extensions for Attention Variants | 编译器 | PyTorch 编译器扩展加速注意力变体 |
| 95 | DreamDDP | 训练系统 | 低带宽跨地域 LLM 训练逐层部分同步 |
| 96 | Locality-Aware Beam Scheduling for Test-Time Compute | 推理服务 | 消费级 GPU 的局部感知 Beam 调度测试时计算 |
| 97 | OPKV: High-Throughput Plugin-Driven Recallable Sparsity in Paged KV Cache | KV Cache | 分页 KV Cache 可召回稀疏插件框架 |
| 98 | SuperInfer | 推理服务 | 超级芯片上的 SLO 感知轮转调度 |
| 99 | Breaking the Ice: Cold Start in vLLM | 推理服务 | vLLM 冷启动延迟分析 |
| 100 | BatchLLM | 推理服务 | 全局 Prefix 共享 + 吞吐导向批处理 |
| 101 | ExecuTorch: Unified PyTorch Mobile/On-Device ML | 端侧 | Meta 统一端侧 PyTorch ML 解决方案 |
| 102 | Rethinking DVFS for Mobile LLMs | 端侧 | 移动端 LLM 统一能效感知 DVFS 调度 |
| 103 | TokenBlend: Accelerating TP LLM Inference via Compute-Communication Overlap | 推理服务 | 张量并行 LLM 推理计算通信重叠 |
| 104 | Matrix: Peer-to-Peer Multi-Agent Synthetic Data Generation | Agent | 多 Agent 点对点合成数据生成框架 |
| 105 | Parrot: Persuasion and Agreement Robustness Rating | 安全 | LLM 输出真实性的说服与一致性鲁棒性评级 |
| 106 | Kitty: 2-bit KV Cache Quantization | 量化 | 动态通道精度提升的 2-bit KV Cache |
| 107 | FlexScale: High-Performance FSDP at Scale | 训练系统 | 灵活高性能大规模 FSDP |
| 108 | HetRL | 训练系统 | 异构环境 LLM 强化学习 |
| 109 | Massive-Scale Out-Of-Core UMAP on GPU | 数据处理 | 超大规模 GPU 外存 UMAP 降维 |
| 110 | HexiScale: LLM Training over Heterogeneous Hardware | 训练系统 | 异构硬件大模型训练 |
| 111 | BOute: Cost-Efficient LLM Serving with Heterogeneous LLMs/GPUs | 推理服务 | 多目标贝叶斯优化异构 LLM/GPU 服务 |
| 112 | MAC-Attention: Match-Amend-Complete Attention | 推理服务 | 快速精准注意力的匹配-修正-补全机制 |
| 113 | Sparing Strategies for Large Training Jobs | 基础设施 | 最小化大训练任务可靠性影响的冗余策略 |
| 114 | Speculative Decoding: Performance or Illusion? | 投机解码 | 投机解码真实收益的系统评估 |
| 115 | NexSpec: Speculative Decoding in RL Systems | 投机解码 | 强化学习系统中的投机解码优化 |
| 116 | Optimizing Deployment Configurations for LLM Inference | 推理服务 | Meta 大规模 LLM 推理部署配置优化 |
| 117 | Demystifying MoE Serving Tax | MoE | MoE 服务额外开销量化分析 |
| 118 | Flash3DGS: Algorithm and System Co-Optimization for 3DGS on GPUs | 特定场景 | GPU 3D 高斯泼溅算法系统协同优化 |
| 119 | SAKURAONE: Open Ethernet-Based AI HPC System | 硬件 | 以太网 AI HPC 系统及其负载动态分析 |
| 120 | CSLE: RL Platform for Autonomous Security Management | 安全 | 自主安全管理的强化学习平台 |
| 121 | Dataflow Is All You Need | 编译器 | 数据流为核心的 ML 系统编译框架 |
| 122 | OSWorld-Human | Agent | 计算机使用 Agent 效率基准 |
| 123 | LEANN: Low-Storage Overhead Vector Index | 存储 | 低存储开销向量索引 |
| 124 | The OpenHands Software Agent SDK | Agent | 生产级 Agent 可组合可扩展基础 |
| 125 | FlashAgents | Agent | 流式 Prefill 重叠加速多 Agent 系统 |
| 126 | FaaScale: Fast LLM Scaling for Serverless Inference | 推理服务 | Serverless 推理的快速 LLM 扩展 |
| 127 | Charon: Unified Simulator for Large-Scale LLM Training and Inference | 基础设施 | 大规模 LLM 训推统一细粒度模拟器 |
| 128 | Hawkeye: Reproducing GPU-Level Non-Determinism | 基础设施 | GPU 级不确定性复现与调试工具 |
| 129 | FarSkip-Collectives: Unhobbling Blocking Communication in MoE | 训练系统 | 解除 MoE 阻塞集合通信限制 |
| 130 | MLCommons Chakra: Performance Benchmarking with Execution Traces | 基准测试 | 基于标准执行 Trace 的 ML 性能基准与协同设计 |
| 131 | TriInfer: Hybrid EPD Disaggregation for Multimodal LLMs | 推理服务 | 多模态 LLM 三阶段混合分离推理 |
| 132 | A Lightweight High-Throughput Collective-Capable NoC for Large-Scale ML Accelerators | 硬件 | 大规模 ML 加速器高吞吐片上网络 |
| 133 | GriNNder: Breaking Memory Capacity Wall in GNN Training with Storage Offloading | 训练系统 | 存储卸载突破全图 GNN 讙�练显存墙 |
| 134 | Efficient VRAM-Constrained xLM Inference on Clients | 端侧 | 客户端 VRAM 约束下的跨语言模型推理 |
| 135 | Attribution-based Sparse Activation in LLMs | 推理服务 | 基于归因的 LLM 稀疏激活 |
推理分离架构全面落地,FP8/FP4 成行业标配
Prefill-Decode 分离部署进入主流云服务;FlashAttention-4 推动各框架默认 Attention 实现更新;FP8 训练与推理在主流 GPU 平台标准化;MoE 成为新发布大模型的默认架构,对应服务系统随之成熟。
Agent OS 雏形出现,百万 Token 上下文成工程常态
Agent 记忆、工具调用、安全沙箱在主流框架(如 OpenHands)中统一;1M+ Token 的推理服务借助 FCP/稀疏注意力/流式 Prefill 可商业化部署;2-bit KV Cache 量化走向生产;RL 训练系统与预训练系统在框架层面统一。
异构 AI 算力云成为主流,编译器智能化飞跃
跨厂商 GPU/TPU/定制 ASIC 的统一训推平台成熟;CATWILD/WAVE 类自动调优编译器集成到主要 MLOps 平台;Agentic Operator Generation 工具链进入 ASIC 研发标准流程;Serverless LLM 推理(FaaScale)成为云原生 AI 的主流交付模式。
隐私计算与可信 AI 成为企业 AI 基础设施必选项
同态加密推理(G-HEMP)从研究走向实用;零知识遗忘(ZK-APEX)应对 GDPR 等合规需求;GPU 机密计算(Blueprint)成为云端 AI 服务的 SLA 一部分;Agentic AI 的安全检测系统(ADS 类)内置于主流 Agent 平台;MLCommons Chakra 类标准执行 Trace 推动 AI 硬件互操作性。
推理系统研究已超越传统 CV/NLP 系统
本届约 48% 的论文聚焦 LLM 推理,是过去 MLSys 各届会议中占比最高的一次,标志着 LLM 已从算法研究客体转变为系统研究的"新主机"。
顶级工业界主导研究议题
Google(CATWILD、ML Fleet、XProf)、Apple(AXLearn)、Meta(ExecuTorch、Agentic Operator Generation、Optimizing Deployment)、NVIDIA(NVFP4)等主导了大量高影响力论文,产学研边界继续模糊化。
投机解砙�的"祛魅"时刻
"Speculative Decoding: Performance or Illusion?" 与 "Beyond the Buzz" 等论文开始对此前被过度热炒的技术路线进行理性审视,MLSys 研究社区正在走向更成熟的工程化批判思维。
系统研究与算法研究的耦合度史上最高
本届大量论文同时贡献算法创新与系统实现(FlashAttention-4、BLASST、MAC-Attention、MTraining),纯系统工程论文比例下降,"算法-系统协同设计"已成第一原则。
端侧与 Serverless AI 形成新战场
ExecuTorch、AIRS、VRAM-Constrained xLM Inference、FaaScale、Rethinking DVFS for Mobile LLMs 等论文体现出推理战场向边缘延伸的强烈趋势,算力碎片化驱动系统设计多元化。
基准与可观测性研究补齐工具链缺口
MLCommons Chakra、XProf、DriftBench、OSWorld-Human、LLMInfer-Bench 等专门讨论评测与可观测性的论文数量增加,反映出行业对"如何度量 AI 系统"的重视程度显著上升。