AI DAILY · 2026-05-05 · 周二
AI 日报 / 2026 年 05 月 05 日
今日收录 79 条,覆盖大模型、Agent、训练推理、机器人、多模态、投融资等核心方向
$266亿
Cerebras 向 SEC 提交更新招股书,IPO 目标估值 266 亿美元,与 OpenAI 签超 200 亿美元算力协议
双雄打擂台
Anthropic 与 OpenAI 同日宣布成立企业 AI 合资企业,Blackstone/高盛 vs TPG/贝恩,估值 15 亿 vs 100 亿美元
GPT-5.5 网安
AI Security Institute 评估显示 GPT-5.5 在 multi-step 网络攻防中 11 分钟完成人类专家 12 小时任务,成本仅 $1.73
CTO 转身
Workday、You.com、Box 等百亿公司 CTO 纷纷离职加入 Anthropic 担任工程师,AI 人才争夺进入新阶段
TSP 2.6x
Zyphra 发布张量序列并行(TSP)技术,将 TP+SP 折叠到同一设备轴,在 1024 台 AMD MI300X 上实现 2.6 倍吞吐量提升
OpenAI 语音架构
OpenAI 公布低延迟语音 AI 大规模部署方案,9 亿周活用户,采用 Relay + Transceiver 架构解决 WebRTC 端口耗尽问题
大模型
2 条
Sam Altman 曾讨论拆分 OpenAI 机器人与硬件部门
据《华尔街日报》报道,Sam Altman 在 2025 年底曾讨论将 OpenAI 的机器人和消费硬件部门分拆出去,以给它们更多成长空间,但该计划最终被否决。这一消息在 OpenAI 备战 IPO 的关键时期浮出水面。
OpenAI机器人硬件拆分IPO
Claude 4.7 中文 Token 成本争议
Claude 4.7 发布后用户抱怨成本翻倍。开发者用 22 段中英平行文本横向对比 5 个 tokenizer(Claude 4.6/4.7、GPT-4o、Qwen 3.5、DeepSeek-V3),发现中文 Token 成本并非简单优化,背后与训练数据分布、tokenizer 设计语言偏好直接相关。
Claudetokenizer中文成本GPT-4o
训练推理
8 条
Zyphra 发布 TSP:张量序列并行实现 2.6 倍吞吐量提升
Zyphra 发布张量与序列并行(TSP)技术,将传统 TP+SP 折叠到同一设备轴上,在 1024 台 AMD MI300X GPU 上实现 173M tokens/秒吞吐量,相比匹配基线提升 2 倍。128K 长度下内存仅为传统方案的 27%-45%。
ZyphraTSP并行MI300XAMD
中国 AI 推理算力首超训练算力
行业报告显示,2026 年 Q1 中国 AI 推理算力占比达 52%,首次超过训练算力的 48%,标志产业从"训练驱动"转向"推理驱动"拐点。日均 Token 调用量超 140 万亿,较 2024 年初增长 1000 倍以上。
推理训练算力中国Token
2026 大模型推理框架终极选型指南发布
vLLM、TensorRT-LLM、SGLang、LMDeploy、oMLX、Ollama、MLC LLM 七大框架全面对决,从硬件平台到业务场景、从性能数据到实战案例,为开发者提供推理框架选型参考。
vLLMSGLang推理框架TensorRT部署
LlamaIndex CEO:AI 脚手架层正在坍塌
LlamaIndex CEO Jerry Liu 在 VentureBeat 采访中表示,公司 95% 的代码已由 AI 生成,AI 技术栈正在精简,"上下文(context)"将成为唯一的竞争壁垒。传统 AI 开发框架面临重新定位。
LlamaIndex脚手架AI生成上下文框架
Salesforce 推出 Agentforce Operations
Salesforce 推出 Agentforce Operations 平台,将后台工作流拆解为适合 AI 代理执行的任务。大多数企业流程从未为 AI 设计,新平台帮助企业重新设计工作流以适配 Agentic 自动化。
SalesforceAgentforce企业AI工作流VentureBeat
DORA 异步RL系统:8.2倍rollout加速
DORA 异步 RL 系统解决 rollout skew(多个实时策略版本)问题,实现高达 8.2x rollout 加速和 2.12x 端到端吞吐量提升,为大规模 RL 训练提供工程解。
DORARL异步吞吐量训练
NorMuOn 优化器刷新 modded-NanoGPT 基准纪录
NorMuOn 优化器将 modded-NanoGPT 优化基准推进到 3250 steps,展现非传统优化器在训练效率上的持续突破。
NorMuOn优化器NanoGPT训练benchmark
Meta FAIR Autodata:代理化数据生成
Meta FAIR 发布 Autodata,一个代理化数据科学家,用于创建判别性训练/评估样本。在 CS 研究 QA 任务上,代理化自指令循环相比标准 CoT 自指令产生 34 分差距(vs 1.9 分),说明编排化数据生成能产生更难、更有用的样本。
AutodataMeta数据生成RL合成数据
Agent
14 条
Agent Skills:Addy Osmani 的 AI 编程代理技能框架
Google 工程师 Addy Osmani 发布 Agent Skills 框架,获得 26K+ GitHub stars。核心创新是"反合理化表格"——预设代理可能跳过工作流程的借口并配以反驳。包含 6 阶段 SDLC(spec→plan→build→test→review→ship),将高级工程师流程编码为代理不可绕过的规则。
AgentClaude Code工程实践SDLCAddy Osmani
Ruflo:Claude Agent 编排平台登顶 GitHub Trending
Ruflo 以单日 +2598 stars 登顶 GitHub Trending,这是一个领先的多智能体编排平台,支持自主工作流、RAG 集成和 Claude Code/Codex 原生集成。9 个上榜项目中 6 个围绕 Claude 生态构建。
RufloClaude编排GitHub Trending多智能体
Microsoft Agent 365 正式发布
Microsoft Agent 365 正式 GA,作为统一控制平台帮助企业 IT 和安全团队监控、治理和保护 AI 代理。覆盖 Microsoft 生态、AWS Bedrock、Google Cloud,包含影子 AI 管理、运行时阻止和警报。定价 $15/用户/月。
MicrosoftAgent 365治理企业安全
Sierra 融资 9.5 亿美元定义企业 AI 客户体验标准
Bret Taylor(OpenAI 董事长、前 Salesforce 联合 CEO)创办的 Sierra 完成 9.5 亿美元 E 轮融资,Tiger Global 和 GV 领投,投后估值超 150 亿美元。40% 财富 50 强已是客户,4 月推出 Ghostwriter 代理构建工具。
SierraBret Taylor融资企业AI$15B
Anthropic 与 OpenAI 同日宣布企业合资企业
Anthropic 联合 Blackstone、Hellman & Friedman、高盛成立 $15 亿估值合资企业;OpenAI 数小时前宣布"The Development Company",联合 TPG、Brookfield 等募资 40 亿美元,估值 $100 亿。双方均采用 Palantir 式前沿部署工程师模式。
AnthropicOpenAI合资Blackstone企业AI
TradingAgents:多智能体 LLM 金融交易框架
TauricResearch 的 TradingAgents 以单日 +2182 stars 跻身 GitHub Trending 前三。该框架利用多智能体 LLM 系统进行金融交易,协调多个 AI 智能体完成市场分析和交易执行。
TradingAgents金融多智能体LLMGitHub
DeepClaude:Claude Code + DeepSeek V4 Pro 成本降 17 倍
开发者开源 DeepClaude 项目,将 Claude Code agent 循环与 DeepSeek V4 Pro 结合,实现 17 倍成本降低。DeepSeek V4 Pro 在 LiveCodeBench 得分 96.4%,每百万输出 token 约 $0.87(对比 Anthropic 的 $15)。
DeepClaudeClaude CodeDeepSeek V4成本HN
Hermes Agent Kanban:可视化多智能体协作
Teknium 发布 Hermes Agent Kanban,为多智能体协作提供可视化看板界面,让代理任务分配和进度可观测。同日还有西班牙语"war room"UI 基于 Hermes 编排的实现展示。
HermesKanban多智能体可视化Teknium
deepagents/LangGraph 重大更新
LangChain 团队发布 deepagents/LangGraph 多项改进:模型特定 harness 配置的 profiles、schema migrations、节点级错误处理器、timeout 机制、新 streaming primitives,大幅提升 agent 框架的工程可用性。
LangGraphdeepagentsLangChain框架streaming
PyFlue:Python 版 Agent Harness
PyFlue 将"agent harness"概念扩展到 Python 生态,明确将 harness 定位为原始模型调用和持久化 agent 之间的缺失层,推动模型无关的 agent 工程。
PyFluePythonharnessagent框架开源
模型无关编排:open models + open harnesses
多个推文强调下一波 AI 工程是"开放模型 + 开放 harnesses"而非绑定单一前端 API。通过在良好 harness 内调优开放模型可实现 >20x cheaper agents;deepagents-cli 正成为 Kimi、Qwen、GLM、Ollama 等的强编码 harness。
模型无关open harness成本多模型编排
Codex Security Plugin:5个AppSec工作流
Codex 推出 Security Plugin,涵盖威胁建模、漏洞发现、验证和攻击路径分析等 5 个 AppSec 工作流,将 AI 编码代理扩展到安全工程领域。
Codex安全AppSecplugin工作流
HiL-Bench:测试代理何时该问澄清问题
Scale AI Labs 引入 HiL-Bench,旨在测试 agent 是否知道何时规格不完整、何时该问澄清问题,推动 agent 评估从"答对题"向"知道该问什么"演进。
HiL-Bench评估agent澄清问题Scale AI
MathArena:持续维护的评估平台
MathArena 作为一个持续维护的评估平台而非静态 benchmark,反映 AI 评估工程从一次性 benchmark 向可持续评估基础设施的转变。
MathArena评估benchmark持续维护数学
基础设施
7 条
Cerebras IPO 更新:目标估值 266 亿美元
Cerebras 向 SEC 提交更新招股书,计划以 115-125 美元发行 2800 万股,募资最高 35 亿美元。与 OpenAI 签署超 200 亿美元算力协议(2028 年前提供 750MW 算力),OpenAI 同时提供 10 亿美元贷款和最多 3340 万股认股权证。
CerebrasIPO$266亿WSE-3OpenAI
Lattice 半导体 16.5 亿美元收购 AMI
Lattice Semiconductor(LSCC)宣布以 16.5 亿美元现金和股票收购平台固件公司 AMI(THL Partners),旨在扩展 AI、服务器和云应用领域。Lattice Q1 营收同比增长 42%,市值超 170 亿美元。
LatticeAMI$16.5亿收购固件
OpenAI 公布大规模语音 AI 基础设施架构
OpenAI 工程团队公布面向 9 亿周活用户的低延迟语音 AI 部署方案:采用 Relay + Transceiver 架构,利用 ICE ufrag 进行首包路由,Go 语言实现基于 Pion WebRTC 库,SO_REUSEPORT + LockOSThread 优化,无需暴露数千 UDP 端口。
OpenAIWebRTC语音基础设施Go
AMD MI400 系列 AI 加速器 2026 下半年发布
S&P Global 报道 AMD 即将推出 MI400 系列 AI 加速器,分析师预计将推动数据中心收入大幅增长。AMD 下一代芯片将加剧与 NVIDIA 在 AI 训练和推理市场的竞争。
AMDMI400数据中心AI芯片NVIDIA
阿里平头哥发布首款智能网卡"磐脉920"
在数字中国峰会上,阿里平头哥发布国内首个内置 PCIe Switch 的 400G 智能网卡"磐脉920",最大支持 400Gbps 吞吐带宽,可应用于万卡智算集群。已量产并首先在阿里云数据中心部署。
阿里磐脉920智能网卡400G平头哥
DeepSeek V4 全面迁移至华为昇腾 CANN
DeepSeek V4 成为全球首个完全运行在华为昇腾 950PR 芯片上的顶级大模型,标志着中国 AI 算力自主化的关键突破。昇腾 950PR 作为 2026 年量产的推理专用芯片,支持 FP4 精度。
DeepSeek V4华为昇腾CAN国产化
Karpathy MicroGPT 在 FPGA 上实现 50,000 tps
MicroGPT 在 FPGA 上实现 50,000 tokens/秒推理速度,仅用 4,192 参数,利用板载 ROM 存储权重。当前 FPGA 可处理多达 20-30 million 参数(16-bit),为 SLM 专用硬件加速提供思路。
MicroGPTFPGA推理速度KarpathySLM
机器人
5 条
清华 AIR 发布 GS-Playground 具身智能仿真框架
清华大学智能产业研究院 DISCOVER Lab 联合多家机构发布 GS-Playground 通用多模态仿真框架,首次实现高吞吐量并行物理仿真与高保真视觉渲染的深度融合。论文被 RSS 2026 录用,Franka Panda 动态抓取测试实现 90/90 成功保持率。
清华AIR具身智能仿真GS-PlaygroundRSS 2026
Meta 收购机器人创业公司加强人形 AI 布局
据 TechCrunch 报道,Meta 收购了一家机器人初创公司以"加强其在人形 AI 领域的雄心"。被收购公司名称和交易金额未公开,但市场普遍认为这是 Meta 从元宇宙转向具身智能赛道的重要信号。
Meta机器人收购人形AI具身智能
Sam Altman 分拆机器人部门计划被否决
《华尔街日报》报道,Sam Altman 在 2025 年底曾讨论将 OpenAI 机器人部门分拆以给予更大成长空间,但计划被否决。在 Tesla Optimus、Figure AI 和 Meta 同时押注机器人的背景下,OpenAI 的机器人战略方向引发关注。
OpenAI机器人拆分Sam AltmanTesla
具身智能成 2026 政府工作报告新增长引擎
2026 年政府工作报告明确提出建立未来产业投入增长机制,具身智能、未来能源、量子技术、脑机接口等被列为重点方向,机器人赛道迎来政策强力催化。
具身智能政策政府工作报告机器人未来产业
国产机器人融资潮持续:多家具身智能企业获新一轮投资
春节后国内具身智能领域出现多起大额融资,多家机器人企业宣布新一轮融资进展,产业 momentum 持续增强,中国机器人企业加速商业化落地。
融资具身智能国产化商业化机器人
多模态
8 条
阿里 HappyHorse 视频生成模型 5 月商用
阿里 ATH 旗下 AI 视频生成大模型 HappyHorse-1.0 在 Artificial Analysis 的 AI Video Arena 排行榜登顶,超越字节跳动等竞争对手。4 月 27 日启动企业级 API 邀测,计划 5 月正式商用。
阿里HappyHorse视频生成AI Video Arena商用
图像 AI 模型成为应用增长驱动力
TechCrunch 报道,图像 AI 模型已成为推动应用增长的主要动力,表现超越了聊天机器人升级带来的效果。这标志着 AI 应用市场正从文本交互向视觉内容生成转型。
图像AI应用增长AIGCTechCrunch视觉
Apple SHARP 模型移植到浏览器运行
开发者 bring-shrubbery 将 Apple 的 SHARP(Scene Hierarchy with Adaptive Representation)模型通过 ONNX Runtime Web 移植到浏览器环境,可在浏览器内创建 Gaussian Splats 3D 场景。这是苹果模型首次官方 Web 化尝试。
AppleSHARPONNX3D浏览器
AI 视频生成工具 2026 对比排行更新
最新 AI 视频生成工具对比排行涵盖 Veo 3.1、Kling 3.0、Seedance 2.0、Runway、Luma、HappyHorse 等主流平台。Sora 2、万相、可灵、Vidu 等中国产品也在横向测评中获得认可。
视频生成VeoKlingSoraRunway
xAI 发布 Grok 4.3 低价版 + 语音克隆套件
xAI 以极具竞争力的低价发布 Grok 4.3,同时推出全新高速语音克隆套件。公司押注市场更青睐专业化能力与极致成本效益,而非全能型通用模型。
xAIGrok 4.3语音克隆价格战模型
AI 应用增长主力:图像生成超越聊天机器人
最新行业数据显示,图像 AI 模型已成为推动移动应用 DAU 增长的第一驱动力,首次超越聊天机器人功能升级带来的效果。AIGC 应用市场正在从文本交互向视觉内容创作全面转型。
AIGC图像生成DAU应用增长视觉
SenseNova-U1:无VAE、无diffusion的原生多模态
原生支持多模态生成与理解,无需 VAE 或 diffusion。通过直接处理语义内容(而非 latents),擅长生成信息图和标注图。支持带推理的图像编辑,支持交错文本-图像生成,单次前向传播产生连贯输出。8B 参数,Apache 2.0 许可证。
SenseNova-U1多模态无VAE无diffusion8B
Z-Anime:基于 Z-Image Base 的动漫风格全微调
基于 Alibaba Z-Image Base 架构的全微调模型,专为动漫风格图像生成设计。采用 S3-DiT(Single-Stream Diffusion Transformer),60亿参数,强调丰富多样性、强可控性,支持完整负面提示。
Z-Anime动漫Z-ImageS3-DiT全微调
投融资
5 条
Sierra 完成 9.5 亿美元 E 轮融资
Bret Taylor 创办的 AI 客户体验平台 Sierra 完成 9.5 亿美元 E 轮融资,Tiger Global 和 GV 领投,Benchmark、Sequoia、Greenoaks 参投,投后估值 158 亿美元。ARR 从 1 亿美元(2025.11)增至 1.5 亿美元(2026.2)。
Sierra$9.5亿Tiger GlobalGVE轮
Cerebras IPO:募资最高 35 亿美元
Cerebras 提交更新版招股书,计划纳斯达克上市,发行价 115-125 美元,发行 2800 万股。若超额配售权全额行使,总募资可达 40.25 亿美元。承销团包括摩根士丹利、花旗、巴克莱、瑞银。CEO Andrew Feldman 不出售任何股票。
CerebrasIPO$35亿纳斯达克招股书
Anthropic 成立 $15 亿企业合资企业
Anthropic 联合 Blackstone、Hellman & Friedman、高盛成立合资企业,Anthropic 出资 3 亿美元,Blackstone 和 H&F 各出资 3 亿美元。红杉资本、General Atlantic、Apollo 等参投,采用 Palantir 式深度工程服务模式。
Anthropic$15亿Blackstone高盛合资
OpenAI 成立 $100 亿企业合资企业
OpenAI 成立"The Development Company",联合 TPG、Brookfield、Advent、Bain Capital 等 19 家投资方募资 40 亿美元,合资企业估值 100 亿美元。在 Anthropic 公告数小时前宣布,展现双方在企业 AI 市场的直接竞争。
OpenAI$100亿TPGBain Capital合资
Lattice 16.5 亿美元收购 AMI
Lattice Semiconductor 以 16.5 亿美元收购 THL Partners 旗下的 AMI,扩展在 AI 服务器和云基础设施的固件管理能力。Lattice 受益于 AI 芯片需求爆发,Q1 营收同比增长 42%。
Lattice$16.5亿AMI收购固件
行业
14 条
科罗拉多州推出精简版 AI 反歧视法案
随着科罗拉多州科技领袖表示繁重的监管法规正在驱赶企业离开,立法者推出精简版 AI 反歧视法案。这是美国各州 AI 监管立法博弈的最新缩影。
AI监管科罗拉多反歧视立法美国
伟大抽象的隐藏代价:降低门槛可能损害软件质量
HN 热帖讨论现代计算中抽象的悖论性质——虽然抽象旨在解放开发者,但往往导致对技术理解保真度的显著下降。这一讨论在 AI 编程工具大规模普及的背景下引发共鸣。
抽象软件质量HN工程文化AI编程
哈佛研究发现 AI 急诊诊断超越人类医生
哈佛大学研究评估大语言模型在真实急诊室场景中的表现,结果显示至少一个 AI 模型在诊断准确率上高于人类医生。研究在 HN 引发热议,涉及 AI 医疗落地中的责任制和监管问题。
哈佛AI医疗急诊诊断研究
苹果意外打包 Claude.md 配置文件泄露内部 AI 使用
苹果官方 App 被曝误将内部使用的 Claude.md 配置文件打包发布,文件详细描述了项目架构、构建规范和避雷指南,等于自曝苹果正用 Claude Code 构建生产级应用。事故后 24 小时内紧急撤回。
AppleClaudeClaude.md泄露生产级
Musk 发威胁短信给 Altman 与 Brockman 后寻求和解
OpenAI 在庭审中披露,Elon Musk 在寻求和解后,向 Greg Brockman 和 Sam Altman 发送了措辞不祥的短信。Musk 是唯一专家证人,其关于 AGI 军备竞赛的担忧也在庭审中成为焦点。
MuskOpenAI庭审和解协议AGI
DoorDash 引入 AI 工具加速商家入驻与菜品图编辑
DoorDash 上线 AI 工具,自动加速商家入驻流程,并支持对菜品照片进行智能编辑。这是 AI 渗透本地生活服务平台的又一案例。
DoorDashAI工具商家入驻图像编辑生活服务
Amex 构建代理商务栈:意图合约与一次性令牌
VentureBeat 报道美国运通正在构建一套允许 AI 代理代替用户购物和支付的 Agentic Commerce 系统,采用意图合约(Intent Contracts)和一次性令牌机制,但目前仅限于其自有支付网络内运行。
AmexAI代理支付意图合约Commerce
Microsoft Edge 明文存储所有密码引发安全争议
HN 热帖(427 分,152 评论)曝光 Microsoft Edge 即使在密码未使用时也以明文存储在内存中,引发用户对浏览器安全性的广泛质疑。
Microsoft Edge密码安全隐私HN
递归自我改进时间线:60% by end-2028
jackclarkSF 估算到 2028 年底 AI 系统自主构建后继者的概率达 60%,引发广泛讨论。Goodside 和 Ryan Greenblatt 讨论该预测的操作化定义是否足够严格。
递归改进时间线2028安全预测
Hugging Face 模型可视化工具 hfviewer 走红
hfviewer.com 可交互式查看 Hugging Face 模型架构,生成从输入到输出的完整流程图,支持颗粒度调节,对理解 Qwen3 MoE 等复杂模型结构尤其有帮助。
Hugging Face可视化模型架构工具开源
Gemma 4 GGUF 更新:修复 chat template
Gemma 4 GGUF 模型更新,修复 chat template 问题。更新版本在 Hugging Face 的 bartowski 和 unsloth 账号下提供,配置包括 31B、26B-A4B、E4B、E2B,llama.cpp 可用 --chat-template-file 指定 Jinja 模板。
Gemma 4GGUFchat templatellama.cpp更新
Qwen3.6-27B vs Coder-Next 详细对比
RTX PRO 6000 GPU 上的详细对比测试显示:两者性能接近,Qwen3.6-27B 在禁用"thinking"后输出更一致,Coder-Next 在特定任务上成本效率更优。讨论强调量化级别和上下文大小对性能评估的重要性。
Qwen3.6Coder-Next对比量化GPU
GPT-5.5 网络攻防模拟超越人类专家
AI Security Institute 评估显示 GPT-5.5 在 multi-step 网络攻击模拟中 11 分钟完成人类专家需 12 小时的任务,成本仅 $1.73。NCSC 同步发文讨论前沿 AI 对网络防御的影响。
GPT-5.5网络安全AISI基准成本
AI 图像生成:首图惊艳、后续质量下降
用户反馈显示 AI 图像生成首图效果惊艳,但后续图像质量明显下降,出现"weird texture thing"。同时 AI 生成内容中时空事实性错误(如 2050年6月14日是周二却被标为周四)引发关注。
图像生成质量下降事实性AI缺陷用户体验