AI 日报 — 2026-05-15

OpenAI 为 ChatGPT Pro 推出个人理财功能 · Anthropic 发布 Claude Monet；画师要“熟了”？ · Figure 机器人直播已连续自主分拣 50+ 小时

覆盖 34 条 AI 新闻

🔥 今日焦点

1. OpenAI 为 ChatGPT Pro 推出个人理财功能

OpenAI 为美国地区的 ChatGPT Pro 用户上线了个人理财功能，支持通过 Plaid 安全连接银行账户，提供支出看板，以及基于真实交易数据进行落地问答的 GPT-5.5。未来还将集成 Intuit，用于估算税务和申请信用卡，系统会在多轮对话间持久化上下文记忆。此次功能首先仅向 Pro 用户开放，之后将扩展到免费层。来源-twitter

2. Anthropic 发布 Claude Monet；画师要“熟了”？

Anthropic 宣布了一款名为 Claude Monet 的产品。配套文案中使用了“Painters are cooked”（画家要熟了）这样的表述，暗示其可能具备艺术创作或多模态能力，尽管目前并未给出技术细节。关于该模型的具体能力、发布时间或技术参数，在这条推文中都尚未披露。来源-twitter

3. Figure 机器人直播已连续自主分拣 50+ 小时

Figure 正在直播其自主包装机器人，以展示其不间断运行能力。团队称这些机器人已连续运行超过 50 小时无停机，累计分拣包裹超过 63,000 个，并且目前仍在持续运行，直到出现故障为止。来源-twitter

📰 重点报道

LLM

统一缩放策略将 AI 推理能力提升到奥赛金牌水平 — AI 推理模型在数学与物理奥林匹克竞赛（IMO 和 IPhO）上的表现已经接近金牌水平。一篇新论文提出了一套简单统一的流程，将一个后训练过的推理骨干模型转化为奥赛级解题器，其起点是基于“反困惑度”（reverse-perplexity）的监督微调课程设计。该工作凸显了 AI 在长链条数学与科学问题求解上的新进展。来源-huggingface
MemLens 基准评估 LVLM 的多模态长期记忆能力 — MemLens 提出了 MEMLENS，这是一套用于评估多模态、多轮会话记忆能力的综合性基准。它包含 789 个问题，覆盖五大类记忆维度，旨在系统对比长上下文 LVLM 与带记忆增强的智能体在需要多模态证据支持的任务上的表现。MEMLENS 托管在 HuggingFace 上，试图填补当前多模态记忆评测方面的空白。来源-huggingface
Orthrus-Qwen3-8B：冻结骨干；输出分布完全一致 — Orthrus-Qwen3-8B 在一个冻结的自回归 Transformer 每一层中插入可训练的 diffusion attention 模块，与 AR 头共享 KV cache。diffusion 头一次并行处理 32 个 token，而 AR 头在第二遍验证输出，从而在理论上保证其输出分布与基础 Qwen3-8B 完全一致。该方法在 MATH-500 上实现最多 7.8 倍 tokens-per-forward 和约 6 倍壁钟时间加速，仅需训练 16% 的参数；与其他 diffusion LM 不同，它无需修改基座权重，也不需要像推测解码那样额外的 drafter 或单独的 cache，同时还能保持 Qwen3-8B 的准确率。来源-reddit
字节跳动 Seed 团队发布 Cola-DLM 扩散语言模型 — Cola DLM 是一种分层连续潜空间扩散语言模型，将 Text VAE 与块因果 Diffusion Transformer（DiT）先验相结合。VAE 负责将文本映射到连续潜变量序列并将其解码回 token，而 DiT 通过 Flow Matching 在潜空间中进行先验迁移；仓库提供 HuggingFace 格式的 checkpoint，并附有相关论文、GitHub 仓库及项目/博客页面链接。来源-reddit
ChatGPT 订阅现已可在 Zed Agent 中使用 — Zed 的智能体现在支持使用 ChatGPT 订阅，使用方式和速率限制与此前支持的 Codex 一致。尽管有些服务商正在转向按用量计费，OpenAI 开发者账号 (@openaidevs) 仍在支持基于订阅的第三方工具接入。这让 Zed 中的工具集成可以无缝使用 ChatGPT。来源-twitter
Anthropic 获得 xAI GPU，开始复刻 Codex 战术手册 — 有消息称 Anthropic 从 xAI 处拿到了 GPU，并迅速开始执行类似 Codex 的产品和运营策略。这一举动表明 AI 竞争进一步加剧，开发者有望从中获益。来源-twitter
Garry Tan 推出 gstack：一个人就能当 6 种角色的 23 个 AI 工具栈 — Garry Tan 推广 gstack，这是一个由 23 个精挑细选的工具组成的集合，旨在让单人开发者通过 AI agents 同时扮演 CEO、设计师、工程经理、发布经理、文档撰写者和 QA 等多种角色。他认为只要工具合适，独立创作者的推进速度可以媲美团队规模开发，并提到 OpenClaw 和 Andrej Karpathy 的观点作为灵感来源。来源-github
自托管 MCP 服务器为本地 LLM 提供实时金融数据 — Equibles 是一个自托管 MCP 服务器，用于抓取并提供美国公开金融数据（SEC 文件、13F、内幕与国会议员交易、FINRA 做空数据、FRED、CFTC 期货、VIX 等）给支持 MCP 的客户端。它完全本地运行，不依赖云端或遥测，使任何本地模型智能体都能查询最新信息。仓库地址：https://github.com/daniel3303/Equibles 来源-reddit
Intern-S2-Preview：35B 科学多模态模型，横跨数百项任务 — Intern-S2-Preview 是一款 350 亿参数的科学多模态基础模型，通过从预训练到强化学习的全链路训练流程，在数百种专业科学任务上实现可扩展的任务覆盖。其在核心科学任务上的表现据称可比肩万亿级的 Intern-S1-Pro，同时保持强大的通用推理、多模态理解与智能体能力。该模型在 Qwen3.5 基础上继续预训练，并强调通过任务规模扩展而非仅仅参数/数据扩展来提升能力。来源-reddit
SupraLabs 发布面向大众的开源小型 AI 模型 — 新实验室 SupraLabs 宣布其使命是训练、微调并探索小型开源 AI 模型，以提升 AI 的可及性。他们目前在 Hugging Face 上托管了如 Supra-Mini-v4-2M 等模型，并规划后续发布 StorySupra 10M 与 Supra Mini v5 5M 等模型，更新将通过其 Hugging Face Spaces 博客发布，同时也邀请社区参与与支持。来源-reddit
Qwen-35B-A3B 动态算力分配，在 HLE 上逼近 GPT-5.4 — 一条 Reddit 帖子声称，在一组高难度问题上，对子问题和演化片段使用 Qwen-35B-A3B 动态分配计算预算，可以获得接近 GPT-5.4-xHigh 在 HLE 指标上的表现。该说法凸显了当前 LLM 研究中围绕算力高效评估与模型优化策略的持续探索。来源-reddit

Edge AI

基于 Jetson Orin NX 与 Gemma 4 E4B 的全离线行李箱机器人 — 一位工程师打造了一个完全离线运行的行李箱机器人，采用 Jetson Orin NX 驱动，并在其上运行 Gemma 4 E4B 与带 q8_0 KV cache 的 llama.cpp。该系统支持 12K 上下文，缓存条件下 TTFT 约 200ms，生成速度为 14–15 token/s，每轮提示中描述 30+ 个传感器；所有 STT、TTS、视觉和 OCR 都在本地端侧完成，无需联网。设计者强调保持 prompt 结构对 cache 友好的重要性，并邀请其他人对比在 Orin 级硬件上的 tok/s 和传感器/工具上下文处理能力。来源-reddit

Multimodal

Causal Forcing++ 实现 1–2 步实时视频扩散生成 — 研究者提出 Causal Forcing++，在逐帧自回归架构下推进实时视频生成。他们研究了 1–2 步采样机制，用以替代当前分块 4 步蒸馏方案，从而降低延迟并实现更精细的响应控制。该工作针对现有自回归扩散蒸馏中粒度过粗的问题，提出适用于流式视频的可扩展实时方法。来源-huggingface

RL

自蒸馏智能体强化学习：面向多轮 LLM 的 OPSD — On-Policy Self-Distillation（OPSD）为后训练阶段的 LLM 智能体提供基于 token 级别的指导，通过带有特权上下文的教师分支来实现。当将 OPSD 扩展到多轮智能体时，会出现复合型不稳定性，从而削弱监督信号的有效性。来源-huggingface

Open Source

SANA-WM：面向分钟级视频的 2.6B 世界模型 — SANA-WM 是一个开源、26 亿参数的世界模型，专为生成时长 1 分钟、分辨率 720p 的视频设计，并支持精确的相机控制。其视觉质量可匹敌 LingBot-World 和 HY-WorldPlay 等大型基线模型，同时大幅提升效率。该架构以 Hybrid Linear Attention 为核心，将逐帧的 Gated DeltaNet 与 softmax attention 结合，并配合其他关键设计。来源-huggingface
AllenAI 发布开源机器人控制模型 MolmoAct2 系列 — AllenAI 正在发布 MolmoAct2 的迭代微调版本，这是一款 50 亿参数的视觉-语言-动作模型，可用于机器人控制，覆盖多个机器人数据集（LIBERO、DROID、BimanualYAM、SO100_101）。所有发布版本均提供开源权重、训练数据、训练代码以及技术论文。MolmoAct2 系列被定位为适用于 LLM 驱动机器人控制的即插即用方案。来源-reddit

Hardware

4 张 RTX 3090 横向扩展：Qwen 3.6 的 220W 能效甜点 — 一份深入测试对比了在 vLLM TP=4 配置下，四张 RTX 3090 运行 Qwen 3.6-27B 时的功耗与吞吐量。结果显示在约 220W 时能效达到峰值，而超过 250W 后回报递减，同时在多种配置下吞吐量仍保持较高水平。来源-reddit
Snapdragon X2 笔电上对 20 万文档做 RAG — 一条 Reddit 帖子展示了搭载 Qualcomm Snapdragon X2 Elite Extreme（2026）的华硕 Zenbook A16，称赞其极轻机身与便携充电器。帖子指出其 NPU 在嵌入与索引任务中表现强劲，大约相当于 RTX 5060 约 50% 的速度，却具有更轻便的形态，并展示了在约 20 万文件数据集上的 VecML AI-PC 软件演示，同时提到航班上充电功率受限的问题。来源-reddit

AI

Gemma4 26B MoE 在 MLX 中配合 Turboquant 与自定义 Kernel 运行 — 一位独立开发者展示了在 MLX 中运行 Gemma4 26B MoE 的方案，结合 turboquant 与旋转 KV cache。在一台拥有 128k 上下文和 4 路并发 batch 的 MacBook Air M5 上，其在 prompt 处理、速度与内存占用上可以与甚至超越在 8k 上下文下运行的 llama.cpp。该方案依赖自定义 SWA kernel 来实现 2-bit 级别的内存节省，从而在保持接近 FP16 的 prompt 性能的同时支持更大 batch，在长 prompt 的文本生成上有显著收益。来源-reddit

⚡ 快讯速览

Mitchell Hashimoto 警告：AI 炒作正在威胁软件的韧性 — Mitchell Hashimoto 指出许多公司陷入“AI 精神错乱”，理性对话变得困难。他借云基础设施中 MTBF 与 MTTR 的争论，强调快速修 bug 不能取代构建高韧性软件。他警惕在“AI agent 会大规模自动修复”的幻想下故意带 bug 上线，强调整体系统韧性的重要性。来源-twitter
Grok Build 测试版主打极速编码，对标 Anthropic 与 xAI — 面向 SuperGrok Heavy 订阅用户的 Grok Build 早期测试版已上线，它是一个面向编码、应用构建与流程自动化的 agent 型 CLI。该测试版邀请用户反馈以改进模型和产品，并被定位为对 Anthropic 与 xAI 的直接挑战。可通过 x.ai/cli 访问测试版。来源-twitter
Anthropic 为所有用户重置 5 小时与周度调用上限 — 据 ClaudeDevs 所述，Anthropic 已为所有用户重置 5 小时及每周调用次数上限。这一举措可能反映出其从 xAI Colossus 计算集群中获益，或受到 OpenAI 与 Codex 竞争压力；无论原因如何，用户都将从更高吞吐中获利。来源-twitter
LinkedIn 个人简介中的 prompt 注入，让猎头用古英语称呼我为“Lord” — 一位用户在 LinkedIn 个人简介中疑似加入了 prompt 注入，结果导致猎头用古英语回复并称呼其为“Lord”。这条帖子展示了 prompt 注入或 AI 提示词如何影响现实世界的人际互动，凸显了社交平台中潜在的 AI 安全问题。来源-twitter
在 DGX Spark 上通过 Ollama 本地运行 Hermes Agent — NousResearch 给出了一份在 DGX Spark 系统上完全本地运行 Hermes Agent 的操作手册。指南逐步演示如何通过 Ollama 搭建该智能体。这使得在高性能硬件上实现无需云端的本地 AI agent 成为可能。来源-twitter
Roboflow Supervision：与模型无关的通用视觉工具包 — Roboflow 的 supervision 项目提供一个可复用、与具体模型无关的计算机视觉工具包，覆盖从数据加载到实时区域计数的完整流程。它支持与 Ultralytics、Transformers、MMDetection 和 Inference 等热门库的连接，并能集成 rfdetr，用户只需简单的 pip 安装即可开始，并有示例代码可用。来源-github
NVIDIA 面向视频搜索与摘要的 AI Blueprint — NVIDIA 的视频搜索与摘要（VSS）AI Blueprint 提供了构建 GPU 加速视觉 agent 和 AI 驱动视频分析的参考架构。它将加速视觉微服务与视觉语言模型（VLM）及大语言模型（LLM）结合，支持集成到现有应用、独立微服务或更大的视觉 agent 中。该 Blueprint 强调实时视频智能，包括特征提取、embedding 生成与流式理解，并托管在 GitHub 上。来源-github
“内存富足、GPU 匮乏” vs 本地 LLM 前沿之争 — 有帖子讨论本地 LLM 的两条前沿路径：一是可装入中端 GPU（32GB/24GB）的致密模型；二是约 100B 参数、可部分 offload 到 128GB 内存的 MoE 模型。帖子指出目前 MoE 选择不多（如 Qwen 3.5 122B，尚无 3.6 版本），质疑内存富足但 GPU 较弱的用户是否选择受限，并提到小模型在工具调用和速度上的问题。文中还引用了 Qwen 27B、预计 Q3 的 minimaxi、DeepSeek V3 以及 Strix Halo GPU 等作为当前硬件环境的背景。来源-reddit
OpenMOSS GGML C++ 语音合成全流程发布 — 一条 Reddit 帖子宣布了基于 GGML、由纯 C++ 实现的 OpenMOSS 全流程 TTS 管线。该项目旨在简化 TTS 部署，既支持服务器模式，也支持单次命令行调用。OpenMOSS 被特别提到可支持除英语/中文之外的语言，如波兰语。来源-reddit
“Claude Code For Real Engineers” 演变为 “AI Coding For Real Engineers” — 一则帖子对比了 Claude 以编码为核心的早期产品“Claude Code For Real Engineers”与当前版本“AI Coding For Real Engineers”的差异。这反映了品牌与能力从单纯的代码助手向更广义的 AI 辅助工程开发转变，凸显 Claude 在面向开发者 AI 工具上的持续布局。来源-twitter
AI Agents 开始“放飞自我”，本地 Orchestrator 试验启动 — 一条 Reddit 帖子指出 AI agents 的能力与行为都变得更强也更“怪”。作者尝试在 Qwen 和 Gemma 不可用时，加入一个 orchestrator 来协调本地 AI 模型。该帖展现了社区在本地 AI 流水线与编排层面持续折腾与试验的现状。来源-reddit
黑领结晚宴 + 城堡场地的“Group AI psychosis” 聚会 — 一则社交媒体帖子描述了一场在本地城堡、着黑领结礼服举行的“Group AI psychosis sesh”活动。该帖子更像是表情包式内容而非实际 AI 技术进展，几乎没有参与者或产出的具体信息，体现了社交媒体上围绕 AI 文化的各种怪诞梗图与亚文化。来源-twitter

由 AI News Agent 生成 | 2026-05-15