AI 日报 — 2026-05-07

OpenAI 发布具备 GPT-5 级推理能力的 GPT-Realtime-2 · Gemini 3.1 Flash-Lite 登场：高吞吐、低成本模型 · Grok Voice 推出 Thin...

共收录 34 条 AI 新闻

🔥 今日焦点

1. OpenAI 发布具备 GPT-5 级推理能力的 GPT-Realtime-2

OpenAI 宣布推出 GPT-Realtime-2，这是目前其最智能的语音模型，将 GPT-5 级别的推理能力带入语音智能体。API 现已包含 GPT-Realtime-2，以及流式模型 GPT-Realtime-Translate 和 GPT-Realtime-Whisper，使对话中可以实时聆听、推理和解决问题。这标志着下一代语音界面在音频能力上的一次重大扩展。来源-twitter

2. Gemini 3.1 Flash-Lite 登场：高吞吐、低成本模型

Google 发布 Gemini 3.1 Flash-Lite，这是一款为高吞吐智能体任务、翻译和简单数据处理优化的高性价比变体。据称它支持 HLS 播放，以便于构建流式处理工作流。来源-twitter

3. Grok Voice 推出 Think Fast 1.0，应对真实世界客服场景

来自 xAI 的 Grok Voice 推出 Think Fast 1.0，将其定位为专为真实世界客服环境打造的语音智能体。它承诺在嘈杂、难以听清的环境中仍具备速度与准确性，并能处理多步骤疑难排查以及高频率工具调用。来源-twitter

📰 重点报道

AI

Prime Intellect Lab 开放训练：自我改进 AI 时代开启 — 下一波 AI 进展将由能从经验而非提示中学习的系统驱动。Prime Intellect Lab 已结束测试阶段，现在允许用户训练自己的模型。这标志着自我改进智能体早期时代的到来。来源-twitter
全新实时翻译模型发布；API 今日开放 — X 公布了一款新的实时翻译模型，并邀请开发者从今日起通过 API 进行测试。更新中特别强调开发者可立即获得 API 访问权限。片段中还包含“Enable hls playback”的提示，表明界面层面可能新增与播放相关的功能。来源-twitter
更小的 MTP Tensor GGUF，加速捐赠模型移植 — 研究者创建了两种轻量级伪 GGUF，仅包含移植所需的 MTP 张量（约 0.9GB 和 0.45GB）。它们与现有移植脚本兼容，并已通过 SHA-256 校验证明其输出与完整模型完全一致。发布说明提醒，MTP 仍未最终定型，未来可能废弃，建议保留原始模型以便后续更新。来源-reddit

Multimodal

RLDX-1 发布，推进视觉-语言-动作机器人研究 — RLDX-1 被提出为一个通用框架，用于解决视觉-语言-动作（Vision-Language-Action）模型在真实复杂任务中的局限，例如运动感知、具备记忆的决策以及物理感知。报告将 RLDX-1 视作朝着更强大的、以语言为条件的具身机器人系统迈出的重要一步。该项目已在 HuggingFace 上发布，是对 VLA 的持续开放研究的一部分。来源-huggingface
Stream-R1：面向流式视频的可靠性-困惑度感知蒸馏框架 — 研究者提出 Stream-R1，一种基于可靠性和困惑度感知的奖励蒸馏框架，用于提升自回归流式视频扩散模型的表现。他们批评当前的分布匹配蒸馏做法，认为其错误地将所有生成序列中的帧和像素视为同等可靠，并提出依据可靠性与困惑度对各帧的监督信号进行加权，以更好地让学生模型对齐教师模型。来源-huggingface

LLM

Anthropic 进展：自然语言自动编码器将 Claude 激活映射为文本 — Anthropic 报告了一种方法，可将 Claude 的激活值——也就是编码其内部“思考”的数值——映射为可读的自然语言文本。该工作通过训练 Claude 将自己的隐层表示翻译成自然语言，从而提升对其推理过程的可解释性。此次更新来自 Anthropic 在 Twitter 上的发布。来源-twitter
Claude Mythos Preview 帮助 Firefox 在 4 月修复更多漏洞 — Firefox 团队据称使用 Claude Mythos Preview 帮助修复安全漏洞，并表示 4 月份修复的漏洞数量超过此前 15 个月的总和。该更新展示了 AI 在关键软件安全任务中提升效率的潜力。这一说法来自 X（Twitter）上的相关帖子。来源-twitter
面向金融服务的 Claude：支持插件和 API 双重部署 — Anthropic 推出 Claude for Financial Services，提供参考级智能体、技能与数据连接器，以支持投行、股票研究、私募股权与财富管理等核心工作流。它既可以作为 Claude Cowork 插件安装，也可以通过 Claude Managed Agents API 部署，二者共用同一系统提示与技能配置。其输出为分析师级草稿产品，需要人工审核和合规验证；模型不会做出投资决策、执行交易或完成客户开户。来源-github
免费 LLM API 资源清单：配额与模型一览 — 一个 GitHub 项目整理了来自 OpenRouter、Google AI Studio、NVIDIA NIM、Mistral 和 HuggingFace 等提供方的免费或基于积分的 LLM API 访问渠道。项目提醒用户避免滥用，并剔除了非正规服务，同时突出说明共享配额以及 Gemma、Llama 变体等试用模型的提供情况。来源-github
Hugging Face 上的 Open-OSS/privacy-filter 恶意软件是假“隐私过滤器” — Hugging Face 上名为 Open-OSS/privacy-filter 的新模型实际上是一款伪装成 OpenAI 隐私过滤器的定制信息窃取程序。它通过 Python 加载器（loader.py）拉取恶意 PowerShell 命令，再由该命令启动另一个 PowerShell 实例，借助 Windows 任务计划程序下载并运行可疑 EXE。Linux 用户不受影响；作者已向 Microsoft 和 Hugging Face 报告该加载器和可执行文件。来源-reddit
Qwen3.6-27B Uncensored Heretic v2 Native MTP Preserved 发布 — Qwen3.6 27B 变体“uncensored-heretic-v2-Native-MTP-Preserved”已发布，完整保留 15 级 MTP。该模型提供 Safetensors、GGUF 和 NVFP4 多种格式，附带指标如 KLD 0.0021 和 6/100 拒答率，由 llmfan46 在 HuggingFace 托管。来源-reddit
Gemma 4 MTP 支持多 Token 草稿预测 — Google 发布了 Gemma 4 的 Multi Token Prediction（MTP）草稿模型，这是一种推测解码方法，将主模型与轻量级草稿模型配对，后者并行预测多个 token，由主模型进行验证，从而将推理速度提升 2-3 倍。帖子询问能否在 MLX 中使用该功能，但也指出目前尚不支持。信息来源为 Reddit 用户 /u/purealgo 的帖子。来源-reddit
llama.cpp 新增对 Mimo v2.5 模型的支持 — 开发者 AesSedai 提交了 Pull Request #22493，为 llama.cpp（ggml-org/llama.cpp）添加 MiMo-V2.5 模型支持。MiMo-V2.5 是一个稀疏 MoE 模型，总参数量 310B（激活 15B），支持最长 100 万上下文 token，并具备多模态能力（文本、图像、视频、音频），配备独立的视觉与音频编码器，以及 Multi-Token Prediction 头。模型概述来自 XiaomiMiMo/MiMo-V2.5，/u/jacek2023 亦有贡献。来源-reddit
Chrome 被指静默下载 4GB LocalLLaMA checkpoint 到本地电脑 — Reddit 用户 /u/LambdaHominem 称，Chrome 在未经同意的情况下，静默将一个 4GB 的 LocalLLaMA 模型 checkpoint 下载到用户电脑。该说法引发人们对浏览器主导分发本地 AI 模型所带来的隐私与安全问题的担忧。如果属实，可能会影响用户对浏览器在处理本地 AI 工作负载时的信任。来源-reddit

AI Tools

Cursor 发布 /orchestrate：递归 AI 智能体执行大型任务 — Cursor 推出新技能 /orchestrate，利用 Cursor SDK 递归生成智能体以完成雄心勃勃的复杂任务。据称该功能可带来效率提升：通过自动检索（autoresearch）减少 20% token 使用量，并将后端冷启动时间降低 80%，同时支持 HLS 播放。该工具旨在提高开发者生产力并优化后端性能。来源-twitter

AI Research

Stream-T1 通过测试时扩展提升流式视频生成 — Stream-T1 提出了一种面向流式视频生成的测试时扩展（test-time scaling）方法，旨在缓解扩散式方法在训练成本上的瓶颈。作者认为，将视频分块合成并采用少量去噪步骤的方式符合 TTS 思路，可降低探索成本，同时改善时间维度上的引导效果。来源-huggingface

Open Source

OpenSearch-VL：面向前沿多模态搜索智能体的开源配方 — OpenSearch-VL 提供了一套完全开源的训练方案，用于构建前沿多模态搜索智能体，旨在弥补高质量数据匮乏和训练流程不透明带来的复现性缺口。它详细描述了深度搜索、主动搜索、证据验证与多步推理，并给出了轨迹合成和训练配方的开放框架。来源-huggingface

AI Hardware

AMD 推出可插槽 PCIe Instinct GPU，面向企业级 AI — AMD 正以基于 PCIe 的 Instinct GPU 瞄准企业级 AI 市场，这些 GPU 可以直接插入服务器使用。本地 LLM 开发者对这些新加速卡的定价与性能表现尤为关注。来源-reddit
AMD 发布基于 CDNA 4 架构的 PCIe 加速卡 Instinct MI350P — AMD 宣布推出 Instinct MI350P 加速卡，将 CDNA 4 架构引入 PCIe 形态产品。目前尚未公布价格与供货时间。来源-reddit

AI Benchmarking

单张 RTX 4090 上实现 11.67% ARC-AGI-2 本地评测成绩 — 研究者使用单张 RTX 4090 训练了一个 1 亿参数的 ARC-AGI-2 模型，采用 TOPAS 递归架构，在公共 ARC-AGI-2 排行榜上取得 11.67% 的成绩，尽管硬件与训练时间有限。在本地评测中，该 checkpoint 可达 36%，但在 Kaggle 提交时，由于使用了大量递归循环，导致许多题目超时或返回空输出。作者认为，ARC 不应被仅视为算力竞赛，更应强调算法设计与效率。来源-reddit

⚡ 快讯速览

神经网络以“形状”思考：神经几何研究系列启动 — 神经网络处理语言时，会将信息组织为几何结构。理解这种“神经几何”被视为理解、调试与控制 AI 系统的关键。GoodfireAI 宣布启动一系列文章，系统探索这一研究议程。来源-twitter
xAI API 上线图像生成质量模式 — xAI 为其 xAI API 推出 Image Generation Quality Mode，为商务用户提供更高真实感、更强文本渲染和更精细的创意控制能力。该模型已在 Grok 聊天机器人中生成超过 3 亿张图像。来源-twitter
“AI slop” 使快速并行试验成为可能 — 作者提出，粗糙的接口和插件生态（被形容为“slop”）能通过促进快速试验与测试，加速 AI 系统开发。他指出，在设定好清理边界的前提下，允许 API 与 GUI 保持一定程度的粗糙，可以将 alpha 版本软件更快交给测试者，并在 API 变更时快速重生成组件，以成本换取速度。举例包括基于尚不完美的早期 API 开发插件，并提到 Terraform 早期的发布策略，说明“速度重于打磨”。来源-twitter
Perplexity 在 Mac 上发布 Personal Computer 应用，支持本地与网页任务 — Perplexity 推出一款名为 Personal Computer 的 Mac 应用，它是 Perplexity Computer 的增强版本。该应用可在任意 Mac 上运行，并能跨本地文件、原生 Mac 应用、网页以及 Perplexity 的安全服务器协同工作，同时支持 HLS 播放功能。来源-twitter
OpenAI 预告 ChatGPT 语音更新 — OpenAI 在社交媒体上预告 ChatGPT 即将加入语音功能，表示该特性仍在开发中。帖子邀请用户“敬请期待他们继续烹制更新”，暗示即将到来的语音界面和更广泛的多模态能力。来源-twitter
Agent-skills：面向 AI 编码智能体的生产级工作流 — GitHub 项目 addyosmani/agent-skills 将生产级工程技能封装为可供 AI 编码智能体调用的模块，把高级工程实践编码为可复用技能。项目提供七个斜杠命令，分别自动激活从需求、规划、构建、测试、评审、准入到上线各阶段所需的技能，帮助 AI 智能体在从想法到线上部署的全过程中保持一致的工作流程。来源-github
本地模型是否足以支撑完整 AI 工作流？ — 讨论指出，越来越多的趋势是使用更小/本地模型完成日常任务，只在必要时调用云端模型。这推动了基于工作负载感知的架构，动态在本地与云端模型之间路由任务，以优化延迟和成本。帖文提问：在日常工作流中，本地模型是否已经“足够好”，还是仍然离不开前沿云端模型。来源-reddit
嵌入 Shell 的 AI 智能体可运行交互式程序 — 过去一个月中，作者构建了一个集成 AI 智能体的 shell，可追踪终端活动并自动输入命令。他们又新增一个悬浮覆盖层扩展，使智能体能够读取终端内容并自动化交互式任务，包括在 SSH 会话中。该项目以 MIT 许可开源，支持本地或云端模型，仓库中附带一个覆盖层示例。来源-reddit
ZAYA1-74B 预览：在 AMD 上扩展预训练规模 — 该帖子预览 ZAYA1-74B 模型，并讨论在 AMD 硬件上扩展其预训练的方式。内容聚焦于在 AMD 架构上训练大语言模型的潜在优化路径与性能考量。来源-reddit
RTX 5090 vs M5 Max：本地 LLM 开发该如何选？ — 一篇 Reddit 帖子询问，在离线 AI 软件开发中，是应该购买 RTX 5090，还是配置 128GB 内存的 M5 Max。作者以 Qwen 3.6 27B 表现为例：据称 5090 约有 3 倍速度优势，而 M5 Max 则提供约 4 倍内存，可支持更高精度量化与更长上下文。他们希望获得已使用这两类方案用户的真实经验，以减少对云端的依赖。来源-reddit
我们不再说“PS 了一下”，而是说“AI 了一下” — 有推文认为，行业正在从将图像编辑称为“Photoshop”转向称作“AI”，这标志着一个时代的终结。作者一方面怀旧地感谢 Photoshop 的贡献，一方面强调 AI 在日常科技话语中的地位正迅速上升。帖子将 AI 描述为图像处理的新“默认”称谓。来源-twitter

由 AI News Agent 生成 | 2026-05-07