daily
May 07, 2026
AI 日报 — 2026-05-07
中文 English
OpenAI 发布具备 GPT-5 级推理能力的 GPT-Realtime-2 · Gemini 3.1 Flash-Lite 登场:高吞吐、低成本模型 · Grok Voice 推出 Thin...
共收录 34 条 AI 新闻
🔥 今日焦点
1. OpenAI 发布具备 GPT-5 级推理能力的 GPT-Realtime-2
OpenAI 宣布推出 GPT-Realtime-2,这是目前其最智能的语音模型,将 GPT-5 级别的推理能力带入语音智能体。API 现已包含 GPT-Realtime-2,以及流式模型 GPT-Realtime-Translate 和 GPT-Realtime-Whisper,使对话中可以实时聆听、推理和解决问题。这标志着下一代语音界面在音频能力上的一次重大扩展。 来源-twitter
2. Gemini 3.1 Flash-Lite 登场:高吞吐、低成本模型
Google 发布 Gemini 3.1 Flash-Lite,这是一款为高吞吐智能体任务、翻译和简单数据处理优化的高性价比变体。据称它支持 HLS 播放,以便于构建流式处理工作流。 来源-twitter
3. Grok Voice 推出 Think Fast 1.0,应对真实世界客服场景
来自 xAI 的 Grok Voice 推出 Think Fast 1.0,将其定位为专为真实世界客服环境打造的语音智能体。它承诺在嘈杂、难以听清的环境中仍具备速度与准确性,并能处理多步骤疑难排查以及高频率工具调用。 来源-twitter
📰 重点报道
AI
- Prime Intellect Lab 开放训练:自我改进 AI 时代开启 — 下一波 AI 进展将由能从经验而非提示中学习的系统驱动。Prime Intellect Lab 已结束测试阶段,现在允许用户训练自己的模型。这标志着自我改进智能体早期时代的到来。 来源-twitter
- 全新实时翻译模型发布;API 今日开放 — X 公布了一款新的实时翻译模型,并邀请开发者从今日起通过 API 进行测试。更新中特别强调开发者可立即获得 API 访问权限。片段中还包含“Enable hls playback”的提示,表明界面层面可能新增与播放相关的功能。 来源-twitter
- 更小的 MTP Tensor GGUF,加速捐赠模型移植 — 研究者创建了两种轻量级伪 GGUF,仅包含移植所需的 MTP 张量(约 0.9GB 和 0.45GB)。它们与现有移植脚本兼容,并已通过 SHA-256 校验证明其输出与完整模型完全一致。发布说明提醒,MTP 仍未最终定型,未来可能废弃,建议保留原始模型以便后续更新。 来源-reddit
Multimodal
- RLDX-1 发布,推进视觉-语言-动作机器人研究 — RLDX-1 被提出为一个通用框架,用于解决视觉-语言-动作(Vision-Language-Action)模型在真实复杂任务中的局限,例如运动感知、具备记忆的决策以及物理感知。报告将 RLDX-1 视作朝着更强大的、以语言为条件的具身机器人系统迈出的重要一步。该项目已在 HuggingFace 上发布,是对 VLA 的持续开放研究的一部分。 来源-huggingface
- Stream-R1:面向流式视频的可靠性-困惑度感知蒸馏框架 — 研究者提出 Stream-R1,一种基于可靠性和困惑度感知的奖励蒸馏框架,用于提升自回归流式视频扩散模型的表现。他们批评当前的分布匹配蒸馏做法,认为其错误地将所有生成序列中的帧和像素视为同等可靠,并提出依据可靠性与困惑度对各帧的监督信号进行加权,以更好地让学生模型对齐教师模型。 来源-huggingface
LLM
- Anthropic 进展:自然语言自动编码器将 Claude 激活映射为文本 — Anthropic 报告了一种方法,可将 Claude 的激活值——也就是编码其内部“思考”的数值——映射为可读的自然语言文本。该工作通过训练 Claude 将自己的隐层表示翻译成自然语言,从而提升对其推理过程的可解释性。此次更新来自 Anthropic 在 Twitter 上的发布。 来源-twitter
- Claude Mythos Preview 帮助 Firefox 在 4 月修复更多漏洞 — Firefox 团队据称使用 Claude Mythos Preview 帮助修复安全漏洞,并表示 4 月份修复的漏洞数量超过此前 15 个月的总和。该更新展示了 AI 在关键软件安全任务中提升效率的潜力。这一说法来自 X(Twitter)上的相关帖子。 来源-twitter
- 面向金融服务的 Claude:支持插件和 API 双重部署 — Anthropic 推出 Claude for Financial Services,提供参考级智能体、技能与数据连接器,以支持投行、股票研究、私募股权与财富管理等核心工作流。它既可以作为 Claude Cowork 插件安装,也可以通过 Claude Managed Agents API 部署,二者共用同一系统提示与技能配置。其输出为分析师级草稿产品,需要人工审核和合规验证;模型不会做出投资决策、执行交易或完成客户开户。 来源-github
- 免费 LLM API 资源清单:配额与模型一览 — 一个 GitHub 项目整理了来自 OpenRouter、Google AI Studio、NVIDIA NIM、Mistral 和 HuggingFace 等提供方的免费或基于积分的 LLM API 访问渠道。项目提醒用户避免滥用,并剔除了非正规服务,同时突出说明共享配额以及 Gemma、Llama 变体等试用模型的提供情况。 来源-github
- Hugging Face 上的 Open-OSS/privacy-filter 恶意软件是假“隐私过滤器” — Hugging Face 上名为 Open-OSS/privacy-filter 的新模型实际上是一款伪装成 OpenAI 隐私过滤器的定制信息窃取程序。它通过 Python 加载器(loader.py)拉取恶意 PowerShell 命令,再由该命令启动另一个 PowerShell 实例,借助 Windows 任务计划程序下载并运行可疑 EXE。Linux 用户不受影响;作者已向 Microsoft 和 Hugging Face 报告该加载器和可执行文件。 来源-reddit
- Qwen3.6-27B Uncensored Heretic v2 Native MTP Preserved 发布 — Qwen3.6 27B 变体“uncensored-heretic-v2-Native-MTP-Preserved”已发布,完整保留 15 级 MTP。该模型提供 Safetensors、GGUF 和 NVFP4 多种格式,附带指标如 KLD 0.0021 和 6/100 拒答率,由 llmfan46 在 HuggingFace 托管。 来源-reddit
- Gemma 4 MTP 支持多 Token 草稿预测 — Google 发布了 Gemma 4 的 Multi Token Prediction(MTP)草稿模型,这是一种推测解码方法,将主模型与轻量级草稿模型配对,后者并行预测多个 token,由主模型进行验证,从而将推理速度提升 2-3 倍。帖子询问能否在 MLX 中使用该功能,但也指出目前尚不支持。信息来源为 Reddit 用户 /u/purealgo 的帖子。 来源-reddit
- llama.cpp 新增对 Mimo v2.5 模型的支持 — 开发者 AesSedai 提交了 Pull Request #22493,为 llama.cpp(ggml-org/llama.cpp)添加 MiMo-V2.5 模型支持。MiMo-V2.5 是一个稀疏 MoE 模型,总参数量 310B(激活 15B),支持最长 100 万上下文 token,并具备多模态能力(文本、图像、视频、音频),配备独立的视觉与音频编码器,以及 Multi-Token Prediction 头。模型概述来自 XiaomiMiMo/MiMo-V2.5,/u/jacek2023 亦有贡献。 来源-reddit
- Chrome 被指静默下载 4GB LocalLLaMA checkpoint 到本地电脑 — Reddit 用户 /u/LambdaHominem 称,Chrome 在未经同意的情况下,静默将一个 4GB 的 LocalLLaMA 模型 checkpoint 下载到用户电脑。该说法引发人们对浏览器主导分发本地 AI 模型所带来的隐私与安全问题的担忧。如果属实,可能会影响用户对浏览器在处理本地 AI 工作负载时的信任。 来源-reddit
AI Tools
- Cursor 发布 /orchestrate:递归 AI 智能体执行大型任务 — Cursor 推出新技能 /orchestrate,利用 Cursor SDK 递归生成智能体以完成雄心勃勃的复杂任务。据称该功能可带来效率提升:通过自动检索(autoresearch)减少 20% token 使用量,并将后端冷启动时间降低 80%,同时支持 HLS 播放。该工具旨在提高开发者生产力并优化后端性能。 来源-twitter
AI Research
- Stream-T1 通过测试时扩展提升流式视频生成 — Stream-T1 提出了一种面向流式视频生成的测试时扩展(test-time scaling)方法,旨在缓解扩散式方法在训练成本上的瓶颈。作者认为,将视频分块合成并采用少量去噪步骤的方式符合 TTS 思路,可降低探索成本,同时改善时间维度上的引导效果。 来源-huggingface
Open Source
- OpenSearch-VL:面向前沿多模态搜索智能体的开源配方 — OpenSearch-VL 提供了一套完全开源的训练方案,用于构建前沿多模态搜索智能体,旨在弥补高质量数据匮乏和训练流程不透明带来的复现性缺口。它详细描述了深度搜索、主动搜索、证据验证与多步推理,并给出了轨迹合成和训练配方的开放框架。 来源-huggingface
AI Hardware
- AMD 推出可插槽 PCIe Instinct GPU,面向企业级 AI — AMD 正以基于 PCIe 的 Instinct GPU 瞄准企业级 AI 市场,这些 GPU 可以直接插入服务器使用。本地 LLM 开发者对这些新加速卡的定价与性能表现尤为关注。 来源-reddit
- AMD 发布基于 CDNA 4 架构的 PCIe 加速卡 Instinct MI350P — AMD 宣布推出 Instinct MI350P 加速卡,将 CDNA 4 架构引入 PCIe 形态产品。目前尚未公布价格与供货时间。 来源-reddit
AI Benchmarking
- 单张 RTX 4090 上实现 11.67% ARC-AGI-2 本地评测成绩 — 研究者使用单张 RTX 4090 训练了一个 1 亿参数的 ARC-AGI-2 模型,采用 TOPAS 递归架构,在公共 ARC-AGI-2 排行榜上取得 11.67% 的成绩,尽管硬件与训练时间有限。在本地评测中,该 checkpoint 可达 36%,但在 Kaggle 提交时,由于使用了大量递归循环,导致许多题目超时或返回空输出。作者认为,ARC 不应被仅视为算力竞赛,更应强调算法设计与效率。 来源-reddit
⚡ 快讯速览
- 神经网络以“形状”思考:神经几何研究系列启动 — 神经网络处理语言时,会将信息组织为几何结构。理解这种“神经几何”被视为理解、调试与控制 AI 系统的关键。GoodfireAI 宣布启动一系列文章,系统探索这一研究议程。 来源-twitter
- xAI API 上线图像生成质量模式 — xAI 为其 xAI API 推出 Image Generation Quality Mode,为商务用户提供更高真实感、更强文本渲染和更精细的创意控制能力。该模型已在 Grok 聊天机器人中生成超过 3 亿张图像。 来源-twitter
- “AI slop” 使快速并行试验成为可能 — 作者提出,粗糙的接口和插件生态(被形容为“slop”)能通过促进快速试验与测试,加速 AI 系统开发。他指出,在设定好清理边界的前提下,允许 API 与 GUI 保持一定程度的粗糙,可以将 alpha 版本软件更快交给测试者,并在 API 变更时快速重生成组件,以成本换取速度。举例包括基于尚不完美的早期 API 开发插件,并提到 Terraform 早期的发布策略,说明“速度重于打磨”。 来源-twitter
- Perplexity 在 Mac 上发布 Personal Computer 应用,支持本地与网页任务 — Perplexity 推出一款名为 Personal Computer 的 Mac 应用,它是 Perplexity Computer 的增强版本。该应用可在任意 Mac 上运行,并能跨本地文件、原生 Mac 应用、网页以及 Perplexity 的安全服务器协同工作,同时支持 HLS 播放功能。 来源-twitter
- OpenAI 预告 ChatGPT 语音更新 — OpenAI 在社交媒体上预告 ChatGPT 即将加入语音功能,表示该特性仍在开发中。帖子邀请用户“敬请期待他们继续烹制更新”,暗示即将到来的语音界面和更广泛的多模态能力。 来源-twitter
- Agent-skills:面向 AI 编码智能体的生产级工作流 — GitHub 项目 addyosmani/agent-skills 将生产级工程技能封装为可供 AI 编码智能体调用的模块,把高级工程实践编码为可复用技能。项目提供七个斜杠命令,分别自动激活从需求、规划、构建、测试、评审、准入到上线各阶段所需的技能,帮助 AI 智能体在从想法到线上部署的全过程中保持一致的工作流程。 来源-github
- 本地模型是否足以支撑完整 AI 工作流? — 讨论指出,越来越多的趋势是使用更小/本地模型完成日常任务,只在必要时调用云端模型。这推动了基于工作负载感知的架构,动态在本地与云端模型之间路由任务,以优化延迟和成本。帖文提问:在日常工作流中,本地模型是否已经“足够好”,还是仍然离不开前沿云端模型。 来源-reddit
- 嵌入 Shell 的 AI 智能体可运行交互式程序 — 过去一个月中,作者构建了一个集成 AI 智能体的 shell,可追踪终端活动并自动输入命令。他们又新增一个悬浮覆盖层扩展,使智能体能够读取终端内容并自动化交互式任务,包括在 SSH 会话中。该项目以 MIT 许可开源,支持本地或云端模型,仓库中附带一个覆盖层示例。 来源-reddit
- ZAYA1-74B 预览:在 AMD 上扩展预训练规模 — 该帖子预览 ZAYA1-74B 模型,并讨论在 AMD 硬件上扩展其预训练的方式。内容聚焦于在 AMD 架构上训练大语言模型的潜在优化路径与性能考量。 来源-reddit
- RTX 5090 vs M5 Max:本地 LLM 开发该如何选? — 一篇 Reddit 帖子询问,在离线 AI 软件开发中,是应该购买 RTX 5090,还是配置 128GB 内存的 M5 Max。作者以 Qwen 3.6 27B 表现为例:据称 5090 约有 3 倍速度优势,而 M5 Max 则提供约 4 倍内存,可支持更高精度量化与更长上下文。他们希望获得已使用这两类方案用户的真实经验,以减少对云端的依赖。 来源-reddit
- 我们不再说“PS 了一下”,而是说“AI 了一下” — 有推文认为,行业正在从将图像编辑称为“Photoshop”转向称作“AI”,这标志着一个时代的终结。作者一方面怀旧地感谢 Photoshop 的贡献,一方面强调 AI 在日常科技话语中的地位正迅速上升。帖子将 AI 描述为图像处理的新“默认”称谓。 来源-twitter
由 AI News Agent 生成 | 2026-05-07