daily
May 05, 2026
AI 日报 — 2026-05-05
中文 English
GPT-5.5 Instant 登陆 ChatGPT,回复更聪明、更温暖 · Grok 4.3 登陆 xAI API,号称迄今最快模型 · Heretic 1.3 发布,引入可复现模型与集成评测系统
覆盖 24 条 AI 新闻
🔥 今日焦点
1. GPT-5.5 Instant 登陆 ChatGPT,回复更聪明、更温暖
OpenAI 开始在 ChatGPT 中逐步上线 GPT-5.5 Instant,带来更智能、更清晰、更个性化的回答,同时语气更加自然、温暖。此次更新还根据用户反馈,特别强调在保证信息量的前提下控制回复长度,更加简洁凝练。来源-twitter
2. Grok 4.3 登陆 xAI API,号称迄今最快模型
Grok 4.3 现已在 xAI API 上线,被宣传为目前速度最快、能力最强的模型。它在 ArtificialAnlys 榜单中,工具调用与指令跟随的智能体能力位居前列,并在 ValsAI 的企业领域(如判例法和公司金融)中排名第 1。该模型支持 100 万 token 的上下文窗口,定价为输入每百万 token 1.25 美元、输出每百万 token 2.50 美元。来源-twitter
3. Heretic 1.3 发布,引入可复现模型与集成评测系统
Heretic 1.3 现已发布,带来可复现的模型、内置基准测试系统、更低的峰值显存占用以及更广泛的模型支持。此次版本在分叉项目众多的生态中强调透明性,提到项目已获得约 2 万 GitHub star 和 1300 万次总下载量,并点名某竞争者疑似使用抄袭的 Heretic 分叉版本。来源-reddit
📰 重点报道
LLMs
- DeepSeek V4 Pro 在 FoodTruck Benchmark 上追平 GPT-5.2 — DeepSeek V4 Pro 参与了为期 30 天的 FoodTruck Bench 测试,这是一个包含 34 个工具、支持记忆的智能体任务集,在表现上与 Grok 4.3 打平,并且与 GPT-5.2 的中位数成绩仅差 3%。在 GPT-5.2 发布十周后,这标志着中美前沿模型差距进一步缩小,同时 DeepSeek 相比 GPT-5.2 提供约 17 倍的成本优势(单元价 0.435/0.87 对 GPT-5.2)。这是首个进入“前沿梯队”的中国模型,凸显了智能体型 AI 在性能与成本效率上的快速进步。来源-reddit
- llama.cpp 在 Strix Halo 上支持 MTP(PR 22673) — Reddit 用户 Edenar 报告在 AMD Strix Halo 环境下测试 llama.cpp 的 MTP 支持。他们重构了 amd-strix-halo-toolboxes,并结合 PR 22673,搭配 GGUF 版本的 Qwen3.6-35BA3B-MTP-GGUF,启用了 —spec-type mtp 和 —spec-draft-n-max 3,使用 MTP 时可达到约 60–80 tokens/s,而未启用时约为 40 tokens/s。帖子指出相关 GGUF 文件体积相近(各约 36 GB),作者计划继续尝试 Qwen 3.5 122B,并称测试结果相当惊艳。来源-reddit
LLM
- Claude 推出金融服务领域的即用型智能体模板 — Claude 发布了面向金融行业的即用型智能体模板,支持路演撰写、估值复核、月末关账等任务。这些模板可以作为插件安装到 Cowork 和 Claude Code 中,或通过 cookbook 以 Managed Agents 方式直接用于生产环境。本次更新体现了 Claude 在企业级金融工作流工具集方面的持续扩张。来源-twitter
- Gemma 4 借助多 token 草稿推理实现 3 倍加速 — Google 的 Gemma 4 模型通过引入 Multi-Token Prediction Drafters(MTP drafters),最高可实现约 3 倍推理加速。该方法允许 Gemma 4 一次性预测多个 token,在不明显牺牲生成质量的前提下显著提升输出速度。该消息由 Google 面向开发者的 X(Twitter)频道发布。来源-twitter
- OpenAI 将 Codex 速率限制提高 10 倍,社区用户欢呼 — 用户 Arav Jain 在推文中称赞 OpenAI 开发者,将 Codex 的速率限制提升了 10 倍,引发了开发者群体的强烈兴奋。帖子将这一调整视为对编码类任务的重大利好,反映了社区对 AI 开发工具升级的积极反应。来源-twitter
- 正确打开方式:把 Qwen3.6 接到 Pi coding agent 上 — 一位 Reddit 用户分享称,将 Qwen3.6 35B 与 Pi coding agent、exa 网络搜索以及 agent-browser 扩展组合使用,大幅改善了写代码、维护代码和网页调研的体验。作者声称这一组合覆盖了自己约 80% 的使用场景,在网络检索方面甚至可以超越 Perplexity,而更复杂的规划则交由 Kimi2.6 处理。来源-reddit
- 在 Google TPU 上用扩散风格推测解码,实现 3 倍 LLM 推理加速 — Google Developers Blog 介绍了一种在 Google TPU 上加速 LLM 推理的技术,利用类似扩散模型的推测式解码,整体性能可提升约 3 倍。该方法通过扩散启发式方式预测 token,减少计算量与延迟,使基于 TPU 的生成式工作负载能显著提速。来源-reddit
Multimodal
- Hermes Agent 借助 HeyGen HyperFrames 生成完整视频 — Hermes Agent 现在可以利用 HeyGen 官方的 HyperFrames 技能生成完整视频。HyperFrames 视频原生基于 HTML,使智能体可以对最终输出进行全流程控制,并支持 HLS 流式播放。来源-twitter
- Map2World 支持按分割图约束的 3D 世界生成 — Map2World 提出一种 3D 世界生成框架,可依据用户自定义的分割图进行条件控制,这些分割图可具有任意形状和尺度。该方法旨在克服以往方法中网格布局约束及尺度不一致的问题,从而生成在全球一致性上更好的三维场景。这一工作推动了 AI 驱动的 3D 内容生成,在沉浸式内容创作与自动驾驶仿真等方面具有潜在价值。来源-huggingface
Open Source
- MolmoAct2:面向真实部署的开放动作推理模型 — MolmoAct2 被提出为一个完全开源、针对实际部署优化的动作推理模型,面向 Vision-Language-Action(VLA)机器人系统。作者指出,当前前沿模型大多封闭或成本高昂,而加入复杂推理的策略在延迟上难以接受,MolmoAct2 旨在提供一个可用性强、易部署的替代方案。此项工作希望推动开源具身智能在真实世界场景中的落地应用。来源-huggingface
AI Benchmarking
- ProgramBench:用 AI 智能体从零重建大型二进制程序 — ProgramBench 构建了一个包含 200 个任务的基准集,要求 AI 智能体仅凭目标可执行文件和使用示例文件,从零构建完整程序,且禁止访问互联网和使用反编译。该基准测试语言选择、架构设计以及软件工程决策,并配备了 600 万行自动生成的行为测试代码,经过质量过滤。项目已开源其 GitHub 仓库、Hugging Face 资源及 Docker 镜像,所有结果发布在 programbench.com。来源-reddit
Voice Cloning
- OmniVoice 实现一键式一段样本声音克隆,用户直呼震撼 — 一篇 Reddit 帖子称赞 OmniVoice 实现了一次录音(one-shot)即可完成声音克隆,而且使用过程极其简单。作者表示效果“简直就是我梦寐以求的一切”,尽管强调这并不是一个 LLM,但仍对其语音克隆性能印象深刻。来源-reddit
AI Safety
- 美国与科技企业达成协议:新 AI 模型发布前先进行国家安全审查 — 美国政府与多家科技公司达成协议,将在 AI 模型向公众发布之前,对其可能引发的国家安全影响进行审查。该安排旨在在新系统部署之前,确保安全性并满足相关监管要求。来源-reddit
⚡ 快讯速览
- 高效 AI 模型引发对 Codex–Claude 迁移的担忧 — 帖子指出相较其能力,这些 AI 模型的效率极高,并对 Codex 的调用上限表示担心。作者认为 Claude 迁移到 Codex 的阶段是刻意营造的“蜜月期”,警告未来可能出现“地毯式撤走”(rugpull)的风险。来源-twitter
- Sama 寻找基于 5.5 模型和超大 token 预算的 AI 壮举案例 — Sam Altman 使用 @sama 账号发帖,征集在假想的 5.5 模型上构建的、在旧版本上无法实现的令人印象深刻的应用案例。帖子特别强调那些依赖“极大 token 预算”的用例,希望听到通过扩展上下文长度而解锁的新能力故事。来源-twitter
- Web2BigTable:面向互联网规模检索的双层多智能体 LLM 框架 — Web2BigTable 提出一种双层、多智能体的 LLM 框架,用于可扩展的“Web 到表格”检索。它面向长搜索链路中的深度推理,并在跨异构数据源时进行结构化、与模式对齐的聚合,力图同时解决智能体式网页检索中的广度与深度挑战,用于信息抽取。来源-huggingface
- CocoIndex:面向长程智能体的增量式上下文引擎 — CocoIndex 提供一个增量式引擎,将多种数据源(代码库、笔记、收件箱、Slack、PDF 和视频等)转化为 AI 智能体与 LLM 应用的实时、最新上下文,仅对增量部分重新计算。其目标是通过并行处理与 Python 工具链,快速交付可用于生产环境的 AI 智能体。项目已在 cocoindex-io/cocoindex 开源,并每周更新示例。来源-github
- 本地跑 LLM:5 天 2 亿 tokens,算一算 ROI — 一篇 Reddit 帖子介绍在本地使用 Qwen-397b,部署在 2-Spark 集群上,并用 Hermes 统计 token,在五天内跑到了 2 亿个 token。作者以每百万 token 1.25 美元的价格估算,认为每月可产生约 1250 美元“价值”,硬件回本周期大致在六个月左右,同时也提醒需要考虑成本与替代方案等前提条件。来源-reddit
- 26B 本地大模型在 CPU 上也能跑得飞快,无需 GPU — 一位 Reddit 用户报告在一台仅配备 CPU 的本地机器(i5-8500 + 32GB 内存)上运行 Gemma4 26B,推理速度表现令人惊讶,无需 GPU 即可流畅使用。帖子还提到 12B 级别模型在同一配置上表现同样出色,凸显了在无 GPU 环境下进行大模型本地推理的可行性。来源-reddit
- 语言模型能从上下文中习得技能吗? — 文章指出,语言模型往往需要在超出其参数记忆范围的上下文中进行推理。作者提出“上下文学习”和“推理阶段技能增强”两种思路,用以将上下文中的规则转化为自然语言形式的技能,并提到至少两个主要挑战,其中之一是对上下文学习而言,手工标注技能成本过高。来源-huggingface
- 对语音模型重塑人机交互方式感到兴奋 — 帖子表达了对语音模型逐渐成熟的兴奋之情,指出人们已经在改变与 AI 交互的方式。这预示着语音将成为与 AI 互动的一种主要形态,语音驱动的 AI 使用场景将得到更广泛的普及。来源-twitter
由 AI News Agent 生成 | 2026-05-05