daily
Mar 28, 2026

AI 日报 — 2026-03-28

中文 English

VibeVoice ASR 开源,并集成 Transformers · 3-bit KV cache 让 MacBook 本地推理媲美云端 AI 质量 · Anthropic 的 Claude ...


覆盖 30 条 AI 新闻

🔥 今日焦点

1. VibeVoice ASR 开源,并集成 Transformers

微软的 VibeVoice 开源了 VibeVoice-ASR,这是一个统一的语音转文本模型,可以一次性处理 60 分钟音频,并输出结构化的转写结果(Who, When, What),同时支持用户自定义上下文。它支持 50 多种语言,并已通过 Hugging Face Transformers 提供,附带微调代码和 vLLM 加速支持。此次发布还配有一篇技术报告。 来源-github

2. 3-bit KV cache 让 MacBook 本地推理媲美云端 AI 质量

一位 M2 MacBook 用户报告称,在应用 3-bit KV cache 压缩后,本地 AI 推理效果与云端服务相当,并能进行 10 万 token 的长对话,质量与云服务等同。此前他们每月为云端 AI API 支付 200 美元,如今已取消全部订阅从而节省费用。该优化参考了一篇免费论文中的算法和一篇 TurboQuant 的解析文章。 来源-twitter

3. Anthropic 的 Claude 在大会演示中展示零日漏洞挖掘能力

在一次现场大会演示中,Anthropic 展示了 Claude 在 Ghost 和 Linux 内核中定位零日漏洞的过程。演示声称 Claude 在 90 分钟内识别出一次盲 SQL 注入,并疑似窃取了一个管理员 API 密钥,突出了 AI 辅助网络安全的能力。 来源-twitter

📰 重点报道

LLM

  • GLM-5.1 将会开源,李子璇确认 — 李子璇在推文中表示 GLM-5.1 将会以开源形式发布。该帖一方面安抚关注者不要紧张,另一方面也释放出 GLM-5.1 模型即将开源的信号。 来源-twitter
  • TurboQuant 登陆 MLX:4.6 倍 KV cache 压缩 — TurboQuant 已在 MLX 上实现,采用融合 Metal 内核来加速 KV cache 压缩。在一台搭载 48GB 内存的 M4 Pro 上,以 Qwen2.5-32B 进行测试,达成了 4.6 倍压缩,推理吞吐为 FP16 的 0.98 倍且质量一致;在 16K 上下文长度下,KV cache 从 4.2GB 缩减到 897MB。该工作包含技术说明、开源代码以及一个 MLX-LM 的 PR。 来源-reddit
  • LLM 能为双方辩护,帮助形成观点 — 一位博主撰写文章草稿,并在数小时内反复借助 LLM 加强论证。模型能令人信服地为议题的双方提供论点,甚至反驳原有立场,展示出 LLM 在激发和探索观点方面的作用。读者认为它是塑造个人看法的有用工具,同时提醒要避免偏见和“拍马屁式”迎合。 来源-twitter
  • LLM 与人类文本:检测中的线性可分性 — 一位正在训练自定义 AI 检测模型的用户发现,在大多数情况下,LLM 生成文本与人类撰写文本在特征空间中呈线性可分。如果这一发现得到验证,简单分类器就有可能区分 AI 写作和人类写作,这将影响检测工具与安全讨论。 来源-twitter
  • Hermes Agent v0.5.0 上线,通过 Nous Portal 接入 400+ 模型 — Hermes Agent v0.5.0 已上线,本次更新重点是优化、性能提升、代码清理以及基础能力建设。Nous Portal 目前已提供 400 多个模型,完整接入 HuggingFace 的模型套件。GPT-5.4 被“趣味性地敲了一下脑袋”(bonk)以鼓励其响应更积极,同时对 Nix 环境也做了改进。 来源-twitter
  • Qwen 3.5 27B Dense 搭配 Hermes Agent 表现亮眼 — 一条推文称赞 Qwen 3.5 27B(Dense)在与 Hermes Agent 搭配时的表现。帖子认为该组合展现出很强的能力,突显了 AI Agent 与工具调用方面的进展,也反映出业界对将先进 LLM 与自治 Agent 深度集成的持续兴趣。 来源-twitter
  • 突发:llama-server 迁移到 HuggingFace cache,导致脚本失效 — 一位 Reddit 用户报告称,最新构建的 llama-server 会触发一次性迁移,将旧版 llama.cpp 缓存迁移至 HuggingFace cache。迁移会将使用 -hf 下载的模型移动并把 .gguf 模型转换为 blob,从而破坏依赖旧文件路径的启动脚本和模型管理流程。使用 —model-url 下载的模型不受影响,但诸如“failed to load model”之类的报错说明此次变更带来了干扰。 来源-reddit
  • Nemotron 3 Super:在 llama.cpp 与 vLLM 之间存在巨大质量差距 — 一份私下基准测试显示,Nemotron 3 Super 在不同推理后端上的结果差异较大。在约 400 道问题的测试中,vLLM 的准确率为 55.4%,而 llama.cpp 仅为 40.2%,表明这两种 LLM 执行引擎之间存在显著质量差距。除与 gguf 相关的差异外,日志看上去都较为正常,整体结果也与其他大模型相近。 来源-reddit

开源

  • Cohere 将 SOTA 开源转写模型带入浏览器端 — Cohere 已经让一款最先进的开源语音转写模型可以直接在浏览器中运行。模型权重已在 HuggingFace 上提供,并附有链接,同时支持 HLS 播放。 来源-twitter
  • AI Scientist-v2 通过 Agentic Tree Search 实现自动化科学发现 — AI Scientist-v2 是一个通用的端到端 Agentic 系统,能够自主生成假设、运行实验、分析数据并撰写科学论文。它被视为一个里程碑:首篇完全由 AI 撰写并通过同行评审接收的研讨会论文。与前代相比,它移除了人为编写的模板,可以在不同 ML 领域中泛化,并采用由实验管理器引导的渐进式 agentic tree search。该项目已在 GitHub(SakanaAI/AI-Scientist-v2)开源,并与 ICLR2025 的研讨会相关联。 来源-github
  • Onyx 开源 AI 平台:自部署聊天 UI — Onyx 是一个可自部署的开源 AI 平台,提供与任意 LLM 兼容的聊天 UI。它包含自定义 Agents、Web 搜索、RAG 以及连接 40 多种知识源等功能,并可在物理隔离(airgapped)环境中运行。该项目强调通过一条命令即可轻松部署,并能广泛互操作外部数据源。 来源-github

硬件

  • 每周更新:适合你硬件的最佳 AI 模型 — 这是一个每周系列,列出可在不同硬件档位(8GB、16GB、24GB)上运行的 AI 模型,并提供示例模型和 Hugging Face 链接。它重点介绍轻量级自动补全、多模态选项和强大的 Agent 能力模型,如 Qwen 3.5 和 NVIDIA Nemotron-3-Nano-4B-GGUF,强调其开源可用性。帖子倡导开放科学,并邀请读者关注持续的每周精选。 来源-twitter

AI 研究

  • Calibri:通过参数高效校准提升 Diffusion Transformers — 研究者展示,仅一个可学习的缩放参数就能在去噪过程中显著改善 Diffusion Transformer(DiT)模块的表现。随后他们提出 Calibri,这是一种参数高效的校准方法,用于优化 DiT 各组件、提升生成质量,并将 DiT 校准问题构建为黑盒优化任务。 来源-huggingface

⚡ 快讯速览

  • AI 将用户“推向中间”:Grok 偏右但仍具去极化效应 — 新分析表明,在所研究的多个模型中,AI 模型整体上会通过将人们的观点“推向政治中间地带”来降低两极化。Grok 展现出比其他模型更明显的右倾偏见,但依然产生去极化效果。文章署名为 @jburnmurdoch。 来源-twitter
  • Codex Use Cases 画廊将技能扩展给所有人 — OpenAI 推出 Codex Use Cases,这是一个涵盖编程与非编程任务的实用示例画廊,展示 Codex 在真实场景中的使用方式。合集为每个用例提供起始提示,并可直接在 Codex 应用中打开。 来源-twitter
  • 大厂与初创公司每天在 LLM tokens 上花费超 1000 美元 — 有消息称,大型科技公司和初创公司每天在 Claude Code 或 Codex tokens 上的支出超过 1000 美元,年化约为 36.5 万美元。如果这一趋势持续,token 成本可能会超过对人类员工的支出,凸显出 AI 工作流中日益壮大的 token 经济。 来源-twitter
  • 本地 16GB 内存可运行的代码自动补全模型亮相 — 有帖子重点介绍了一款可在本地、且设备内存为 16GB 或以下系统上运行的代码自动补全模型。示例指向 Hugging Face 上的 zed-industries/zeta-2,这是一个能力不错的开源选项,尽管尚不如 Cursor tab 强大。帖子强调 Hugging Face 推广的开源与开放科学价值观。 来源-twitter
  • 闭源模型从开源模型获利却不回馈生态 — 这条推文认为,专有(闭源)AI 模型从开源模型中受益,却不以开放分享或贡献的方式回馈。它将这一动态视为伦理和生态系统问题,凸显了 AI 行业在开放性与商业激励之间的紧张关系。 来源-twitter
  • 开源 Deep-Live-Cam 实现实时换脸 — 开源项目 Deep-Live-Cam 2.1 能够基于单张图像实现实时换脸与视频深度伪造。开发者强调要负责任地使用该工具,并内置安全检查、伦理准则以及在法律要求时添加水印或关闭功能的可能性。 来源-github
  • IBM Granite-4.0-3B-Vision 支持多模态文档抽取 — Granite-4.0-3B-Vision 是一款为企业级文档数据抽取而设计的视觉-语言模型,专注于图表、表格抽取以及语义键值对抽取等难点任务。它以 LoRA adapter 的形式构建在 Granite 4.0 Micro 之上,使单次部署即可同时支持多模态文档理解和纯文本工作负载;基础模型在无需加载 adapter 的情况下可处理纯文本请求。该模型支持 Chart2CSV、Chart2Summary 和 Chart2Code,并能以 JSON、HTML 或 OTSL 格式输出结果。 来源-reddit
  • AI 功能炒作周期:狂热、退化、重复 — 一篇 Reddit 帖子认为,AI 功能发布遵循固定的炒作周期:最初是极具震撼力的演示,随后进入输出质量退化但宣传仍继续、却不正视缺陷的第二阶段。帖子举例提到 VEO 3、逼真的图像编辑和 GPT-5.4,认为公司不断推出新功能以重置这一周期。文章将这一模式视为系统性问题,而非偶然现象,并呼吁对炒作保持怀疑态度。 来源-reddit
  • 不要使用混合 KV cache 量化 — 一篇 Reddit 帖子反对通过混合 KV cache 量化来在节省内存的同时维持精度。作者引用了一组基准测试,并附上长文博客解释该方法为何不正确,重点讨论在 Vulkan 后端上针对 qwen35 9B 模型使用 Q6_K / Q8_0 的配置,在不同 batch size 与设置下的吞吐结果,这些结果与该方法宣称的收益相矛盾。 来源-reddit
  • Qwen 3.5 在用于打码的 OCR 边界框任务中表现可期 — Qwen 3.5 在用于打码流程的 OCR 边界框准确性方面进行了测试,此前曾测试过 Qwen 3 VL 8B Instruct。评测覆盖 4 个可在 24GB VRAM 以内运行的 Qwen 模型,在 3 个与手写相关的高难度任务上进行评估,并使用 doc_redaction 仓库;初步结果显示,在用于打码的手写文本 OCR 上具有改进潜力。 来源-reddit
  • llama.cpp 在卸载到 CPU 时预取权重 — 一个针对 llama.cpp 的实验性 PR 增加了在将计算卸载到 CPU 时的权重预取机制,旨在减少密集模型和较小 MoE 模型在处理提示阶段的内存瓶颈。作者表示,该改动在内存充足但 GPU 资源有限的配置上带来了好处,并邀请其他人试用。 来源-reddit
  • Turbo3 与 gfx906 分支合并进 Llamacpp,支持 Qwen 3.5 122B — 一位开发者对 llamacpp 进行了新的 fork,将 Turbo3 和 gfx906 分支合并,使得可以运行 Qwen 3.5 122B。该配置 reportedly 能在四块 16GB 的 MI50 GPU 上运行。更新由 Reddit 用户 Exact-Cupcake-2603 分享。 来源-reddit
  • TurboQuant 解析:用于减小内存占用的向量量化 — 一篇 Reddit 解释文章指出,TurboQuant 是一种用于降低内存使用的向量量化算法。文中强调,该方法的核心在于对向量进行量化,而不是依赖极坐标,并通过一个简单的“截断数字”示例来说明,同时指出更复杂的方案(如分块分组)也已存在。 来源-reddit
  • 为何 TurboQuant 的热度被夸大了 — 一篇 Reddit 帖子质疑围绕 TurboQuant 的高热度,认为它在上下文适配方面可能只带来边际改进。作者将其与已经非常高效的混合模型进行对比,并指出社区中围绕其发布时间表及与 llama.cpp 和自定义实现集成的广泛讨论。 来源-reddit

由 AI News Agent 生成 | 2026-03-28