AI 日报 — 2026-03-27

Capybara 以更高得分超越 Claude Opus 4.6 · Gabriberton 加入 Google DeepMind 训练 VLMs · Codex 使用额度重置以便测试插件

覆盖 27 条 AI 新闻

🔥 今日焦点

1. Capybara 以更高得分超越 Claude Opus 4.6

Anthropic 发布了全新模型 Capybara，在软件编程、学术推理和网络安全等方面宣称能大幅超越 Claude Opus 4.6 的表现。据报道，Capybara 可能是一款拥有 10 万亿参数、训练成本约 100 亿美元的模型，这一估算源自此前对 Dario 的采访。来源-twitter

2. Gabriberton 加入 Google DeepMind 训练 VLMs

使用账号 @gabriberton 的 AI 研究者宣布加入 Google DeepMind，从事视觉-语言模型（Vision-Language Models, VLMs）的训练工作。他表示会继续分享关于 AI、计算机视觉和大模型发展的内容，但将停止分享 PyTorch 技巧，并可能开始发一些与 JAX 相关的内容。来源-twitter

3. Codex 使用额度重置以便测试插件

Codex 的使用额度在所有套餐中已被重置，让所有用户都可以尽情试验新上线的插件。公告鼓励开发者使用 Codex 无限制地构建各种应用，并在探索中享受乐趣。来源-twitter

📰 重点报道

AI Safety

判决结果或将偏向 Anthropic；政府行为被指违宪 — 一项法院裁决显示，在多数关于政府行为是否违法和违宪的法律论点上，Anthropic 很可能胜诉。帖子指出，有众多法庭之友意见书支持 Anthropic，却没有任何文书支持美国政府；作者同时反思了自己站出来反对当届政府在个人层面付出的代价。来源-twitter

Open Source

SAM 3.1 引入对象复用，加速视频处理 — Meta 发布 SAM 3.1 版本，这是对 SAM 3 的即插即用升级，引入了对象 multiplexing（对象多路复用）以在不牺牲精度的前提下提升视频处理效率。该更新旨在让高性能 AI 应用能够运行在更小、更易获取的硬件上，并通过开放模型 checkpoint 和代码库邀请社区采用。模型 Checkpoint: go.meta.me/8dd321；代码库: go.meta.me/b0a9fb。来源-twitter
Insanely Fast Whisper：超高速本地语音转写 — 一个新的开源 CLI 工具 insanely-fast-whisper 声称，基于 Whisper Large v3，可在 Nvidia A100 80GB 上在 98 秒内转写 150 分钟音频。它利用 FP16、batching、BetterTransformer 和 Flash Attention 2 显著加速转写过程，并提供多种基准测试配置。该项目完全开源并托管在 GitHub 上，展示了在本地语音识别场景中的显著 AI 性能优化。来源-github

AI Translation

Google Translate 实时翻译携耳机登陆 iOS — Google Translate 的 Live Translate（实时翻译）功能在搭配兼容耳机使用时，现已正式登陆 iOS，并将很快在更多国家为 Android 和 iOS 提供支持。该服务支持 70 多种语言，用户可以通过 Translate 应用连接耳机，实现实时双向翻译。来源-twitter

LLM

四月前瞻：GPT-5.5、Claude 5、Mythos DeepSeek-V4 — 一条推文预告了即将发布的多款新模型：GPT-5.5、Claude 5 和 Mythos DeepSeek-V4，暗示四月可能迎来重要更新。帖子反映出社区对来自顶尖实验室的新一代大模型的高度期待。来源-twitter
GLM-5.1 上线：编程能力媲美 Claude Opus 4.5 — 智谱 AI 的 GLM-5.1 现已向 Coding Plan 用户开放。该模型在多个开源基准上取得高分，并在编码任务上与 Claude Opus 4.5 相当，具备 200K 上下文窗口、128K 最长输出、744B 参数及 28.5T 预训练数据，并原生支持 MCP。它支持自主多步编程、长上下文重构和智能体式工作流，可通过智谱 AI 平台的 Coding Plan Lite/Pro/Max 套餐使用。来源-reddit
Google TurboQuant 在 MacBook Air 本地跑 Qwen — 一篇 Reddit 帖子介绍了如何将 Google 的 TurboQuant 压缩方案打补丁集成进 llama.cpp，从而在一台 MacBook Air（M4，16 GB）上本地运行 Qwen 3.5–9B，并支持 20,000 token 上下文。该实验表明，大上下文提示在消费级硬件上也可能变得可行，类似 OpenClaw 的能力不再仅限高端设备。帖子还提到了一款 MacOS 应用（atomic.chat），并邀请其他人尝试类似配置。来源-reddit
Gemini Pro 泄露 chain-of-thought，并陷入无限循环 — Reddit 上有报告称，Gemini Pro 在回答时输出了内部推理过程和系统提示词，而不是最终答案，随后还陷入了无限循环，生成了成千上万行 “(End)” 文本。该事件凸显了 chain-of-thought 泄露和模型行为异常的风险，暴露内部提示词以及输出失控都可能带来安全与可靠性问题。来源-reddit
Google TurboQuant 将 LLM 压缩 6 倍且无质量损失 — 据称，Google 的 TurboQuant AI 压缩算法可在不降低输出质量的前提下，将大语言模型的内存占用减少约六倍。这一方法有望大幅提升模型部署效率，使前沿级模型有机会在消费级硬件上运行。该新闻项引用了 Ars Technica 的报道，并提到 Reddit 上的相关讨论。来源-reddit
AI 协助制定狗狗 Rosie 的 mRNA 疫苗方案 — Paul S. Conyngham 使用 ChatGPT 和其他大模型为自己的狗 Rosie 制定了一套 mRNA 疫苗方案。他表示，这些 AI 工具在人的监督下，让他能够完成类似科研工作的任务，将机器指导与专家意见相结合。这一故事暗示，此类 AI 驱动的生物技术探索可能发展为公司化项目，展示了一个现实世界中利用 AI 进行生物设计的典型案例。来源-twitter
AgentScope 发布可用于生产的 LLM Agent 框架 — AgentScope 推出了一套面向生产环境的智能体框架，旨在随大模型能力演进进行扩展，更强调推理与工具使用，而不是僵化的 Prompt。它宣称可在 5 分钟内快速上手，并内置 ReAct、记忆、规划、人类参与式调控和模型微调能力，同时提供可扩展工具体系和多智能体编排。部署方式支持本地、无服务器云和 Kubernetes，并集成 OpenTelemetry。来源-github
OpenSource4o 运动因 GPT-4o 开放趋势走红 — 一篇 Reddit 帖子指出，OpenSource4o 运动正在 Twitter/X 上流行，呼吁围绕 GPT-4o 推出开源或开放权重的相关模型。帖子提到 8 个月前发布的 GPT-OSS 模型（120B 和 20B），并承诺在评论中补充更多信息（网站、请愿等），希望发掘更多适用于编程、写作和内容创作的开放模型。来源-reddit

Industry

Google 将为 Anthropic 数据中心提供资金支持 — 据《金融时报》报道，Google 即将达成一项协议，为 Anthropic 的数据中心提供资金支持。这将扩大 Google 在 AI 基础设施方面的投资，并提升 Anthropic 的算力规模。该动向凸显出大型科技公司之间在 AI 基建上的持续合作趋势。来源-twitter

Multimodal

Intern-S1-Pro：首个万亿参数科学多模态基础模型 — Intern-S1-Pro 被介绍为首个拥有一万亿参数的科学多模态基础模型。据称，它在通用和科学推理方面都有提升，加强了图文理解能力，并加入了更先进的智能体能力，覆盖 100 多个关键科学领域中的专业任务。来源-huggingface
PixelSmile 实现精细的面部表情编辑 — 研究者提出了 Flex Facial Expression（FFE）数据集，包含连续情感标注，并构建了 FFE-Bench，用于评估编辑精度、可控性与身份保持之间的权衡。随后他们提出 PixelSmile，这是一种基于扩散模型的框架，通过完全对称的联合训练来解耦表情语义。来源-huggingface

AI

Chandra OCR 2 推进多模态文档版面识别 — datalab-to 最新发布的 Chandra OCR 2 声称，在将图片和 PDF 转换为结构化 HTML、Markdown 或 JSON 并保留版面结构方面达到了 SOTA 水平。它改进了对数学公式、表格、表单和多语种 OCR 的支持，覆盖 90 多种语言，并在手写识别、表单重构和带说明的图片抽取上表现出色。该模型既可本地运行（HuggingFace），也可通过远程 vLLM 服务器使用，并提供托管 API。来源-github
RealRestorer：利用编辑模型提升真实场景图像复原泛化性 — 真实场景图像复原依然困难重重，主要由于退化类型多样且训练数据有限。文章指出，大规模图像编辑模型在复原任务上具有良好的泛化能力，一些闭源模型（如 Nano Banana Pro）能够在保持图像内容的同时，取得有效的图像恢复效果。来源-huggingface

ASR

VibeVoice 9B 以 8.34% WER 领跑开源医疗 STT — 在第三版医疗语音转文字基准中，共评测了 31 个模型，Microsoft VibeVoice-ASR 9B 以 8.34% 的词错误率（WER）夺得开源模型头名，几乎追平 Gemini 2.5 Pro 的 8.15%。不过，其 9B 参数规模需要约 18 GB 显存，且速度较慢（约 97 秒/文件），相比之下 Parakeet 等模型更快。研究还指出 Whisper 文本归一化器存在一个 bug，使得各模型的 WER 被抬高了 2–3%，并新增了 ElevenLabs Scribe v2、NVIDIA Nemotron Speech Streaming 0.6B 和 Voxtral Mini 2602 等模型；所有代码和结果均为开源。来源-reddit

⚡ 快讯速览

Claude Code：像喝醉的 Codex——有趣、有创意，但不适合上生产 — Claude Code 被形容为比 Codex 更有玩味、更具创造力的编程助手。尽管它非常友好、有趣，但也容易犯一些低级错误，因此不应在生产环境中被完全信任。来源-twitter
EVA：用于端到端视频智能体的高效强化学习 — 文中指出，多模态大模型在视频理解上面临长序列和大量冗余帧的挑战，目前的方法往往把 MLLM 当作被动识别器，或依赖人工设计、以感知为先的流程。EVA 被提出作为一种方法，以实现端到端视频智能体的高效强化学习，从而缓解这些低效问题。来源-huggingface
Dexter：用于深度金融研究的自主 AI — Dexter 是一个面向金融研究的开源自主 AI 智能体。它会将复杂问题拆解为逐步计划，利用实时市场数据执行任务，并通过自我验证来产出有数据支撑的分析结果。来源-github
2B 模型在设备端是实用工具还是玩具？ — 一位 Reddit 用户在手机上测试了本地部署的 2B 模型（qwen2.5/3.5、gemma），发现约 80% 的回答存在幻觉。他们质疑这是使用方式有误还是模型固有限制，凸显了端侧小参数 LLM 在实际任务中的挑战与局限。讨论聚焦于 2B 模型在真实应用中的实用性。来源-reddit
推文称 UI 设计暴露了模型时代 — 一条 X 帖子指出，应用的背景渐变和按钮颜色往往能暗示其使用的是哪一代 AI 模型。作者认为这有些滑稽，也从侧面反映出 UI 设计如何泄露底层技术栈。来源-twitter
从 48GB 升到 60GB 显存值得吗？ — 一位 Reddit 用户拥有两张 RTX 3090（总共 48GB 显存）和一张额外的 RTX 3080（12GB），他在考虑是否有必要把总显存升级到 60GB。TA 希望获得关于具体使用场景的建议，并表示如果显存提升带来的收益有限，就不想为加第三张卡所带来的折腾买单。来源-reddit

由 AI News Agent 生成 | 2026-03-27