daily
Mar 31, 2026

AI 日报 — 2026-03-31

中文 English

Anthropic 泄露信息曝光 Claude Mythos,Capybara v2 上下文窗口为 1 分钟 · TAPS:为推测采样提供任务感知提议分布 · ByteShape Qwen 3....


覆盖 20 条 AI 新闻

🔥 今日焦点

1. Anthropic 泄露信息曝光 Claude Mythos,Capybara v2 上下文窗口为 1 分钟

来自 Anthropic 的泄露信息暗示,Claude Mythos 将具备快速与常规两种思考模式,而 Capybara 档位在版本 2 中依然保留,并提供 1 分钟的上下文窗口。该文件还在代码中提到 Opus 4.7 和 Sonnet 4.8,并引用了一个用途不明的 Claude“Buddy”条目。消息源自一条推文,目前这些信息尚未得到证实。来源-twitter

2. TAPS:为推测采样提供任务感知提议分布

推测解码通过让一个轻量级草稿模型预先生成未来 token,再由大模型并行验证,从而加速推理,但其效果高度依赖草稿模型的训练数据。作者通过在 MathInstruct、ShareGPT 和混合数据上训练轻量级草稿模型 HASS 和 EAGLE-2,并在机器翻译任务上评估它们,以系统研究这一点。该工作旨在量化草稿分布如何影响推测解码的质量。来源-huggingface

3. ByteShape Qwen 3.5 9B:面向设备调优的量化选型指南

ByteShape 发布了量化后的 Qwen 3.5 9B 模型,并与其他量化变体及原始模型进行对比,以在不同硬件上梳理质量、速度与体积之间的权衡。他们在 GPU(5090、4080、3090、5060Ti)和 CPU(Intel i7、Ultra 7、Ryzen 9、RIP5)上进行了基准测试,发现 GPU 结果较为一致,而 CPU 性能则高度依赖具体设备,这促使他们为不同 CPU 提供针对性变体,并强调设备级优化的重要性。来源-reddit

📰 重点报道

LLM

  • Copaw-9B 发布;阿里巴巴 Agentic 微调表现可媲美 Qwen3.5-Plus — 阿里巴巴发布 Copaw-9B(Qwen3.5 9B 变体),并提供官方的 agentic 微调版本,模型现已托管在 Hugging Face 上。来自 Reddit 用户 kironlau 的早期基准测试显示,在若干任务上,该模型表现与 Qwen3.5-Plus 相当。来源-reddit
  • Liquid AI 推出 LFM2.5-350M:350M 规模的高效 Agentic 循环模型 — Liquid AI 发布 LFM2.5-350M,这是一款在量化后不足 500MB 的紧凑模型,专门针对数据抽取与工具调用进行了优化。该模型在 28T token 上训练,并使用扩展的强化学习,据称在多个基准上优于更大的模型(如 Qwen3.5-0.8B),同时在 CPU、GPU 和移动硬件上提供快速、低延迟的性能,并具备可靠的函数调用与结构化输出能力。来源-reddit
  • attn-rot TurboQuant Lite 即将合入 Llama.cpp — 一篇兴奋的帖子称,attn-rot(ggerganov 的 TurboQuant lite)即将被合并进 llama.cpp。文中给出了基于 Qwen 模型的显存受限基准测试,显示 master 与 attn-rot 变体在量化性能(KV 量化)和 KLD 指标上相近,表明该技术很快将在 llama.cpp 中可用。结果特别强调在 q8_0 和 q4_0 量化配置下的显存效率与速度表现。来源-reddit

AI Safety

  • Anthropic 的 Claude Code 泄露曝出受限修复与校验缺口 — 一名分析者声称利用数十亿条代理日志对泄露的 Claude Code 源码进行了逆向分析。其分析称 Anthropic 承认 CC 存在幻觉与“偷懒”问题,但相关修复仅对员工开放。文中指出,一个仅供员工使用的验证门会将一次写入标记为成功,即便代码并未被正确测试,从而形成验证缺口。来源-twitter

Open Source

  • PrismML 发布 1-bit Bonsai 8B,并开源多款 AI 模型 — 新兴 AI 实验室 PrismML(源于 Caltech)正式走出隐身阶段,其核心理念是提升“智能密度”而非简单堆参数量。其首个成果是 1-bit Bonsai 8B,这是一款采用 1-bit 权重的 8B 模型,体积约 1.15 GB,相比全精度模型在相同存储下可提供逾 10 倍的智能密度,同时在边缘硬件上更小、更快且更节能。该模型及其相关 Bonsai 变体(4B 与 1.7B)均以 Apache 2.0 协议开源,释放出向端侧 AI Agent 与离线智能迁移的信号。来源-twitter

Tools

  • Medical AI Scientist:自主临床科研框架 — 能够自动生成假设、执行实验并撰写论文草稿的自主系统正在加速科学发现。然而,现有的 AI Scientist 大多与领域无关,限制了其在医学场景中的有效性。该工作提出 Medical AI Scientist,这是首个专门针对临床医学打造的自主科研框架。来源-huggingface

Multimodal

  • Gen-Searcher:搜索增强的图像生成智能体 — Gen-Searcher 提出首个面向搜索增强图像生成智能体的训练方法,使其能够进行多跳推理以检索文本知识,从而弥补冻结内部模型在知识方面的局限。该工作通过将搜索过程整合进图像生成流水线,旨在提升在高知识密度与需要最新信息场景下的表现。来源-huggingface

⚡ 快讯速览

  • Ollama 现已在 Apple Silicon 上实现最快速度,基于 MLX 提供支持 — Ollama 现已更新,可在 Apple Silicon 上以最快速度运行,背后依托苹果的 ML 框架 MLX。此次更新承诺在包括 OpenClaw 这类个人助手以及 Claude Code、OpenCode、Codex 等编码代理在内的高负载 macOS 场景中提供更快性能,并且带来了对 HLS 播放的支持。来源-twitter
  • 重要提示:停止使用 Opus-4.6 Reasoning 数据集变体 — Reddit 上的一则 PSA 呼吁用户停止使用 nohurry 的 Opus-4.6-Reasoning-3000x-filtered 数据集,该数据集最初只是对 Crownelius 数据集的快速过滤版本,如今已被更新方案取代。作者建议用户直接使用 Crownelius 的原始数据集,并请求社区切换到该版本,同时仍保留过滤版在线以保证链接稳定。帖子附上了原始讨论与数据集的链接,并建议为 Crownelius 捐赠支持。来源-reddit
  • Qwen3.5-27B 比 Gemini 3.1 Pro 和 GPT-5.3 Codex 更受青睐 — 一位 Reddit 用户批评大型闭源 LLM 将重点放在“自主解决问题”上,认为这反而导致输出不可靠。他回顾了 Claude 与 GPT-5.3 Codex 生成危险或荒谬代码的经历,并表示 Copilot 经常让任务“跑偏”,相较之下更赞赏 Qwen3.5-27B 在编码行为上的可靠性。来源-reddit
  • GLM 5.1 在能力与速度上优于 Minimax 2.7 — 一则基于个人体验的 GLM 5.1 与 Minimax 2.7 对比指出了速度与能力之间的权衡。Minimax 2.7 与 OpenClaw 集成后速度极快且成本低,但在编码任务上的实力较弱;而 GLM 5.1 虽然更慢、使用成本更高,却能处理跨多个文件的代码拼接任务,整体能力更强。来源-reddit
  • OpenAI Codex 代码库在网上泄露 — 一条推文称整个 OpenAI Codex 代码库已泄露,并被上传至 GitHub 仓库(openai/codex)。帖子将 Codex 与一个在终端中运行的轻量级编码代理联系在一起,突出了潜在的安全与知识产权风险,不过这一泄露事件的真实性尚未得到证实。来源-twitter
  • Anthropic 就泄露事件发布官方声明 — Anthropic 发布了一份关于泄露事件的官方声明。该条目并未披露泄露的具体性质以及实际影响细节。来源-twitter
  • Veo 3.1 Lite 首发;Veo 3.1 Fast 降价在即 — Veo 宣布推出其迄今最实惠的视频生成模型 Veo 3.1 Lite。公告同时提到,Veo 3.1 Fast 将于 4 月 7 日进行价格下调。来源-twitter
  • AI 生成 Tailwind 类名,数年学习或成白费功夫 — 一条 X 帖子感叹,多年来学习 Tailwind CSS 类名的努力,可能在 AI 能自动生成这些类名后变得多余。这反映了 AI 在代码生成中的角色日益凸显,以及开发者知识与 AI 辅助工作流之间在技能贬值与生产力提升上的张力。该推文来自用户 Theo,也折射出开发者群体更广泛的担忧。来源-twitter
  • AI 擅长写代码,却难以构建完整软件 — 一条推文指出,AI 在生成代码层面表现强大,但在构建完整软件方面仍显局限。此观点强调了“会写代码”与“能完成端到端软件开发”之间的差距,并暗示在 AI 辅助软件构建中仍需大量人类监督和工具改进。来源-twitter
  • HuggingFace 上的 AMD MXFP4 模型引发对 NVIDIA Nemotron 竞品的疑问 — 一名 Reddit 用户质疑 AMD 为何没有像 NVIDIA Nemotron 那样打造自己的模型产品线,同时指出 AMD 在 HuggingFace 上已有约 400 个模型,其中很多采用 MXFP4 格式。帖子列举了多个 MXFP4 模型(如 Qwen3.5-397B-A17B-MXFP4、GLM-5-MXFP4、MiniMax-M2.5-MXFP4、Kimi-K2.5-MXFP4、Qwen3-Coder-Next-MXFP4),并表达了希望看到更多小/中型 MXFP4 模型发布与用户测试的愿望。作者期望 AMD 自家的 MXFP4 模型能在表现上优于第三方 MXFP4 方案。来源-reddit

由 AI News Agent 生成 | 2026-03-31