daily
May 25, 2026

AI 日报 — 2026-05-25

中文 English

AlphaProof Nexus 搭配 Gemini 解决多项开放数学难题 · Grok V9-Medium(1.5T)训练完成;数周内发布 · DeepSeek V4 Flash 在 Nous...


涵盖 32 条 AI 新闻

🔥 今日焦点

1. AlphaProof Nexus 搭配 Gemini 解决多项开放数学难题

基于 Google DeepMind 的 AlphaProof Nexus 构建的 AI 智能体,已自主解决多项正式数学领域的开放问题,其中包括 9 个 Erdős 问题(其中两个已悬而未决 56 年)、44 个 OEIS 挑战、一个拖延了 15 年的代数几何问题,以及一个悬而未决 7 年的极大极小优化问题。该成果展示了由 Gemini 驱动的智能体循环在攻克研究级数学问题上的潜力,并与组合数学、图论和量子光学等领域的数学家展开合作。相关论文可在 arXiv:2605.22763v1 查阅。 来源-twitter

2. Grok V9-Medium(1.5T)训练完成;数周内发布

Grok 宣布其拥有 1.5T 参数的 V9-Medium 基础模型已完成训练,初步评估结果积极。补充训练阶段加入了更多 Cursor 数据,且还会继续增加;目前正处于微调阶段,很快将启动强化学习。团队预计在 2 至 3 周内公开发布,该模型在困难编程任务上应该会显著优于当前 0.5T 参数的 v8-small。 来源-twitter

3. DeepSeek V4 Flash 在 Nous Portal 免费开放给 Hermes Agent 使用

DeepSeek V4 Flash 重返 Nous Portal,并可通过 Hermes Agent 免费使用。Nous Portal 推动对 DeepSeek V4 Flash 的免费访问,同时将 Nous Research 定位为专注“以人为本”语言模型与模拟器的开发团队。 来源-twitter

📰 重点报道

AI Safety

  • Anthropic 联合创始人警告:AI 或将消灭一半初级白领岗位 — Anthropic 联合创始人 Dario Amodei 过去一年多来一直警告,AI 可能引发大规模岗位流失;他在 2025 年 5 月曾表示,未来五年内多达 50% 的初级白领岗位可能被淘汰,失业率或达 10-20%。在 2026 年 1 月,他发表了一篇 2 万字长文,论证 AI 将作为一种“通用劳动力替代品”带来异常剧烈的冲击。文章还提到达沃斯期间关于硅谷“零级世界”(zeroth world)经济的警示,并引用数据:2025 年科技行业初级岗位招聘下滑、华尔街银行削减约 20 万个初级岗位、标普 500 公司整体出现净裁员,以及 Anthropic 自身的劳动力市场研究结果。 来源-twitter
  • 教宗警示:AI 必须服务于人的尊严,警惕国家权力滥用 — 教宗指出,AI 必须服务于人的尊严,而不是被用来实现支配或排斥。他警告说,如果给予政府对 AI 过于宽泛的控制权,可能会催生审查、监控和对公民的操控,并援引奥威尔的《1984》以及“谁来监管监管者”(Quis custodiet ipsos custodes)的古老格言。文章将此视为 AI 治理中真正的“对齐问题”。 来源-twitter
  • Anthropic 聘用 Karpathy,在武器化争议中打出“伦理牌”的公关胜利 — Anthropic 高调聘用 Andrej Karpathy,被外界视为一场重要的公关胜利,凸显该公司对热门研究者的吸引力以及其强调伦理立场的形象。报道提到过去与“战争部”(Department of War)在 Claude 是否可用于自主武器上的紧张关系,这一争议导致 OpenAI 和 Google 拿下相关合同,而 Anthropic 则被贴上供应链风险标签。同时也提及 Dario Amodei 关于失业的警告,将这次人事动作置于更大的 AI 产业博弈之中。 来源-twitter

Multimodal

  • Lens 3.8B 文生图模型以高效率超越更大规模模型 — Lens 是一款拥有 38 亿参数的文生图模型,在多个基准上能与参数量超过 60 亿的最新模型持平甚至超越,同时只使用了约 19.3% 的训练算力。其高效性来源于紧凑的模型规模,以及在每个训练 batch 中最大化数据信息密度的策略。 来源-huggingface

Open Source

  • NuExtract3:面向 Markdown 与 OCR 的 4B 开源权重 VLM — NuExtract3 是基于 Qwen3.5-4B 构建的 40 亿参数视觉语言模型,采用 Apache-2.0 许可开源权重。它面向复杂文档的实用信息抽取任务——将图像/文本转为 Markdown,并从 PDF、表单、表格、小票和多页版面中提取结构化数据——可自托管,并支持基于目标 JSON 模板输出。该模型延续自 NuMarkdown,并在 HuggingFace 上提供免费体验空间。 来源-reddit
  • MiMo V2.5-Coder 发布:为本地 128 GB 内存环境优化 — MiMo V2.5-Coder 已发布,并被宣传为在 128 GB 内存本地系统上运行表现最好的模型之一。作者称其速度很快,在实验中性能优于 Qwen 3.6 和 DeepSeek 4-Flash。项目强调开源与开放科学,模型托管在 Hugging Face。 来源-twitter
  • Frigate NVR 为 IP 摄像头提供本地实时目标检测 — Frigate NVR 是一套完整的本地 NVR 方案,为 Home Assistant 设计,利用 OpenCV 和 TensorFlow 对 IP 摄像头进行实时目标检测。它强调本地处理、多进程以实现高 FPS、低开销运动检测,并通过 MQTT 与 Home Assistant 集成。 来源-github

LLM

  • OSCAR RotationZoo:离线 2-bit KV Cache 旋转矩阵 — OSCAR RotationZoo 提供面向 OSCAR INT2 KV-cache 量化的预计算 K/V 旋转矩阵。它打包了一系列工件,支持离线估计“注意力感知”的 K/V 协方差,以及按层构建的正交旋转,使 2-bit 量化方向与注意力方向对齐。据称该方法在致密推理模型上,可带来约 7 倍 KV-cache 内存压缩,在 GPQA 上仅有小幅精度损失,并以可直接使用的 .pt 文件形式发布。 来源-reddit
  • Herm 提升 Python 性能,在多轮基准上击败 Codex — Herm 的更新公告称,其 Python 性能已有明显提升,与大型 Rust 代码库相比也具竞争力。作者声称 Herm 在多数多轮对话基准上优于 Codex,并附上了指向 NousResearch/herm 的 GitHub PR 链接。 来源-twitter
  • Earendil-Works 发布 pi AI Agent 工具包 — pi 项目发布了开源 AI 智能体工具包,包含一个代码智能体 CLI、统一的多提供商 LLM API,以及 UI 库(TUI 和 Web)。该工具包基于 pi agent harness monorepo 构建,内含代码智能体、智能体运行时和 LLM API 等模块。pi.dev 域名由 exe.dev 捐赠;新的 issue 和 PR 默认会被自动关闭,并由维护者每天审阅;参与细节可见 CONTRIBUTING.md。 来源-github
  • 开源代理实现免费 Claude Code 访问 — 一个名为 free-claude-code 的开源“即插即用”代理项目,可将 Anthropic Claude Code API 调用路由至 17 个后端提供商,从而通过 CLI、VS Code 和类 Discord 界面免费使用 Claude Code。它支持按模型路由,并通过代理的 /v1/models 端点暴露 Claude Code 的模型选择器,同时允许用户在免费、付费或本地模型之间切换。该仓库由 Alishahryar1 创建,列出的提供商包括 NVIDIA NIM、OpenRouter、Gemini、Mistral、llama.cpp、Ollama 等。 来源-github
  • CUDA 快速 FWHT 加入 llama.cpp,略微提升速度 — 一则 Reddit 帖子称,am17an 为 llama.cpp 添加了用于 CUDA 的快速 Walsh-Hadamard 变换(FWHT),以加速量化 KV-cache 路径。基准结果显示,在 5090 显卡和多种配置下,pp 测试提升约 1-2%,tg 测试提升约 7-9%。 来源-reddit
  • Qwen 0.8B 在 Pangram 数据集上微调用于 AI 内容检测 — 一个基于 Qwen 0.8B 的 AI 内容检测器,利用 EditLens 在 Pangram 数据集上完成微调,被打包为名为 Slop Hammer 的 Chrome 扩展。该工具在本地运行,首次使用需从 Hugging Face 下载约 400MB 的模型文件,在 M1 MacBook Pro 上可在约 1 秒内给出文本为 AI 生成的概率分布。作者将 Qwen 0.8B 与其他模型(Llama 3.2 3B、Qwen 2B、Gemma 各版本)比较后认为其表现更好,微调耗时约 20 小时(RTX 3090)。 来源-reddit
  • Qwen3.6 27B 在 V100 GPU 上实现 1000 TPS — Reddit 用户 Simple_Library_2700 报告称,使用 NVIDIA V100 GPU,在 Qwen3.6 27B 上实现了每秒 1000 token 的生成速度。测试使用了 128 个并发请求(超过实际需求),而对单个用户而言,生成速度约为 80 token/s,处理速度约 3000 token/s,且未使用 MTP(multi-tasking pipeline)。 来源-reddit
  • 关于 Qwen 27B Q8 量化的最佳选择?社区讨论与备选方案 — 一则 Reddit 帖子询问在 Qwen 27B 上使用何种量化配置能获得最佳性能。作者提到社区在 Q4–Q6 之间的讨论,自己目前运行的是 Unsloth 的 Q8,但即便开启 MTP 仍然偏慢,并考虑是否应切换到 Q8 35B A3B 等替代方案。 来源-reddit
  • MiniCPM5-1B 发布:10 亿参数本地 LLaMA 模型 — 一则 Reddit 帖子重点介绍 MiniCPM5-1B,这是一款与 LocalLLaMA 社区相关联的 10 亿参数模型。帖子链接指向关于该模型的更多信息,但条目本身未给出详细规格。 来源-reddit

AI

  • Claude 知识工作插件开源 — Anthropics 开源了 11 个插件,用于将 Claude Cowork 打造成针对不同知识工作岗位的专业助手。每个插件都打包了一组技能、连接器、斜杠命令和子智能体,并可根据企业自身的工具、数据和工作流进行定制。这些插件可在 Plugin Marketplace 与 GitHub 获取,且与 Claude Code 有广泛兼容性。 来源-github

⚡ 快讯速览

  • 教宗良十四发布关于 AI 时代守护人性的通谕 — 梵蒂冈发布通谕《Magnifica Humanitas》,由教宗良十四撰写,探讨 AI 对人类尊严构成的挑战。文件指出,在基督身上彰显的人类尊严不可由机器替代,并呼吁信徒在人工智能时代保持深刻的人性。该通谕将 AI 视为对道德责任的一场考验,强调必须守护人的主体性。 来源-twitter
  • Qwen3.7-Max 上线隐式缓存,更快更省 — 阿里巴巴的 Qwen3.7-Max 现已支持自动启用的隐式缓存,无需额外配置。更新声称可在开箱即用的情况下提供更快、更便宜的推理体验,同时也保留了显式缓存选项,以获得更高且更可控的命中率。 来源-twitter
  • Claude Code 通过网络请求实现 API 逆向工程 — 该帖展示如何使用 Claude Code 搭配 browser_harness 或 Playwright 嗅探网络请求,从而推断难以通过 DOM 导航的网站的 API 结构与认证机制。文中示范了如何测试和映射速率限制,以实现自动化数据抓取,并构建诸如旅行 CLI、网站监控等项目。 来源-twitter
  • GPT-5.5 Pro 在事实核查方面表现出色(Ethan Mollick 评论) — Ethan Mollick 称赞 GPT-5.5 Pro 是一款强大的事实核查工具,能够处理整章内容并准确定位关键参考文献。他指出,该模型经常会给出细致的限定和补充说明,既能标记非常细微的错误,又能保持整体观点不失真,这凸显了 GPT-5.5 Pro 作为可靠 AI 辅助事实核查工具的潜力。 来源-twitter
  • SkillOpt:用于智能体自进化技能的文本空间优化方法 — 论文主张,智能体技能应被视为冻结智能体的“外部状态”,并使用与权重空间优化相同、可复现实验的严谨方法来训练。作者提出 SkillOpt,据其所知,这是首个系统化、可控的文本空间优化方法,用于让智能体技能不断进化。 来源-huggingface
  • 重新思考扩散 Transformer 中的跨层信息路由 — 该论文对 Diffusion Transformers(DiTs)中的跨层信息流进行了系统实证分析,强调残差流仍延续了原始 Transformer 中的关键角色。文中讨论了这一结构对信息在各层间路由方式的影响,并提出了重新设计 DiTs 跨层通信机制的若干方向。 来源-huggingface
  • 12×32GB SXM V100 集群:本地法律 AI 框架更新 — 一位律师更新了其本地 AI 集群进展,目前集群包含 12 张 V100-SXM2 32GB GPU,搭载 Threadripper Pro,并对板间 NVLink 布局进行了精细设计。第二个节点(EPYC 7302P、512GB 内存、4×RTX 3090、2×V100-PCIe)也已加入。作者放弃了在本地模型上使用 vLLM,但仍依靠 Claude Code 驱动整个系统,尽管对整体方案仍存不确定感。 来源-reddit
  • 更小、量化程度更低的模型能否击败更大、更强量化的模型? — 一名 Reddit 用户询问,更小的模型在使用较“宽松”的量化时,能否超越更大但高强度量化的模型,并举例对比 Gemma 4 31B Q4 K S 与 Gemma 4 26B A4B Q8,以及 Qwen 3.6 27B Q4 K M 与 Qwen 3.6 35B A3B Q6 K。TA 想知道在什么情况下值得切换量化等级,并说明其主要应用场景是创意写作。 来源-reddit
  • 本地 LLM 动态生成个性化交互教材 — 一则 Reddit 帖子探讨使用本地开源 LLM 动态生成个性化交互式教材的方案。该方法旨在按需、递归地构建适配个体需求的学习材料。帖子引用了 Local LLaMA 社区,由用户 Ryoiki-Tokuiten 发布在 r/LocalLLaMA。 来源-reddit
  • 对署名为人类、实为 AI 代写邮件的担忧 — 一条推文表达了对那些被宣传为“人写”的邮件实则由 AI 生成的现象的不安,认为这种做法具有欺骗性。作者质疑有谁会容忍这种欺骗,并凸显了在 AI 介入的沟通中存在的信任问题。 来源-twitter
  • 呼吁公开 OpenAI Dota 机器人架构;Olah 将谈 AI 通谕 — 一则社交媒体帖子呼吁 OpenAI 公开其 Dota 机器人架构,指责该组织言行不一。该条目还提到,Anthropic 联合创始人 Chris Olah 受邀就教宗良十四关于 AI 的通谕《Magnifica humanitas》发表演讲,并附上他发言的链接。 来源-twitter
  • Building with Codex — 一条推文提到使用 Codex 构建项目,但未提供更多上下文或细节。 来源-twitter

由 AI News Agent 生成 | 2026-05-25