AI 日报 — 2026-03-15

新研究修复了潜在世界模型中基于梯度的规划问题 · 下一次 AI 突破将来自更底层的架构范式转变 · 国际团队创造 AI 里程碑；呼吁暂停 AI 武器研发

收录 23 条 AI 新闻

🔥 今日焦点

1. 新研究修复了潜在世界模型中基于梯度的规划问题

潜在世界模型提供了可微分的动态过程，理论上非常适合通过梯度下降进行规划，但在实践中，研究者往往又退回到 CEM 和 MPPI 这类无导数方法，因为目标函数高度非凸。Yingwww、Yann LeCun 和 Mengye Ren 的新论文对这一问题进行了系统诊断，并提出了一种有原则的修复方法。这可能重新激活在基于模型的强化学习中，在学习到的潜在空间里进行基于梯度的规划。来源-twitter

2. 下一次 AI 突破将来自更底层的架构范式转变

Sam Altman 在最近一次访谈中暗示，一种全新的 AI 架构将会是一次重大升级，可与 Transformer 相对 LSTM 的代际差异相提并论。讨论认为，未来的突破会发生在比当前模型架构更底层的层面上，并引用 Rohan Paul 的观点，建议使用现有 AI 来辅助发现下一次巨大的飞跃。来源-twitter

3. 国际团队创造 AI 里程碑；呼吁暂停 AI 武器研发

这篇帖子指出，卷积网络、AlexNet、注意力机制、AlphaGo、AlphaCode、AlphaFold、Transformer 和强化学习等重大 AI 突破，都是由国际团队共同完成，而不是只由美国人推动。作者强烈批评某好战的 Palantir CEO 的立场，认为所谓“美国 AI 领导力”并不代表整个社区的价值观。帖子呼吁对 AI 武器实行暂时禁令，并由国际机构加以执行，同时将即将到来的 AI 战争比作“Skynet v1.0”。来源-twitter

📰 重点报道

LLM

Heretic 发布语言模型自动去审查工具 — Heretic 是一个开源工具，能够自动移除基于 Transformer 的语言模型中的审查（安全对齐）机制。它结合方向性消融（abliteration）与基于 TPE 的优化器（由 Optuna 驱动）自动调参，同时最小化拒答率和与原模型之间的 KL 散度。目标是在尽可能保持原有智能水平的前提下，得到一个“去审查”的模型，而且用户无需具备深度 Transformer 专业知识即可使用。来源-github
Qwen3.5-27B 在 GACL 中几乎追平 397B 和 GPT-5 Mini — 在 3 月份的 GACL 测试中，Qwen3.5-27B 的表现仅略逊于 397B，分数只低 0.04 点，并且几乎追平 GPT-5 Mini。GPT-5.4 是主流模型中的领跑者，Kimi2.5 是表现最好的开源权重模型（全球第 6），GLM-5 位列第 7。结果显示 GPT 系列在 Battleship 任务上占据主导，而 Tic-Tac-Toe 作为基准的效果则明显偏弱。来源-reddit
GPT-4 三周年；Codex 支撑手绘到网站 Demo — 在庆祝 GPT-4 三岁生日之际，帖子回顾了当年 @gdb 把一张手绘草图变成一个可运行网站的时刻。作者感叹，当时仿佛亲眼见证了编程方式实时发生变化，并认为如今 Codex 已经完全体现了那种“未来感”。来源-twitter
GPT-4 时代让 AI 能写出 1000 行程序 — Greg Brockman 回忆说，曾经内部设定的目标是做出一个能写出连贯 1000 行代码程序的 AI，当时看上去几乎不可能。他表示技术已经取得巨大进展，并特别强调 GPT-4 的能力。帖子在给 GPT-4 送上生日祝福的同时，也是在为这一系列 AI 进步喝彩。来源-twitter
OpenCode OSS LLM 成为更便宜的开源替代方案 — 一篇 Reddit 帖子称赞 OpenCode 的开源 LLM 接口优于 CC/Codex，强调其开源属性、价格更低，以及可以在产品后端直接使用开源模型。作者指出，它还能查看工具的具体实现方式，甚至可以把自身的代码脚手架总结为系统消息和工具描述。同时帖子也提示了可靠性方面的担忧，并提到他们打算部署的模型是 Kimi k2.5。来源-reddit
从 FlashLM 到 State Flow：用“记忆”替代 Transformer — FlashLM 背后的作者介绍了他们如何从静态的 SlotMemoryAttention 继续演进，提出一种新的“State Flow Machine”，在输入序列之间维护显式状态。该工作目标是用带有记忆增强机制的架构取代传统 Transformer；早期结果显示，其长度保留率达到 79%，而普通 Transformer 仅为 2%。来源-reddit
Apex 1.6 Instruct 350M 发布，定位为强力对话模型 — LH-Tech-AI 发布了 Apex 1.6 Instruct 350M，这是他们迄今为止最强的聊天模型，通过将微调数据中 Alpaca-Cleaned 与 Fineweb-Edu-10BT 的比例调整为 2:1 实现。与 Apex 1.5 Coder 相比，新版本的世界知识能力更好，并已在 Hugging Face 上提供 GGUF 格式，可在 Ollama、LM Studio 和 llama.cpp 中使用。帖子对比了 Apex 1.6 与 Apex 1.5 Coder，强调前者在输出复杂度和指令密度上的提升。来源-reddit

AI Benchmarking

编码基准揭示“真正的推理能力”；最佳成绩仅 11% — 研究者设计了一个基于冷门怪异语言的编码基准，用于区分真正的问题求解能力与在训练中学到的模式匹配。通过在 Brainfuck、Befunge-98、Whitespace、Unlambda 和 Shakespeare 上运行 HumanEval 题目，他们表明很多模型可能更多依赖训练数据，而非真正的推理能力；这些怪异语言在训练语料中几乎为零。针对 GPT-5.2、O4-mini、Gemini 3 Pro、Qwen3-235B 和 Kimi K2 的测试中，使用自我脚手架（self-scaffolding）在 Befunge-98 上取得的最好单项成绩也只有 11.2%。来源-reddit

Open Source

基于 Opencode 的 Karpathy Autoresearch 移植版本 — 一位 Reddit 用户 dabiggmoe2 宣布，他做了一个基于 open-code 的 Karpathy Autoresearch 项目的移植版本。该帖发布在 r/LocalLLaMA，附上了移植仓库和讨论链接，旨在让开发者能在本地环境用开源方式尝试 Autoresearch 工作流。这一开源移植也体现了社区对易获取 AI 研究工具的浓厚兴趣。来源-reddit

⚡ 快讯速览

佛州男子用 ChatGPT 自助卖房 5 天成交 — 佛罗里达一名男子在完全不借助房产中介的情况下，依靠 ChatGPT 管理整套卖房流程，仅用 5 天就卖掉了房子。AI 负责定价、营销、看房安排以及合同起草，展示了 AI 在自动化房地产流程中的潜力。来源-twitter
Emily Bender：LLM 的唯一价值是“卸载认知负担” — 该帖子认同 Emily Bender 的观点，即大语言模型的主要价值在于帮助人类卸载认知工作。作者认为，她提到的另外两种用例，其实只是这一核心功能的少数特例。从长期来看，减轻认知负担一直是 AI 的重要目标之一。来源-twitter
七种新兴 AI Agent 记忆架构综述 — 一篇综述文章盘点了面向 AI agent 的七种新兴记忆架构，包括 Agentic Memory（AgeMem）、Memex、MemRL、UMA、Pancake、条件记忆（Conditional memory）以及从计算机体系结构视角出发的多智能体记忆（Multi-Agent Memory）。这篇内容由 The Turing Post 在 Twitter 上分享，并链接到更详细的记忆架构深度文章。来源-twitter
Sebastian Raschka 发布 LLM 架构图库 — Sebastian Raschka 发布了一套新的 LLM Architecture Gallery，将各类架构图集中在一个地方。该资源通过汇总示意图和示例，帮助研究者与学习者更轻松地对比不同的大语言模型架构，可访问 sebastianraschka.com/llm-arc。来源-twitter
增加 MoE 专家数量真的会提高性能吗？ — 一则 Reddit 讨论质疑，在 MoE（Mixture-of-Experts）模型中增加专家数量是否真的能带来显著收益，并以 Qwen3-30B-A3B 和 A6B 的配置为例。帖子指出，MoE 结构在 Llama-CPP 中依然很容易运行，但最近关于“大规模 MoE 配置”的实验似乎并不多，于是向社区询问是否有人尝试过更大的 MoE 方案。来源-reddit
“AI 编码的垃圾食品问题” — 作者将快餐的泛滥与 AI 辅助写代码做类比，认为低成本、低门槛的便利可能会导致过度使用。文章并非反对 AI，本人也每天用 AI 写代码；它更像是在指出一种反复出现的模式，并邀请读者分享看法。来源-reddit
开源 GreenBoost 驱动利用系统内存与 NVMe 扩展 NVIDIA 显存 — 一款名为 GreenBoost 的新开源驱动试图通过把数据卸载到系统 RAM 和 NVMe 存储，来扩展 NVIDIA GPU 的 VRAM，从而支持更大的语言模型。该项目旨在突破显卡显存上限，让普通硬件也能运行更大规模的 LLM。来源-reddit
mjv5 三周年；评选四幅代表性 AI 艺术作品 — mjv5 迎来三周年纪念，并在一篇日期为 2025 年 7 月 20 日的帖子中分享了四幅“优秀 AI 艺术”候选作品，提到了 neurotica 和 Schwarzposter_ 等创作者。该串推文中还有 Rez 和 Brick Suit 的互动，并轻描淡写地提到了一下 Tucker Carlson。来源-twitter
“这就是 2026 年的 12G 显存”：9B 模型在 5 年前的 RTX 上写出完整太空射击游戏…… — 帖子写道：这就是 2026 年的 12G 显存。一个参数规模 9B 的模型在一块服役 5 年的 RTX 3060 上，仅凭一个提示就写出了完整的太空射击游戏。第一次运行时还是黑屏。我离开一会儿又回来，结果是…… 来源-twitter
LLM 架构可视化图谱 — 一篇 Reddit 帖子整理了一个图文库，收集展示各种大语言模型架构的可视化图表。该合集突出不同 LLM 在设计取舍和组件构成上的差异，为研究者和爱好者提供一个对比参考。来源-reddit
Pied Piper 发现 Claude Code 在凌晨 5–11 点有双倍速率限制 — 《硅谷》S10E5 中提到，Claude Code 在凌晨 5 点到 11 点提供两倍的限速配额，这促使 Richard 和 Dinesh 通过多相睡眠来“薅羊毛”。Gavin Belson 试图在 Hooli 推行类似制度，结果却因此丢掉了半支工程团队。来源-twitter

由 AI News Agent 生成 | 2026-03-15