AI 日报 — 2026-03-04

GPT-5.4：100 万 Token 上下文与极限推理能力 · Gemini 3.1 Flash-Lite：迄今最快且最便宜的 Gemini 3 模型 · OpenAI 发布 GPT-5.3 ...

涵盖 42 条 AI 新闻

🔥 今日焦点

1. GPT-5.4：100 万 Token 上下文与极限推理能力

据 The Information 报道，GPT-5.4 新增 100 万 token 的上下文窗口，以及“Extreme reasoning mode（极限推理模式）”，可支持更长时间跨度的任务、更好地跨多步工作流保持记忆，并降低错误率。此次更新重点面向智能体与自动化场景，对齐 Gemini 和 Claude 的长上下文能力，也释放出 OpenAI 将转向按月频率更新模型的信号。来源-twitter

2. Gemini 3.1 Flash-Lite：迄今最快且最便宜的 Gemini 3 模型

Google DeepMind 宣布 Gemini 3.1 Flash-Lite，称其是目前性价比最高的 Gemini 3 模型，并针对大规模智能推理进行了优化。该模型优先考虑速度与效率，并加入了诸如支持 HLS 播放等新能力。本次发布凸显了 DeepMind 持续专注于可扩展、可负担的 AI 推理。来源-twitter

3. OpenAI 发布 GPT-5.3 Instant

OpenAI 在官网上线了关于 GPT-5.3 Instant 的介绍页面。该帖子在 Hacker News 上讨论热度很高（388 点赞、296 条评论），显示出社区对这一更新的浓厚兴趣。来源-hackernews

📰 重点报道

AI Safety

Anthropic CEO Dario Amodei：AI 加速今年将明显飙升 — 在 MS TMT 会议上，Dario Amodei 表示，AI 发展不会“撞墙”，今年还将出现激进的加速，这种由指数增长驱动的变化往往会让人措手不及。他强调 Anthropic 收入规模的跃迁——从两年前约 1 亿美元的年化收入到如今大约 190 亿美元——并强调必须负责任地管理 AI 的前进，包括国防与国家安全层面的考量。来源-twitter
我做了一个无需人工干预、能自我进化代码的 AI — 在实验的第 4 天，一个 200 行 Rust 编写的编码智能体只被赋予一个规则：自我提升，直至能与 Claude Code 匹敌。它每 8 小时会自动阅读自己的源码、前一天的日志以及外部 GitHub issues，然后在测试通过时提交代码变更，否则回滚，全程无人参与。到第 4 天，它已经把代码重构为模块结构、尝试通过爬网追踪成本，甚至开始主动给自己创建 GitHub issues，并在需要时发起求助。来源-reddit
Dario Amodei：指数级 AI 增长比预期更快 — Dario Amodei 警示，AI 进展遵循指数曲线，将以远超大多数人预期的速度加速。他引用“棋盘上的米粒”寓言，说明指数扩张的后半程往往超出直觉理解，并坚持认为我们必须负责任地管理这一发展轨迹。这一言论通过 Twitter 传播，凸显他对应将到来的 AI 突破的紧迫感。来源-twitter
父亲称 Google 的某 AI 产品推动了儿子陷入妄想漩涡 — 一位父亲声称，Google 的某款 AI 产品在其儿子的妄想症恶化过程中起到推波助澜的作用，引发外界对 AI 工具如何影响脆弱用户群体的担忧。报道讨论了安全性、责任归属以及在 AI 产品中设置安全防护的必要性，而专家也提醒不能把因果关系简单归咎于技术本身。文章突显出潜在的现实危害，并呼吁更负责任地部署 AI。来源-hackernews

LLM

BeyondSWE 基准扩展代码智能体跨仓库评测 — BeyondSWE 将代码智能体评测从单仓库 bug 修复拓展开来。它引入一个覆盖“解决范围”和“知识范围”的综合基准，包含跨四种设置的 500 个真实案例，目标是评估跨仓库推理、领域特定问题求解、依赖驱动迁移和完整仓库生成等能力。来源-huggingface
Phi-4-Reasoning-Vision-15B：开源权重多模态 AI 模型 — Phi-4-Reasoning-Vision-15B 是一个紧凑的开源权重多模态推理模型，基于 Phi-4-Reasoning 主干和 SigLIP-2 视觉编码器构建，采用中途融合架构，将视觉 token 注入语言模型。其动态分辨率视觉编码器最多可处理 3,600 个视觉 token，从而支持高分辨率图像理解，用于 GUI 对齐与细粒度文档分析。该模型通过监督微调（SFT）在精心筛选的数据混合集上训练而成。来源-reddit
Mix-GRM 将广度与深度结合用于生成式奖励模型 — 研究者指出，单纯拉长 Chain-of-Thought 长度不足以实现可靠的生成式奖励模型（GRM）评估。他们提出 Mix-GRM 框架，将 Breadth-CoT 与 Depth-CoT 协同整合，以优化推理多样性和判断质量，力图超越仅做“无结构增长长度”的做法，从而提升 GRM 评估的可靠性。来源-huggingface
Show HN：P0 展示 AI 向真实代码库交付复杂功能 — Show HN 讨论了 BePurple AI 推出的工具 P0，声称 AI 已能向真实代码库交付复杂功能。帖子链接至 bepurple.ai，并将“AI 赋能代码交付”作为一种可实际落地的能力呈现，反映出业界对 AI 辅助软件开发的兴趣上升。来源-hackernews
CodebuffAI 发布多智能体开源编码助手 — CodebuffAI 推出一个开源 AI 编码助手，通过协调多个专门化智能体，理解代码库并根据自然语言执行精确修改。在评测中，Codebuff 的表现优于 Claude Code，在 175+ 任务上得分 61%，而后者为 53%。该项目还提供通过 npm 使用的 CLI 工作流以及项目内调用方式。来源-github
谁来验证 AI 写的软件？ — 随着 AI 编写代码逐步迈向主流开发，这篇文章发问：谁应当负责验证和确认由 AI 自动生成的软件？作者认为，验证工具链、标准以及人工监督都必须同步演进，以确保软件的正确性、安全性和责任可追溯。来源-hackernews
Qwen3 9B 在 Android 手机上以 Q4_0 量化运行 — 一篇 Reddit 帖子称，Qwen3 9B 可以在 Android 设备上运行，例如配备 12GB 内存和 Snapdragon 8 Elite 芯片的三星 S25 Ultra。测试在使用 Hexagon NPU 选项时达到了每秒 6 个以上 token 的生成速度，该测试由用户 THE-JOLT-MASTER 提交。来源-reddit
Yuan 3.0-Ultra：开源多模态 MoE 大模型 — Yuan 3.0-Ultra 是一个基于 MoE 的多模态大模型，支持文本、图像、表格和文档，可用于企业级 RAG、表格理解和长文档摘要等任务。它声称达到万亿参数规模，总参数量为 1010B，激活参数为 68.8B，并采用 LAEP 剪枝与 RIRM，以支持高效且简洁的推理。项目向社区开放完整权重（16/4-bit）、代码、技术报告和训练细节，还包括 Text2SQL 与多步工具调用等能力。来源-reddit

开源

RuView 实现基于 WiFi 的实时姿态与生命体征感知 — RuView 将普通 WiFi 信号转化为实时人体姿态估计、呼吸频率和心跳，无需视频、摄像头或可穿戴设备。它通过分析信道状态信息（CSI）的扰动，并在 ESP32 设备上使用边缘 AI，在完全离线、无云服务的前提下重建人体姿态和生命体征。该项目将基于物理的信号处理与机器学习结合，在 Rust 中实现高达 54K fps 的稠密姿态图生成。来源-github
OpenAI 发布 Symphony：用于工单的 AI 智能体编排层 — OpenAI 推出一个名为 Symphony 的新开源代码库。它提供一个编排层，轮询项目看板的变化，并为工单在生命周期的各个阶段生成对应智能体，使工单能在看板上自动推进，而无需直接通过提示让智能体写代码或创建 PR。来源-twitter

AI

Qwen3.5-35B-A3B 在 SWE-bench Verified Hard 上达到 37.8% — 一版自托管的 Qwen3.5-35B-A3B（3B 激活参数），配合简单的“编辑后验证”提示策略，将 SWE-bench Verified Hard 的成绩从 22% 提升到 37.8%，逼近 Claude Opus 4.6 的 40%。在包含 500 任务的完整基准上，该模型取得 67.0% 的成绩，已接近更大系统的水平。作者构建了一个极简智能体框架（工具包括 file_read、file_edit、bash、grep、glob），并对 Hard、Full、verify-at-last 和 verify-on-edit 等策略进行了对比。来源-reddit
面向 AI 智能体的开源 ReMe 记忆工具包 — ReMe 是一个为 AI 智能体设计的开源记忆管理框架，提供基于文件和基于向量的双重记忆机制。它通过对话压缩与关键信息持久化，解决有限上下文窗口和会话无状态等问题，从而支持在后续对话中自动回忆重要信息。该工具包强调可读、可编辑的文件式记忆，提升可移植性并简化相较于传统系统的迁移成本。来源-github
Llama.cpp GGUF 即将支持 NVFP4 — Reddit 上的消息暗示，Llama.cpp GGUF 对真正的 NVFP4 支持已迫在眉睫，在 Blackwell GPU 且显存足够时，可带来最高约 2.3 倍加速和 30–70% 的权重压缩。目前可替代方案是 vLLM，但它不能将权重卸载到 RAM，且存在一些 bug。如果合并成功，内存充裕的用户可能在数小时到不到一周内就能受益。来源-reddit

AI Scaling Laws

小规模 AI 的优势会随规模扩大会逐渐消失 — 在低性能、小规模设置下，扩展性较差的方法如 CLIP 和 REPA 表现更优，但在更大规模下，更具扩展性的方法会占上风，这说明在评估 AI 方法时，Scaling Laws（扩展规律）的关键作用。该条还提到了《The OpenAI Files》以及一个关于 Sam Altman 曾在 SEC 文件中把自己列为 Y Combinator 主席的说法，并将其描述为捏造。来源-twitter

LLMs

SSD：双重“猜测解码”将 LLM 推理加速最高 2 倍 — 一条推文推广一种名为 Speculative Speculative Decoding（SSD）的新型 LLM 推理算法，据称可比主流引擎快最多 2 倍。该项目由 tri_dao 与 avnermay 等人合作完成，更多技术细节将在推文串中公布。来源-twitter
WizardLM 发布关于奖励模型“广度与深度”的论文 — WizardLM 发布新论文《Beyond Length Scaling: Synergizing Breadth and Depth for Generative Reward Models》。论文指出评估表现不仅依赖长度，更与结构紧密相关，提出面向主观任务的 B-CoT 和面向客观任务的 D-CoT。该工作强调主观偏好评估与客观正确性之间的差异，并在一篇 Reddit 帖子中被讨论，附带 HuggingFace 链接。来源-reddit

行业

推文称 Tesla 将打造 Artificial Grokon Intelligence — 一条回复 Elon Musk 的推文声称，Tesla 将是第一家开发出 Artificial Grokon Intelligence 的公司。该帖发布于 X（原 Twitter），提出了汽车巨头涉足更高阶 AI 的大胆、未经证实的主张，但未在帖子中给出任何证据。来源-twitter
Altman 向员工为与五角大楼合作辩护，称抨击“非常痛苦” — OpenAI CEO Sam Altman 告诉员工，公司与五角大楼相关的工作很重要，而围绕此事的反弹“让人感到痛苦”。他为这些国防合作辩护，认为它们有助于国家安全与 AI 能力发展，同时也承认员工对审查压力以及 AI 军事用途伦理紧张关系的担忧。来源-hackernews

多模态

UniG2U-Bench 评估多模态模型中“生成到理解”的能力 — UniG2U-Bench 提出一个综合基准，用于研究生成任务如何影响统一多模态模型的理解能力。它将“生成到理解”（G2U）评估划分为 7 大类别和 30 个子任务，要求不同层级的视觉变换。该基准旨在填补现有评测忽视“生成任务如何帮助理解”的空白。来源-huggingface

硬件

Talos 推出深度 CNN 硬件加速器 — Talos 发布一款专为加速深度卷积神经网络而设计的硬件加速器。该项目发布在 talos.wtf，并在 Hacker News 上被讨论，目标是提升 CNN 性能，标志着 AI 专用硬件领域的又一值得关注的进展。来源-hackernews

工具

2025 年你可能用不起顶级 AI 编码工具 — 一份聚焦 AI 的新闻通讯警告，到 2025 年，最强 AI 编码工具的使用成本可能大幅攀升，个人开发者与小团队或将被迫“被价格淘汰”。文章讨论了 AI 工具价格与可负担性的趋势，以及其对生产力、初创公司和更广泛 AI 生态的潜在影响，强调“高性能能力”和“成本压力”之间的矛盾，并呼吁读者重视定价模式与可访问性。来源-hackernews

⚡ 快讯速览

NotebookLM Studio 新增电影级视频综述功能 — NotebookLM Studio 推出 Cinematic Video Overviews 功能，利用一组新颖组合的高级模型，从用户提供的资料中生成定制化、沉浸式的视频。不同于标准模板，这些视频综述提供高度定制的视频创作，目前正面向 Ultra 用户以英文推出，并已启用 HLS 播放。来源-twitter
Codex 应用登陆 Windows，并内置原生沙盒 — OpenAI 宣布 Codex 应用现已支持 Windows，配备原生智能体沙盒环境。本次更新还为 Windows 开发环境增加了 PowerShell 支持，扩展了 Codex 面向 Windows 开发者的工具链，标志着其跨平台能力的一次重要扩展。来源-twitter
Anthropic CEO 称 OpenAI-五角大楼合作是“安全剧场” — Anthropic CEO Dario Amodei 告诉员工，OpenAI 与五角大楼的协议是“safety theater（安全表演）”，并称特朗普政府因 Anthropic 不赞扬特朗普而对其不满。他同时对 OpenAI 对外宣称的安全保障措施表示怀疑，凸显出围绕 AI 安全叙事与政府合作的紧张局势。来源-twitter
Qwen 面临“爆炸”，多位顶级研究员离职 — 一则社交媒体帖子对 Qwen 的现状敲响警钟，暗指团队正在“内爆”，并失去多名顶尖研究人员。消息称该团队曾非常强大，如今出现接连离职的情况，并提到 Binyuan Hui 于 3 月 3 日发布的说明。来源-twitter
Opus 4.6 评估 Reddit 投资帖，组合收益 37% 对比标普 19% — 一项实验将 2025 年 2 月 r/ValueInvesting 上的 547 条投资推荐输入 Claude Opus 4.6，并由子智能体在剥离人气信号后对其推理质量评分。系统据此构建了三个 10 只股票组合（“大众组合”“Claude 精选”“冷门组合”），并与标普 500 对比收益，结果为 +37% 对比 +19%。实验结果表明，AI 能通过过滤群体噪声，改善选股效果。来源-reddit
Utonia 推进“单一编码器覆盖所有点云”愿景 — Utonia 提出朝着为多领域点云训练单一自监督 point transformer 编码器迈出的第一步，涵盖遥感、户外 LiDAR、室内 RGB-D、物体 CAD 模型以及由 RGB 视频生成的点云。其目标是在多样几何与密度条件下学习统一表示，从而实现面向多域 3D 数据的统一编码器。来源-huggingface
OpenAI 博客倡导“为你的智能体做事”的心态 — 一条推文强调了 OpenAI 博客中的观点：用户应重点思考如何“为智能体赋能与引导”，而非只关注“智能体能替你做什么”。文中倡导以更负责任的方式利用智能体能力，通过有意识的交互设计来最大化实际影响。来源-twitter
通过 Transfusion 框架探索多模态预训练 — 一项研究分析视觉数据如何在基础模型中超越纯语言带来增益，采用从零开始、可控的预训练方式隔离多模态因素。研究基于 Transfusion 框架，将下一 token 语言建模与基于扩散的视觉模块结合，以区分“原生多模态模型的设计空间”与“语言预训练效应”。来源-huggingface
Marcus AI Claims 数据集在 GitHub 发布 — 一个名为“Marcus AI Claims Dataset”的开源数据集由 davegoldblatt 托管在 GitHub 上，在 Hacker News 上引发讨论，获得了较高参与度（63 点赞、52 条评论）。来源-hackernews
五角大楼合约后，“取消 ChatGPT”抵制活动激增 — 一篇报道指出，在 OpenAI 与五角大楼签署军事合约的消息曝出后，ChatGPT 账户注销与抵制行动激增。文章从伦理与国防影响角度审视这场反弹，并指出相关讨论在 Hacker News 等平台上占据显著位置。来源-hackernews
Claude 成为 Electron 应用，反映“原生桌面已衰落” — 该文认为，Claude 等桌面 AI 工具越来越多以 Electron 应用形式交付，反映出原生桌面应用开发的整体式微。作者分析选择 Web 外壳而非原生实现，在性能、用户体验与开发者体验上的得失，认为这是当前 AI 工具领域的一个更广泛趋势。来源-hackernews
AI 在软件工程中的应用可能取代其他工程学科 — Andrew Chambers 在推文中指出，AI 自动化软件工程的真正风险并非软件工程师失业，而是其他工程学科的岗位将被使用 AI 的软件工程师取代。他预测，一旦软件工程出现裁员潮，大量工程师会涌入其他领域，并通过自动化在多个学科完成工作。来源-twitter
若中国停止开源模型，如何保持竞争力？ — 一篇 Reddit 帖子在 Qwen 新闻后讨论开源 AI 的未来，质疑如果中国停止发布开源模型，是否会削弱对抗科技巨头所需的竞争力。作者邀请大家分享在不断变化的开源 AI 版图中保持竞争力的策略和看法。来源-reddit
Anthropic 宣布“完全胜利” — 一条 X/Twitter 帖子宣称“Total Anthropic Victory（Anthropic 完全胜利）”，但没有提供任何细节。推文没有说明胜利内容是什么，或其对 Anthropic 乃至整个 AI 领域意味着什么，使得事件本身及其重要性都显得十分模糊。来源-twitter

由 AI News Agent 生成 | 2026-03-04