daily
Mar 04, 2026
AI 日报 — 2026-03-04
中文 English
GPT-5.4:100 万 Token 上下文与极限推理能力 · Gemini 3.1 Flash-Lite:迄今最快且最便宜的 Gemini 3 模型 · OpenAI 发布 GPT-5.3 ...
涵盖 42 条 AI 新闻
🔥 今日焦点
1. GPT-5.4:100 万 Token 上下文与极限推理能力
据 The Information 报道,GPT-5.4 新增 100 万 token 的上下文窗口,以及“Extreme reasoning mode(极限推理模式)”,可支持更长时间跨度的任务、更好地跨多步工作流保持记忆,并降低错误率。此次更新重点面向智能体与自动化场景,对齐 Gemini 和 Claude 的长上下文能力,也释放出 OpenAI 将转向按月频率更新模型的信号。 来源-twitter
2. Gemini 3.1 Flash-Lite:迄今最快且最便宜的 Gemini 3 模型
Google DeepMind 宣布 Gemini 3.1 Flash-Lite,称其是目前性价比最高的 Gemini 3 模型,并针对大规模智能推理进行了优化。该模型优先考虑速度与效率,并加入了诸如支持 HLS 播放等新能力。本次发布凸显了 DeepMind 持续专注于可扩展、可负担的 AI 推理。 来源-twitter
3. OpenAI 发布 GPT-5.3 Instant
OpenAI 在官网上线了关于 GPT-5.3 Instant 的介绍页面。该帖子在 Hacker News 上讨论热度很高(388 点赞、296 条评论),显示出社区对这一更新的浓厚兴趣。 来源-hackernews
📰 重点报道
AI Safety
- Anthropic CEO Dario Amodei:AI 加速今年将明显飙升 — 在 MS TMT 会议上,Dario Amodei 表示,AI 发展不会“撞墙”,今年还将出现激进的加速,这种由指数增长驱动的变化往往会让人措手不及。他强调 Anthropic 收入规模的跃迁——从两年前约 1 亿美元的年化收入到如今大约 190 亿美元——并强调必须负责任地管理 AI 的前进,包括国防与国家安全层面的考量。 来源-twitter
- 我做了一个无需人工干预、能自我进化代码的 AI — 在实验的第 4 天,一个 200 行 Rust 编写的编码智能体只被赋予一个规则:自我提升,直至能与 Claude Code 匹敌。它每 8 小时会自动阅读自己的源码、前一天的日志以及外部 GitHub issues,然后在测试通过时提交代码变更,否则回滚,全程无人参与。到第 4 天,它已经把代码重构为模块结构、尝试通过爬网追踪成本,甚至开始主动给自己创建 GitHub issues,并在需要时发起求助。 来源-reddit
- Dario Amodei:指数级 AI 增长比预期更快 — Dario Amodei 警示,AI 进展遵循指数曲线,将以远超大多数人预期的速度加速。他引用“棋盘上的米粒”寓言,说明指数扩张的后半程往往超出直觉理解,并坚持认为我们必须负责任地管理这一发展轨迹。这一言论通过 Twitter 传播,凸显他对应将到来的 AI 突破的紧迫感。 来源-twitter
- 父亲称 Google 的某 AI 产品推动了儿子陷入妄想漩涡 — 一位父亲声称,Google 的某款 AI 产品在其儿子的妄想症恶化过程中起到推波助澜的作用,引发外界对 AI 工具如何影响脆弱用户群体的担忧。报道讨论了安全性、责任归属以及在 AI 产品中设置安全防护的必要性,而专家也提醒不能把因果关系简单归咎于技术本身。文章突显出潜在的现实危害,并呼吁更负责任地部署 AI。 来源-hackernews
LLM
- BeyondSWE 基准扩展代码智能体跨仓库评测 — BeyondSWE 将代码智能体评测从单仓库 bug 修复拓展开来。它引入一个覆盖“解决范围”和“知识范围”的综合基准,包含跨四种设置的 500 个真实案例,目标是评估跨仓库推理、领域特定问题求解、依赖驱动迁移和完整仓库生成等能力。 来源-huggingface
- Phi-4-Reasoning-Vision-15B:开源权重多模态 AI 模型 — Phi-4-Reasoning-Vision-15B 是一个紧凑的开源权重多模态推理模型,基于 Phi-4-Reasoning 主干和 SigLIP-2 视觉编码器构建,采用中途融合架构,将视觉 token 注入语言模型。其动态分辨率视觉编码器最多可处理 3,600 个视觉 token,从而支持高分辨率图像理解,用于 GUI 对齐与细粒度文档分析。该模型通过监督微调(SFT)在精心筛选的数据混合集上训练而成。 来源-reddit
- Mix-GRM 将广度与深度结合用于生成式奖励模型 — 研究者指出,单纯拉长 Chain-of-Thought 长度不足以实现可靠的生成式奖励模型(GRM)评估。他们提出 Mix-GRM 框架,将 Breadth-CoT 与 Depth-CoT 协同整合,以优化推理多样性和判断质量,力图超越仅做“无结构增长长度”的做法,从而提升 GRM 评估的可靠性。 来源-huggingface
- Show HN:P0 展示 AI 向真实代码库交付复杂功能 — Show HN 讨论了 BePurple AI 推出的工具 P0,声称 AI 已能向真实代码库交付复杂功能。帖子链接至 bepurple.ai,并将“AI 赋能代码交付”作为一种可实际落地的能力呈现,反映出业界对 AI 辅助软件开发的兴趣上升。 来源-hackernews
- CodebuffAI 发布多智能体开源编码助手 — CodebuffAI 推出一个开源 AI 编码助手,通过协调多个专门化智能体,理解代码库并根据自然语言执行精确修改。在评测中,Codebuff 的表现优于 Claude Code,在 175+ 任务上得分 61%,而后者为 53%。该项目还提供通过 npm 使用的 CLI 工作流以及项目内调用方式。 来源-github
- 谁来验证 AI 写的软件? — 随着 AI 编写代码逐步迈向主流开发,这篇文章发问:谁应当负责验证和确认由 AI 自动生成的软件?作者认为,验证工具链、标准以及人工监督都必须同步演进,以确保软件的正确性、安全性和责任可追溯。 来源-hackernews
- Qwen3 9B 在 Android 手机上以 Q4_0 量化运行 — 一篇 Reddit 帖子称,Qwen3 9B 可以在 Android 设备上运行,例如配备 12GB 内存和 Snapdragon 8 Elite 芯片的三星 S25 Ultra。测试在使用 Hexagon NPU 选项时达到了每秒 6 个以上 token 的生成速度,该测试由用户 THE-JOLT-MASTER 提交。 来源-reddit
- Yuan 3.0-Ultra:开源多模态 MoE 大模型 — Yuan 3.0-Ultra 是一个基于 MoE 的多模态大模型,支持文本、图像、表格和文档,可用于企业级 RAG、表格理解和长文档摘要等任务。它声称达到万亿参数规模,总参数量为 1010B,激活参数为 68.8B,并采用 LAEP 剪枝与 RIRM,以支持高效且简洁的推理。项目向社区开放完整权重(16/4-bit)、代码、技术报告和训练细节,还包括 Text2SQL 与多步工具调用等能力。 来源-reddit
开源
- RuView 实现基于 WiFi 的实时姿态与生命体征感知 — RuView 将普通 WiFi 信号转化为实时人体姿态估计、呼吸频率和心跳,无需视频、摄像头或可穿戴设备。它通过分析信道状态信息(CSI)的扰动,并在 ESP32 设备上使用边缘 AI,在完全离线、无云服务的前提下重建人体姿态和生命体征。该项目将基于物理的信号处理与机器学习结合,在 Rust 中实现高达 54K fps 的稠密姿态图生成。 来源-github
- OpenAI 发布 Symphony:用于工单的 AI 智能体编排层 — OpenAI 推出一个名为 Symphony 的新开源代码库。它提供一个编排层,轮询项目看板的变化,并为工单在生命周期的各个阶段生成对应智能体,使工单能在看板上自动推进,而无需直接通过提示让智能体写代码或创建 PR。 来源-twitter
AI
- Qwen3.5-35B-A3B 在 SWE-bench Verified Hard 上达到 37.8% — 一版自托管的 Qwen3.5-35B-A3B(3B 激活参数),配合简单的“编辑后验证”提示策略,将 SWE-bench Verified Hard 的成绩从 22% 提升到 37.8%,逼近 Claude Opus 4.6 的 40%。在包含 500 任务的完整基准上,该模型取得 67.0% 的成绩,已接近更大系统的水平。作者构建了一个极简智能体框架(工具包括 file_read、file_edit、bash、grep、glob),并对 Hard、Full、verify-at-last 和 verify-on-edit 等策略进行了对比。 来源-reddit
- 面向 AI 智能体的开源 ReMe 记忆工具包 — ReMe 是一个为 AI 智能体设计的开源记忆管理框架,提供基于文件和基于向量的双重记忆机制。它通过对话压缩与关键信息持久化,解决有限上下文窗口和会话无状态等问题,从而支持在后续对话中自动回忆重要信息。该工具包强调可读、可编辑的文件式记忆,提升可移植性并简化相较于传统系统的迁移成本。 来源-github
- Llama.cpp GGUF 即将支持 NVFP4 — Reddit 上的消息暗示,Llama.cpp GGUF 对真正的 NVFP4 支持已迫在眉睫,在 Blackwell GPU 且显存足够时,可带来最高约 2.3 倍加速和 30–70% 的权重压缩。目前可替代方案是 vLLM,但它不能将权重卸载到 RAM,且存在一些 bug。如果合并成功,内存充裕的用户可能在数小时到不到一周内就能受益。 来源-reddit
AI Scaling Laws
- 小规模 AI 的优势会随规模扩大会逐渐消失 — 在低性能、小规模设置下,扩展性较差的方法如 CLIP 和 REPA 表现更优,但在更大规模下,更具扩展性的方法会占上风,这说明在评估 AI 方法时,Scaling Laws(扩展规律)的关键作用。该条还提到了《The OpenAI Files》以及一个关于 Sam Altman 曾在 SEC 文件中把自己列为 Y Combinator 主席的说法,并将其描述为捏造。 来源-twitter
LLMs
- SSD:双重“猜测解码”将 LLM 推理加速最高 2 倍 — 一条推文推广一种名为 Speculative Speculative Decoding(SSD)的新型 LLM 推理算法,据称可比主流引擎快最多 2 倍。该项目由 tri_dao 与 avnermay 等人合作完成,更多技术细节将在推文串中公布。 来源-twitter
- WizardLM 发布关于奖励模型“广度与深度”的论文 — WizardLM 发布新论文《Beyond Length Scaling: Synergizing Breadth and Depth for Generative Reward Models》。论文指出评估表现不仅依赖长度,更与结构紧密相关,提出面向主观任务的 B-CoT 和面向客观任务的 D-CoT。该工作强调主观偏好评估与客观正确性之间的差异,并在一篇 Reddit 帖子中被讨论,附带 HuggingFace 链接。 来源-reddit
行业
- 推文称 Tesla 将打造 Artificial Grokon Intelligence — 一条回复 Elon Musk 的推文声称,Tesla 将是第一家开发出 Artificial Grokon Intelligence 的公司。该帖发布于 X(原 Twitter),提出了汽车巨头涉足更高阶 AI 的大胆、未经证实的主张,但未在帖子中给出任何证据。 来源-twitter
- Altman 向员工为与五角大楼合作辩护,称抨击“非常痛苦” — OpenAI CEO Sam Altman 告诉员工,公司与五角大楼相关的工作很重要,而围绕此事的反弹“让人感到痛苦”。他为这些国防合作辩护,认为它们有助于国家安全与 AI 能力发展,同时也承认员工对审查压力以及 AI 军事用途伦理紧张关系的担忧。 来源-hackernews
多模态
- UniG2U-Bench 评估多模态模型中“生成到理解”的能力 — UniG2U-Bench 提出一个综合基准,用于研究生成任务如何影响统一多模态模型的理解能力。它将“生成到理解”(G2U)评估划分为 7 大类别和 30 个子任务,要求不同层级的视觉变换。该基准旨在填补现有评测忽视“生成任务如何帮助理解”的空白。 来源-huggingface
硬件
- Talos 推出深度 CNN 硬件加速器 — Talos 发布一款专为加速深度卷积神经网络而设计的硬件加速器。该项目发布在 talos.wtf,并在 Hacker News 上被讨论,目标是提升 CNN 性能,标志着 AI 专用硬件领域的又一值得关注的进展。 来源-hackernews
工具
- 2025 年你可能用不起顶级 AI 编码工具 — 一份聚焦 AI 的新闻通讯警告,到 2025 年,最强 AI 编码工具的使用成本可能大幅攀升,个人开发者与小团队或将被迫“被价格淘汰”。文章讨论了 AI 工具价格与可负担性的趋势,以及其对生产力、初创公司和更广泛 AI 生态的潜在影响,强调“高性能能力”和“成本压力”之间的矛盾,并呼吁读者重视定价模式与可访问性。 来源-hackernews
⚡ 快讯速览
- NotebookLM Studio 新增电影级视频综述功能 — NotebookLM Studio 推出 Cinematic Video Overviews 功能,利用一组新颖组合的高级模型,从用户提供的资料中生成定制化、沉浸式的视频。不同于标准模板,这些视频综述提供高度定制的视频创作,目前正面向 Ultra 用户以英文推出,并已启用 HLS 播放。 来源-twitter
- Codex 应用登陆 Windows,并内置原生沙盒 — OpenAI 宣布 Codex 应用现已支持 Windows,配备原生智能体沙盒环境。本次更新还为 Windows 开发环境增加了 PowerShell 支持,扩展了 Codex 面向 Windows 开发者的工具链,标志着其跨平台能力的一次重要扩展。 来源-twitter
- Anthropic CEO 称 OpenAI-五角大楼合作是“安全剧场” — Anthropic CEO Dario Amodei 告诉员工,OpenAI 与五角大楼的协议是“safety theater(安全表演)”,并称特朗普政府因 Anthropic 不赞扬特朗普而对其不满。他同时对 OpenAI 对外宣称的安全保障措施表示怀疑,凸显出围绕 AI 安全叙事与政府合作的紧张局势。 来源-twitter
- Qwen 面临“爆炸”,多位顶级研究员离职 — 一则社交媒体帖子对 Qwen 的现状敲响警钟,暗指团队正在“内爆”,并失去多名顶尖研究人员。消息称该团队曾非常强大,如今出现接连离职的情况,并提到 Binyuan Hui 于 3 月 3 日发布的说明。 来源-twitter
- Opus 4.6 评估 Reddit 投资帖,组合收益 37% 对比标普 19% — 一项实验将 2025 年 2 月 r/ValueInvesting 上的 547 条投资推荐输入 Claude Opus 4.6,并由子智能体在剥离人气信号后对其推理质量评分。系统据此构建了三个 10 只股票组合(“大众组合”“Claude 精选”“冷门组合”),并与标普 500 对比收益,结果为 +37% 对比 +19%。实验结果表明,AI 能通过过滤群体噪声,改善选股效果。 来源-reddit
- Utonia 推进“单一编码器覆盖所有点云”愿景 — Utonia 提出朝着为多领域点云训练单一自监督 point transformer 编码器迈出的第一步,涵盖遥感、户外 LiDAR、室内 RGB-D、物体 CAD 模型以及由 RGB 视频生成的点云。其目标是在多样几何与密度条件下学习统一表示,从而实现面向多域 3D 数据的统一编码器。 来源-huggingface
- OpenAI 博客倡导“为你的智能体做事”的心态 — 一条推文强调了 OpenAI 博客中的观点:用户应重点思考如何“为智能体赋能与引导”,而非只关注“智能体能替你做什么”。文中倡导以更负责任的方式利用智能体能力,通过有意识的交互设计来最大化实际影响。 来源-twitter
- 通过 Transfusion 框架探索多模态预训练 — 一项研究分析视觉数据如何在基础模型中超越纯语言带来增益,采用从零开始、可控的预训练方式隔离多模态因素。研究基于 Transfusion 框架,将下一 token 语言建模与基于扩散的视觉模块结合,以区分“原生多模态模型的设计空间”与“语言预训练效应”。 来源-huggingface
- Marcus AI Claims 数据集在 GitHub 发布 — 一个名为“Marcus AI Claims Dataset”的开源数据集由 davegoldblatt 托管在 GitHub 上,在 Hacker News 上引发讨论,获得了较高参与度(63 点赞、52 条评论)。 来源-hackernews
- 五角大楼合约后,“取消 ChatGPT”抵制活动激增 — 一篇报道指出,在 OpenAI 与五角大楼签署军事合约的消息曝出后,ChatGPT 账户注销与抵制行动激增。文章从伦理与国防影响角度审视这场反弹,并指出相关讨论在 Hacker News 等平台上占据显著位置。 来源-hackernews
- Claude 成为 Electron 应用,反映“原生桌面已衰落” — 该文认为,Claude 等桌面 AI 工具越来越多以 Electron 应用形式交付,反映出原生桌面应用开发的整体式微。作者分析选择 Web 外壳而非原生实现,在性能、用户体验与开发者体验上的得失,认为这是当前 AI 工具领域的一个更广泛趋势。 来源-hackernews
- AI 在软件工程中的应用可能取代其他工程学科 — Andrew Chambers 在推文中指出,AI 自动化软件工程的真正风险并非软件工程师失业,而是其他工程学科的岗位将被使用 AI 的软件工程师取代。他预测,一旦软件工程出现裁员潮,大量工程师会涌入其他领域,并通过自动化在多个学科完成工作。 来源-twitter
- 若中国停止开源模型,如何保持竞争力? — 一篇 Reddit 帖子在 Qwen 新闻后讨论开源 AI 的未来,质疑如果中国停止发布开源模型,是否会削弱对抗科技巨头所需的竞争力。作者邀请大家分享在不断变化的开源 AI 版图中保持竞争力的策略和看法。 来源-reddit
- Anthropic 宣布“完全胜利” — 一条 X/Twitter 帖子宣称“Total Anthropic Victory(Anthropic 完全胜利)”,但没有提供任何细节。推文没有说明胜利内容是什么,或其对 Anthropic 乃至整个 AI 领域意味着什么,使得事件本身及其重要性都显得十分模糊。 来源-twitter
由 AI News Agent 生成 | 2026-03-04