AI 日报 — 2026-03-02

Stepfun AI 发布基础模型并开源 SteptronOSS · BullshitBench v2 发布；模型整体无明显提升，Claude 表现突出 · 五角大楼风波后，Claude 超越 ...

覆盖 30 条 AI 新闻

🔥 今日焦点

1. Stepfun AI 发布基础模型并开源 SteptronOSS

Stepfun AI 发布了两款基础模型：Step-3.5 Flash Base 和 Step-3.5 Flash Base-Midtrain，并开源了 SteptronOSS，用于支持可定制化工作流。此举进一步强化了其开源 / 开放科学目标，并为社区提供参考级流水线；其 SFT 数据即将发布，以扩展社区可用的工作流。来源-x

2. BullshitBench v2 发布；模型整体无明显提升，Claude 表现突出

BullshitBench v2 在评测集中新增了 100 个问题，覆盖代码、医疗、法律、金融和物理等领域，并在 70 多个模型上进行了测试。结果再次表明模型进展并不均衡，其中 Claude 表现尤为出色，而其他模型则明显落后；该项目已开源，并提供数据浏览器以便进行更深入分析。来源-x

3. 五角大楼风波后，Claude 超越 ChatGPT 成为美国最热应用

据报道，在与五角大楼相关的争议事件之后，Anthropic 的 Claude 在美国应用下载量上超过了 OpenAI 的 ChatGPT，显示头部大模型平台之间的竞争进一步加剧。Axios 汇总自 Hacker News 讨论的下载趋势和报道表明，这一变化已在应用商店数据和舆论关注度中得到体现。来源-rss

📰 重点报道

Embodied AI & Benchmark

RoboCasa365 发布 2,500 个环境与 365 项任务基准集 — 新的大规模模拟基准面向通用机器人模型：包含 2,500 个厨房环境、365 个任务、3,200+ 个物体以及 2,200+ 小时演示数据，用于支持可扩展的多任务训练和持续学习研究。来源-x

Hardware & Optimization

字节跳动推出 CUDA Agent 以自动生成高效内核 — CUDA Agent 可自动编写高速、优化良好的 CUDA 内核，据称在内核复杂度上优于 torch.compile 和多款顶级模型，体现出以性能为优先、结合性能分析与强化学习训练的方向。来源-x
逆向工程 Apple Neural Engine 实现在本地训练神经网络 — 研究人员通过逆向工程 Apple 的 Neural Engine，宣称本地 AI 推理可在速度和能效方面优于传统方案；该项目已在 GitHub 开源，目前仍属前沿研究阶段，尚未获得 Apple 官方支持。来源-x

Edge AI & On-device

Qwen3.5 2B 在 iPhone 17 Pro 本地运行：Edge AI 重大突破 — 阿里巴巴的 Qwen3.5 2B 模型已在 iPhone 17 Pro 上实现端侧本地运行，通过针对 Apple Silicon 的 6-bit 优化推理路径，其性能超越体量数倍于自身的模型。来源-x

AI Safety & Policy

OpenAI 合同会“冻结”现行法律？专家认为可能性不大 — 法律分析指出，关于通过合同“锁定”自主武器相关法律框架的说法在现实中难以成立，这一观点也引发了关于 AI 与武器管控政策的持续讨论。来源-x

Tools & Development Practices

AGENTS.md 提升代码智能体效率：运行更快、成本更低 — 研究显示，在 OpenAI Codex 任务中使用 AGENTS.md，可将中位运行时间缩短约 28.6%，输出 token 数减少约 16.6%，这更像是为避免最糟糕的“空转消耗”提供保护措施，而非对所有场景的一致加速。来源-x

⚡ 快讯速览

Anthropic natsec 模型内置安全防护，与 OpenAI 公开说法相矛盾 — 有消息称，Anthropic 面向国家安全场景的模型内置了多种安全防护机制，这与 OpenAI 先前的公开表述存在冲突。来源-x
dLLM 提出简单的扩散式语言建模框架 — 一篇发布在 HuggingFace 的论文提出了一种基于扩散模型的语言建模框架 dLLM。来源-huggingface
OmniGAIA：面向原生全模态 AI 智能体的基准测试 — 一套用于评测原生 omni-modal AI 智能体能力的基准 OmniGAIA 正式发布。来源-huggingface
高质量环境是研究模型“阴谋行为”的关键 — 研究者指出，若要严肃研究模型的“谋划 / 欺骗”行为，高质量、精心设计的环境设置至关重要。来源-x
K-Dense-AI 发布 Claude Scientific Skills 套件助力 AI 智能体科研 — K-Dense-AI 推出面向 AI 智能体的 Claude 科学技能工具集，用于增强其在科研任务中的表现。来源-github
Claude 登顶 App Store，Anthropic 支持声势高涨 — 在围绕 Anthropic 的一系列事件后，Claude 冲上 App Store 榜首，反映出用户对其的集中支持。来源-rss
根据 RAM、CPU、GPU 限制对 LLM 进行精调 — 一套工具可根据硬件资源约束（内存、CPU、GPU）对 LLM 进行配置和调优，使模型更贴合当前算力条件。来源-github
AI 让初级开发者显得“没用” — 一篇观点文章认为，AI 工具正在削弱初级开发者在团队中的价值和存在感。来源-rss
演示展示“免费、广告支持型 AI 聊天”的可能形态 — 一个概念演示展示了通过广告支持的免费 AI 聊天产品可能呈现的交互和商业模式。来源-rss
批评者称封闭的前沿模型“反乌托邦且令人不安” — 多方批评声音指出，封闭式前沿 AI 模型生态在透明度和权力集中方面带来反乌托邦式的风险。来源-x
用于自动定理证明的极简 AI 智能体取得有竞争力的证明成绩 — 一个设计极简的自动定理证明 AI 智能体在多项证明任务上获得了具有竞争力的结果。来源-x
Anthropic Cowork 未预警生成 10GB 的 macOS VM 包 — 与 Claude 工作区相关的一个 macOS 虚拟机打包文件因体积高达 10GB 且缺乏预警而引发用户关注。来源-github
Claude Code LSP 将 Claude 引入代码编辑器 — 通过 LSP 协议集成，Claude 现可在多种代码编辑器中使用，为开发者提供对话式编程辅助。来源-rss
AI 让“写代码”更轻松，却让“工程”更复杂 — 一篇分析文章认为，AI 工具显著降低了代码编写门槛，却在系统设计、协调和长期维护等工程层面带来新的复杂性。来源-rss
切换到 Claude 而无需“从零开始” — Claude 的记忆导入功能允许用户从其他平台迁移对话记忆，从而在切换时保留上下文而不必完全重来。来源-rss
CS336：从零构建 LLM 的课程优于训练营式学习 — 一门名为 CS336 的课程展示了“亲手从零构建 LLM”的教学方式，相比传统编程训练营更能锻炼实战能力。来源-x
Go 是构建 AI 智能体的最佳语言 — 一篇观点文章认为，Go 语言在并发、性能和部署上的优势，使其成为开发 AI 智能体的最佳选择。来源-rss
Apple AI 服务器因 Apple Intelligence 使用率低而闲置 — 有报道指出，由于 Apple Intelligence 实际使用率偏低，部分 Apple AI 服务器长期闲置在仓库货架上。来源-rss
若 AI 参与写代码，会话记录是否应成为提交的一部分？ — 社区正在讨论：在版本控制中，是否应该将 AI 生成代码的会话记录与提交绑定保存。来源-github
为什么 XML 标签对 Claude 如此重要 — 一篇讨论文章深入分析了 Claude 对 XML 标签的广泛使用及其在结构化指令、解析与控制中的核心作用。来源-rss

由 AI News Agent 生成 | 2026-03-02