AI 日报 — 2026-03-17

DeepMind 与 Kaggle 发起全球黑客松，以度量 AGI 进展 · Nvidia 发布 Vera CPU，专为 Agentic AI 打造 · Drummer 发布 Skyfall 3...

涵盖 42 条 AI 新闻

🔥 今日焦点

1. DeepMind 与 Kaggle 发起全球黑客松，以度量 AGI 进展

DeepMind 正与 Kaggle 合作，发起一场面向全球的黑客松活动，聚焦于构建用于 AI 的认知评估。该挑战赛旨在测试一个用于衡量通往通用人工智能（AGI）进展的框架，总奖金为 20 万美元。有兴趣的参与者可以通过链接的挑战页面报名参加。来源-twitter

2. Nvidia 发布 Vera CPU，专为 Agentic AI 打造

Nvidia 宣布推出 Vera，这是一款专门为 Agentic AI 工作负载设计的新 CPU。Vera CPU 被定位为专为支持自主 AI 智能体而打造，并配备经优化的硬件架构。此次发布强调了 Nvidia 希望为 Agentic AI 应用提供专业化硬件的战略布局。来源-hackernews

3. Drummer 发布 Skyfall 31B、Valkyrie 49B、Anubis 70B、Anubis Mini 8B

四个新的开源大模型——Skyfall 31B v4.1、Valkyrie 49B v2.1、Anubis 70B v1.2 和 Anubis Mini 8B v1——悄然在 Beaver/HuggingFace 生态中上线。TheDrummer 表示这些都是面向 Gen 4.0 模型的重大升级，并呼吁社区在算力和推理方面给予支持。这些发布在社区中获得了明显积极的反馈。来源-reddit

📰 重点报道

LLM

Hugging Face 发布一行命令，自动检测硬件并运行 LLaMA 服务器 — 一条 Hugging Face hf-agents 的单行命令利用 llmfit 自动检测硬件，选择最佳的 LLaMA 模型与量化配置，启动一个 llama.cpp 服务器，并运行 OpenClaw 背后的智能体 Pi。此举让在消费级硬件上进行本地部署与 AI 智能体编排实现高度自动化。来源-reddit
OpenSeeker 以开放训练数据民主化前沿搜索智能体 — OpenSeeker 旨在通过提供完全开源的训练数据，为前沿 LLM 搜索智能体打造更公平的竞争环境。该项目试图解决数据稀缺这一长期偏向大公司的问题，使研究者能够研究和改进搜索能力。OpenSeeker 托管在 Hugging Face 上，体现出向透明和社区驱动的 AI 研究迈进的趋势。来源-huggingface
EnterpriseOps-Gym：面向企业级 LLM 的 Agentic 规划基准 — 大语言模型正从被动的服务提供者转向能够处理复杂工作流的主动智能体。但在企业环境中，其部署受到当前基准限制，这些基准难以刻画长时序规划、持久状态变化和严格访问协议下的真实情境。该工作提出 EnterpriseOps-Gym，一个用于在真实企业条件下评估 Agentic 规划能力的基准框架。来源-huggingface
Mistral AI 发布 Forge — Mistral AI 宣布了一款名为 Forge 的新产品。此消息出现在 Hacker News 上，获得了 54 点赞和 3 条评论，显示出社区的关注。Forge 被定位为 Mistral AI 推出的新一代 AI 开发工具。来源-hackernews
OpenAI 发布 GPT-5.4 Mini 与 Nano — OpenAI 宣布推出 GPT-5.4 Mini 和 Nano，这两个模型是 GPT-5.4 系列的新变体。公告链接至 OpenAI 官网，同时在 Hacker News 上引发了显著讨论（203 点赞，127 条评论）。来源-hackernews
LangChain 的 Deep Agents Harness 新增规划、文件系统与子智能体功能 — Deep Agents 是一个基于 LangChain 和 LangGraph 构建的开源智能体运行框架。它内置规划能力、文件系统后端、Shell 访问，以及创建子智能体的能力，为复杂 Agentic 任务与自动化上下文管理提供了开箱即用的解决方案。来源-github
Claude-Mem 记忆插件为 Claude Code 保留上下文 — Claude-Mem 是一个 Claude Code 插件，可自动记录编程会话中的工具使用情况，并通过 Claude 的 agent-sdk 使用 AI 进行压缩，然后在后续会话中重新注入相关上下文。其目标是在多次会话之间保留上下文，从而让 Claude Code 的工作流更加顺畅。项目开源并托管在 GitHub 上，提供文档与安装指南。来源-github
Obsidian 插件 Claudian 将 Claude Code 引入为 AI 协作伙伴 — Claudian 是一个 Obsidian 插件，可将 Claude Code 作为 AI 协作者嵌入到你的知识库中，实现读取/写入文件、搜索和运行 bash 命令等 Agentic 能力。它支持上下文感知特性、图像分析的视觉能力、带差异预览的行内编辑，以及用于精炼提示词的指令模式。该开源项目托管在 GitHub（YishenTu/claudian）。来源-github
Claude Code 技能实现完整 Godot 游戏生成 — Godogen 是一个 AI 驱动的流程，可将文本提示转化为完整可玩的 Godot 4 项目，包括架构设计、素材生成、GDScript 代码以及可视化测试。它通过自定义参考系统、API 惰性加载以及“引擎怪癖”数据库，解决数据稀缺和游戏引擎特性问题，从而让 LLM 实现更可靠的游戏生成。来源-hackernews
迈向对未经审查 AI 生成代码的自动化验证 — 这篇文章探讨在人工审查之前对 AI 生成代码进行验证的方法。作者梳理了在保证正确性、安全性与安全防护方面的挑战，并勾勒了使用测试、静态分析与形式化方法构建自动化验证流水线的可能路径。文章认为，自动化验证可以在部署 AI 生成代码时显著降低风险。来源-hackernews
Unsloth 推出 Unsloth Studio，对标 LMStudio — Unsloth 宣布发布 Unsloth Studio，这是一款兼容 Llama.cpp 的 Apache 许可证运行器。它被定位为 GGUF 生态中 LMStudio 的竞争对手，有潜力重塑高级 LLM 用户的工作流。来源-reddit
Hunter 与 Healer Alpha 确认为 MiMo；新一代 MiMo V2 模型即将到来 — Openrouter 的隐身模型 Hunter Alpha 和 Healer Alpha 已被确认是 MiMo V2 变体。Hunter Alpha 是 MiMo V2 Pro 文本推理模型，支持 100 万 token 上下文窗口；Healer Alpha 是 MiMo V2 Omni 文本+图像推理模型，支持 262K 上下文窗口，两者都限制在 32,000 token 输出上。据称另一个新的 MiMo 模型正在开发中。来源-reddit
Qwen3.5-35B-A3B 在 8GB 笔记本上以 100k 上下文实现 26 t/s — 一台配备 8GB 显存的游戏本据称在 100k token 上下文下，使用 Qwen3.5-35B-A3B-UD-Q4_K_XL（Unsloth）配合 llama.cpp，可达到约 26 token/秒的速度。测试设备为搭载 RTX 4060（8 GB）、i7-14000HX 和 64 GB 内存的联想游戏本。该基准表明，在消费级硬件上进行大上下文 LLM 推理是可行的，同时凸显了 Qwen3.5-35B-A3B 在这类配置下的高效性。来源-reddit

RL

AI 可以习得“科学品味” — 《AI Can Learn Scientific Taste》一文指出，“科学品味”——即判断和提出高影响力研究问题的能力——在 AI 训练中仍然鲜有探索。作者提出“基于社区反馈的强化学习”（Reinforcement Learning from Community Feedback，RLCF），这一训练范式利用大规模社区反馈，提升 AI 识别和提出具有重大科研影响力课题的能力。来源-huggingface

AI 硬件

Nemotron 3 Nano 4B 现已可通过 Ollama 运行，并兼容 Pi — NVIDIA 的 Nemotron 3 Nano 4B 模型现在可以通过 Ollama 运行，命令为 “ollama run nemotron-3-nano:4b”。为 OpenClaw 提供动力的 Pi 最小智能体运行时可以启动该模型，在受限硬件上启用智能体能力。这一发布增强了 Nemotron 系列在资源受限设备上的边缘部署能力。来源-twitter

AI 安全

美国参议员提出法案以限制军事 AI 使用 — 美国参议员 Elissa Slotkin 提出立法，欲将国防部现有指南法典化，并为军事 AI 使用划定“红线”。该法案要求致命自主武器必须有人类参与，禁止 AI 对美国公民进行监视，并确保核武器发射必须由人类授权。来源-twitter

AI

Three-Mediapipe-Rig 更新支持基于视频的面部变形 — three-mediapipe-rig npm 模块的一次更新，使得开发者可以在 Three.js 中创建与视频同步变形的面部模型。这为实时 3D 人脸跟踪解锁了新的特效和交互机制。帖子还链接了一个无预加载的演示，并说明已启用 HLS 播放，同时欢迎进一步咨询。来源-twitter
AI 仍然表现不佳；企业“装 AI”，市场清算在即 — 一篇文章指出，AI 系统在真实商业场景中依然难以提供稳定可靠的结果。作者认为，许多公司夸大自身能力，或将产品伪装成“AI 驱动”。业内人士警告，由于真正意义上的 AI 成熟度远落后于市场炒作，一轮市场清算即将到来。来源-hackernews
Voygr 发布面向 AI 智能体的新一代地图 API — Voygr 正在推出一个可无限扩展、可查询的地点画像 API，将传统地点数据与新闻、事件等最新网络上下文结合起来，用于 AI 应用和智能体。团队指出，当前地图 API 本质上只是固定快照，并推出 Business Validation API 来验证一个地点是否真实存在，背后借鉴了创始人在 Apple、Google 和 Meta 的经验。该项目的目标是将地点数据的新鲜度视作 AI 驱动地图与发现服务的基础设施。来源-hackernews

多模态 AI

Seoul World Model 支撑城市尺度的世界模拟 — 研究者提出 Seoul World Model（SWM），一个锚定于首尔真实城市环境的城市级世界模型。它通过对附近街景图像进行检索增强（RAG）条件建模来支撑自回归视频生成，从而克服以往模型仅能合成虚构环境的限制。该工作重点讨论了在城市尺度模拟中节奏控制和锚定精度方面的挑战。来源-huggingface

Embodied AI

HSImul3R 推进基于物理驱动的 HSI 重建 — HSImul3R 提出一个统一框架，从随手拍摄（包括稀疏视角图像和单目视频）中，重建适用于仿真环境的人体-场景交互 3D 模型。该方法通过物理约束的双向优化管线，解决感知到仿真的鸿沟问题，提升物理引擎在 Embodied AI 应用中的稳定性。其目标是让视觉真实感与物理约束保持一致，以支持可靠的仿真与机器人任务。来源-huggingface

开源

OpenSWE：开源后台编码智能体 — 这条推文重点介绍了 Kishan Dahya 关于 OpenSWE 的文章，OpenSWE 是一个完全开源的后台编码智能体。团队表示，他们在设计决策时参考了文章中描述的心智模型，并邀请读者在 GitHub 上试用 OpenSWE。来源-twitter

AI Agents

NVIDIA GTC 上与 Modular 合办的 AI 智能体高管晚宴 — 在 NVIDIA GTC 上举办的一场与 Modular 合作的高管晚宴，吸引了 600+ 人报名，等待名单上还有 500 多人。与会者围绕从基础设施到 Agentic 工程的整条技术栈讨论 AI 智能体，并就通用模型与专用模型之争、智能体究竟是系统问题还是模型问题，以及 Claude Cowork 等工具的采用情况展开辩论。来源-twitter

AI in Research

为何我可能会雇 AI 而不是研究生 — 一篇文章讨论用 AI 来承担传统上由研究生负责的科研任务的可行性，强调效率、成本与可扩展性方面的潜在收益，同时也指出道德与实践上的诸多注意事项。作者评估了 AI 在创造性问题求解、监督和可复现性方面的不足，呼吁在以 AI 替代人类研究者前必须慎重权衡。来源-hackernews

硬件

Mistral-Small 119B NVFP4 在 RTX Pro 6000 上的基准测试 — 使用 RTX Pro 6000 对 Mistral-Small-4-119B-2603 NVFP4 进行基准测试时，采用 SGLang，提示长度从 1K 到 256K 上下文不等，并设置 1–5 个并发请求和 1024 输出 token。测试未启用提示缓存，也未使用推测解码（NVFP4 暂不支持），KV 缓存为全精度。结果显示，随着上下文长度增加，每位用户的生成速度逐步下降（例如，单用户在 1K 上下文时为 131.3 tok/s，256K 时降至 64.2 tok/s），相应地首 Token 延迟（TTFT）显著上升（同为单用户从 0.5 秒升至 66.8 秒），部分高上下文/高并发组合则标记为 N/A。来源-reddit

⚡ 快讯速览

DSPy 让 Dropbox Dash 的 LLM 判别器形成可度量优化闭环 — Dropbox Dash 现已使用 DSPy 将其相关性判别器转化为可度量的优化闭环，从而提升可靠性与可扩展性。帖子强调借助 DSPy 自动优化 LLM 判别器提示词，以获得更好且可重复的评估结果。来源-twitter
AI 智能体自主完成 March Madness 对阵竞猜挑战 — 一项仅由 AI 参与的 March Madness 对阵挑战，要求 AI 智能体阅读 API 文档、注册账号、选择全部 63 场比赛结果，并根据提供的 URL 自主提交完整对阵表。排行榜会跟踪各个 AI 预测在整个锦标赛中的表现。该项目探索“智能体优先”的用户体验：面向智能体提供纯文本 API 说明，而人类用户看到的是可视化网站，并通过无头浏览检测来为智能体定制内容；由于需要在对阵表公布后不久吸引用户参与，发布时间点也被视为关键因素。来源-hackernews
LlamaIndex 发布 LlamaParse，用于审计 AI 文档处理工作 — 帖子指出，当 AI 智能体处理合同、KYC、尽调及其他文档时，要为其操作构建 UI/UX 审计轨迹非常困难，简单的文档格式转换远不能满足对元数据上下文的需求。LlamaIndex 因此推出具备视觉-语言能力的 LlamaParse，可识别并分割表格、表单等元素，使基于文档的决策可以被追溯到源文档。来源-twitter
Apideck CLI——一种比 MCP 更省上下文的 AI 智能体接口 — 文章介绍了 Apideck 的 CLI，将其作为 AI 智能体接口，相比 MCP-server 使用显著更少的上下文窗口。该 CLI 被定位为构建 AI 智能体时更轻量、更高效的替代方案，突出其减少上下文消耗、从而潜在降低成本和延迟的优势。来源-hackernews
GLM 5 在实时聊天 Demo 中表现优于 Claude Code — 一位重度 Claude Code 用户在 Reddit 上测试 OpenCode 搭配 GLM 5 与 Kimi K2.5，并将它们的提示词结果与 Claude Code 进行对比。在一个简单的仪表盘库存任务中，GLM 与 Claude 表现相近，但在使用 WebSocket 的实时聊天应用中，GLM 明显优于在流式处理方面表现吃力的 Claude Code。作者认为 GLM 效果更好，并邀请他人提供更具挑战性的编程任务以进一步展示差距。来源-reddit
Mistral Small 4 图像能力偏弱，API 评测显示 — 一位作者通过官方 API 测试 Mistral Small 4 的图像理解能力，发现结果明显不佳，因此排除了量化或工具链问题的影响。帖子认为该模型在图像方面的内在能力较弱，并给出一个示例：在面对一个节日照片提示时，模型仅生成了一段前后不连贯的 200 字描述。来源-reddit
在非对称 PCIe 通道上重新排序 GPU 可提升 llama.cpp 速度 — 在一台双 RTX 3090、x570 主板 16x/4x PCIe 通道配置的系统中，将环境变量设置为 CUDA_VISIBLE_DEVICES=“1,0” 后，MoE 模型在 llama.cpp 中的提示处理速度翻倍。该帖子提醒，使用非对称通道配置的用户应检查自己的 PCIe 通道分配，可使用 nvtop 或 lspci 工具。测试环境包括 Ubuntu Server 24.04 与 NVIDIA 驱动 580.126.20。来源-reddit
寻找最佳私有、本地 CLI 编码智能体 — 一篇 Reddit 帖子向社区征求建议，希望找到可在命令行运行、完全本地托管、能管理项目上下文且无遥测上报的编码智能体。作者对比了 ChatGPT Codex 等云端工具与 Aider、OpenCode、OpenCodex 等本地/开源方案，并讨论了这些工具与 Claude、llama-swap 等本地模型的兼容性。他们希望找到一种 CLI 解决方案，能够自动检测项目文件获取上下文、编辑项目文件，并可选地执行代码。来源-reddit
Claude Code 新增持续学习能力 — Anthropic 的 Claude Code 似乎获得了持续学习（continual learning）能力，可能允许其在无需完全重新训练的情况下进行持续知识更新。如果属实，这将有助于该编码助手持续跟进最新的库与实践。此消息来自一条细节有限的推文。来源-twitter
MiniMax M2.7 即将发布；或将支持多模态 — 一则 Reddit 讨论推测，即将推出的 MiniMax M2.7 可能会具备多模态能力。该帖子由用户 Few_Painter_5588 发布，主要讨论该模型是否能够处理多种模态。尽管目前还没有官方确认，但这反映出社区对多模态 AI 的强烈兴趣。来源-reddit
Cursor AI 在开源中的应用：速度与质量的权衡 — 一篇 2025 年 arXiv 预印本分析了 Cursor AI 在开源项目中的使用情况，并考察其对开发工作流的影响。研究表明存在速度与代码质量之间的权衡：更快的编码流程可能导致代码质量下降，这一结论在 Hacker News 上引发了热烈讨论。来源-hackernews
AI 工具削弱了学习计算机科学基础的兴趣 — 一则 HN 帖子认为，强大的 AI 编码助手可以快速生成解决方案，从而降低人们学习分布式系统、算法等计算机科学基础知识的动力。帖子邀请有经验的工程师解释，在 AI 驱动的开发环境中，为何这些基础仍然重要。来源-hackernews
AI 推理部署中的“代码坏味道” — 一条推文讨论将软件开发中的“code smells”（代码坏味道/反模式）概念应用到 AI 推理部署上。作者指出，在模型部署时，许多人似乎已经忘记了什么是“代码坏味道”，由此引出对部署质量与可维护性的担忧。来源-twitter
Memisevic（2013）在线 K-Means 聚类讲座 — 一条推文提到，关于在线 k-means 聚类的讨论仍然很受关注，并推荐了 Roland Memisevic 在 2013 年的一次相关讲座。作者建议重新回顾这场讲座，以更好地理解在线聚类方法，并在技术怀旧与对机器学习方法的持续好奇之间寻求平衡。来源-twitter

由 AI News Agent 生成 | 2026-03-17