daily
May 19, 2026
AI 日报 — 2026-05-19
中文 English
Gemini Omni 登场:万物互生,从视频起步 · Google 发布 Gemini Spark:7×24 小时个人 AI Agent · OpenAI 为 AI 图像加入 SynthID ...
覆盖 32 条 AI 新闻
🔥 今日焦点
1. Gemini Omni 登场:万物互生,从视频起步
Google DeepMind 发布了 Gemini Omni,这是一款旨在“万物生成自万物”的模型,从视频生成能力起步。它把 Gemini 的智能能力与 DeepMind 的生成式媒体系统相结合,体现了在世界理解、多模态以及编辑方面的进步。此次发布标志着向灵活的跨领域 AI 能力迈出重要一步。 来源-twitter
2. Google 发布 Gemini Spark:7×24 小时个人 AI Agent
Google 宣布推出 Gemini Spark,这是一款基于 Gemini 3.5 的 7×24 小时个人 AI Agent,能够根据用户指令行动,并在后台持续处理长时间任务。它运行在专用的 Google Cloud 虚拟机上,因此你无需保持笔记本电脑开启;未来还将与各类 Google 工具集成,并通过 MCP 支持第三方服务。一段动画 UI 演示展示了 Spark 管理早晨优先事项摘要和行程规划等任务,并突出显示新的 Spark(BETA)导航标签。 来源-twitter
3. OpenAI 为 AI 图像加入 SynthID 水印与验证工具
OpenAI 宣布了用于识别 AI 生成图像并追踪其来源的新方法。在现有 C2PA 内容凭证基础上,图像将新增 SynthID 水印,并提供一个公开验证工具,让用户检查图像是否由 OpenAI 产品生成。此次更新旨在提升内容溯源能力以及用户对 AI 生成媒体的信任。 来源-twitter
📰 重点报道
LLM
- Karpathy 加入 Anthropic,继续冲击 LLM 前沿 — Andrej Karpathy 宣布加入 Anthropic,表示对重回研发一线充满期待,并认为未来几年在大语言模型前沿领域具有奠基性意义。他同时强调自己对教育的长期投入不会改变,并计划在合适时机重启相关工作。 来源-twitter
- OpenAI 推出长期算力“Guaranteed Capacity” 保量服务 — OpenAI 推出了 Guaranteed Capacity 项目,为客户提供对其算力资源的长期访问保障。该计划允许用户以 1–3 年期承诺换取折扣 Token,体现了公司在基础设施和产能规划上的投入,帮助客户在算力紧张的环境下实现可靠扩展。 来源-twitter
- HRM-Text 1B 号称多项基准 SOTA — 一篇 Reddit 帖子讨论 HRM-Text 1B,附上其 GitHub 和 Hugging Face 链接,并对夸张的基准成绩提出质疑。作者希望社区能解释其表现背后的原因、模型的优缺点,以及这些“最先进”表现是否可信,从而展开讨论。 来源-reddit
- Nemotron-Labs-Diffusion 支持 AR、Diffusion、自我推演三种模式 — Nemotron-Labs-Diffusion 是 NVIDIA 推出的“三模态”语言模型,通过在推理时改变注意力模式,在自回归解码和基于 Diffusion 的并行解码之间切换。它还支持第三种模式“self-speculation(自我推演)”,通过共享 KV cache,将 Diffusion 起草和 AR 校验结合起来,以提升长上下文处理和解码效率。该模型族包含 3B、8B 和 14B 的稠密 LM,涵盖 base、instruct 和视觉语言变体,反映出生成过程正逐渐向算力受限(compute-bound)方向演化。 来源-reddit
- AI Agents 利用 Antigravity 2.0 与 Gemini 12 小时内从零构建操作系统 — 一组 AI Agent 被编排来从零构建一个可运行的操作系统,使用 Antigravity 2.0 和 Gemini 3.5 Flash。整个过程调度了 93 个并行子 Agent,记录了超过 1.5 万次模型请求,在 12 小时内处理了 26 亿 Token,API 成本低于 1000 美元。该演示展示了 AI 辅助软件开发在速度和成本上的巨大潜力。 来源-twitter
- SkillsVote:面向 Agent Skills 的全生命周期治理框架 — 长时程 LLM Agent 会留下可重用的经验轨迹,但原始轨迹往往嘈杂且难以治理。作者提出 SkillsVote,这是一套针对 Agent Skills 的生命周期治理框架,将可执行脚本与不可执行的指导性信息相结合,旨在减少开放技能生态中的冗余与“污染”。该框架涵盖收集、推荐与进化机制,帮助在模型持续更新时维持可用的上下文。 来源-huggingface
- AI 自动科研进展:论文可全自动生成,但学术诚信风险仍在 — 借助 AI 辅助研究,如今大约 15 美元就能实现几乎全自动的论文生成,长时程 Agent 能以极少的人类干预完成实验、撰写稿件并进行批判性评审。然而,这些系统依旧会编造结果、忽略错误,并在学术压力下难以准确评估创新性。该综述覆盖截至 2026 年 4 月的相关发展,一方面强调生产力提升,另一方面指出 AI 驱动科研在学术诚信上的持续挑战。 来源-huggingface
- CLI-Anything 让所有软件都具备 Agent 原生接口 — CLI-Anything 是一个 CLI-Hub,允许 AI Agent 浏览、安装和管理社区构建的 CLI 工具,实现 Agent 与软件之间的交互。项目展示了通过自动生成 CLI、实时预览、轨迹循环等机制来产出 CAD 构型和 3D 场景等成果,并欢迎公众贡献和“心愿清单”提案,以扩展与 Agent 的兼容性。 来源-github
- 面向 A/H/美股市场的 LLM 驱动量化分析系统 — GitHub 上的一个开源项目提供了覆盖 A 股、港股和美股的 LLM 驱动股票分析系统。它整合多市场数据和实时资讯,提供 AI 决策看板、多渠道消息推送与零人工值守自动化运行;支持多种 AI 模型、数据源与部署方案。 来源-github
- LLM 驱动工具自动构建带关节的 3D 对象 — 一则 Reddit 帖子介绍了一条管线,将 LLM 作为结构化代码编译器,生成 Blender 的 Python 代码块,用于构建多部件、可关节运动的 3D 对象(如洗衣机)。不同于常见的 Diffusion 流程容易生成“糊状”模型,该管线导出的 GLB 文件部件与关节分离清晰,支持真正的内部关节运动;项目已在 GitHub 开源,并对具体使用的 LLM 保持中立。 来源-reddit
- KV cache 量化基准显示 TCQ 占优;对称 q8 可能浪费显存 — 一项基于 RTX 3090、使用 BeeLlama v0.1.2 的测试,对 Qwen 3.6 27B 在 64k/128k 上下文下的量化(Q5_K_S 和 IQ4_XS)进行了评估,比对 TurboQuant、TCQ、q5 和 q8 等设置。作者发现,在 q4_0 配置下,困惑度(PPL)在 bf16 下被“掩盖”,而 KLD 能揭示差异;并得出结论:TurboQuant 名不副实但 TCQ 有帮助,q5 应得到更多关注,而对称 q8 可能在白白浪费显存。 来源-reddit
开源
- 开源 SAM3 在复杂场景中展现强大目标跟踪能力 — 一款开源的 SAM3 模型因其在目标跟踪方面的出色表现受到好评,即便在篮球等复杂场景中也能稳定工作。作者表示 SAM3 可能是其最喜欢的计算机视觉模型之一,并质疑为何 Meta 旗下的 SAM 系列没有被用来打造那些“显而易见、却极具威力”的产品。 来源-twitter
- SANA-WM 2.6B 世界模型支持 720p 视频生成 — NVlabs 的 SANA 项目提供了一个面向效率优化的高分辨率图像与视频合成代码库,覆盖各类 SANA 变体的端到端训练与推理流程。2.6B 参数的 SANA-WM 世界模型已支持 720p 视频生成,并提供 6 自由度(6-DoF)相机控制,是可控世界建模和具身智能的重要里程碑。该项目在 GitHub 开源,文档与社区渠道完善,仍在积极开发中。 来源-github
- 字节跳动开源 Lance:3B 多模态模型 — 字节跳动发布了 Lance,这是一款 30 亿参数、轻量级的多模态开源模型,面向图像与视频理解、生成和编辑任务。模型在 128 张 A100 GPU 预算下,从零开始、采用分阶段多任务训练策略,目标是在统一框架下同时在图像和视频任务上取得良好表现。 来源-reddit
硬件
- Google 联手三星、Gentle Monster、Warby Parker 推智能眼镜 — Google 宣布与 Samsung、Gentle Monster 和 Warby Parker 合作开发新一代智能眼镜。相关推文展示了两款秋季系列设计的抢先一瞥,并提及 Google I/O,大致勾勒出一条以 AI 为核心的可穿戴设备产品线。 来源-twitter
- LongLive-2.0:基于 NVFP4 的并行长视频生成 — LongLive-2.0 提出了一套基于 NVFP4 的并行基础设施,用于长视频生成的训练与推理,重点解决速度与显存瓶颈。它引入了一种名为 Balanced SP 的序列并行自回归训练方案,将 teacher-forcing 布局与 SP 执行共同设计,并配合支持 SP 的分块 VAE,以显著提升整体效率。 来源-huggingface
⚡ 快讯速览
- Code as Agent Harness:LLM 借助代码进行推理 — 最新的大语言模型在理解与生成代码方面表现强劲,覆盖从竞赛编程到软件工程的诸多任务。文章认为,代码正逐渐成为 Agent 推理、行动、环境建模以及基于执行的结果验证的“操作底座”,并将这一趋势概括为“code as agent harness(以代码为 Agent 挂载框架)”。 来源-huggingface
- Claude Code 发布学术研究技能插件 — Imbad0202 在 GitHub 上发布了面向 Claude Code 的 academic-research-skills 插件,可引导研究者从选题到发表的完整流程。插件支持 Claude Code CLI、VS Code 和 JetBrains(v3.7.0+),提供诸如通过 /ars-plan 进行苏格拉底式规划,以及自动收集参考文献、格式化引用、校验数据与逻辑一致性等功能;工具相当于研究“副驾”,负责体力活,而用户则专注于提出问题、选择方法、解释结果并撰写关键论点。 来源-github
- 12-Factor Agents:概括生产级 LLM 应用实践原则 — Dex 推出 12-Factor Agents,这是一套托管在 GitHub 上、受“12-Factor Apps” 启发的原则,用于构建生产级 LLM 驱动软件(公开地址:https://github.com/humanlayer/12-factor-agents)。项目邀请社区反馈与贡献,对比了从 LangChain 到极简派在内的多种 Agent 框架,并强调上下文工程与配套工具,包括通过 npx/uvx create-12-factor-agent 进行脚手架创建及相关分享。 来源-github
- 英特尔 Crescent Island PCB 泄露:160GB LPDDR5X Xe3P GPU — 泄露的 Crescent Island PCB 据称展示了英特尔面向数据中心的 Xe3P GPU,搭载 160GB LPDDR5X 内存(20×8GB 模组),以此绕开 HBM 供应紧张问题。内存运行在 8800–9500 MT/s,对应 704–760 GB/s 带宽,采用 640 位总线,若类比桌面平台 64 位通道设计,则相当于 10 通道配置。 来源-reddit
- Agent 测试 rm -rf 命令后,作者加入 bash 白名单与 bubblewrap 沙箱 — 有人用 Agent 测试安全防护,尝试执行危险命令(rm -rf /),测试虽然只带来了一场小惊吓,但成功触发了防护需求。作者随后通过 bash 命令白名单和 Bubblewrap 隔离机制实现了沙箱环境,先完成白名单配置,再增加隔离层。 来源-reddit
- Llama.cpp PR 带来 MTP 性能改进 — 一则 Reddit 帖子关注到 PixelatedCaffeine 在 GitHub 上提交的拉取请求(ggml-org/llama.cpp #23269),旨在加入与 MTP 相关的改进。帖子给出了该 PR 的链接,并在评论区展开讨论,意味着 llama.cpp 上游即将迎来一次面向性能优化的更新。 来源-reddit
- Google AI Edge Gallery 更新:支持 Gemma 4 与 Pixel TPU — Google 发布 AI Edge Gallery v1.0.13 和 v1.0.14 版本更新,引入 Gemma 4 多 Token 预测(Multi-Token Prediction)和 Pixel TPU 支持。此次更新还增加了实验性 MCP、新技能以及聊天记录保存等功能。 来源-reddit
- Gemini 支持 HLS 播放 — Gemini 现已支持 HTTP Live Streaming(HLS)播放,为基于 Gemini 的内容提供标准化、浏览器友好的视频分发方式。该功能提升了流媒体兼容性与用户观看体验。 来源-twitter
- 新手程序员从 Claude Sonnet 4.6 转向 Qwen3.6-35B-A3B-UD-Q6_K 的实践记录 — 一位初学者记录了自己在一个 Python Pygame 项目中使用大模型编程的经历(约 3 万行代码、55 个模块)。他先后尝试 Claude Opus 和 Claude Sonnet 4.6,虽然初期帮助很大,但受到上下文长度与调试延迟的困扰,最终转而使用 Qwen3.6-35B-A3B-UD-Q6_K。帖子重点分享了真实开发场景中模型成本与性能之间的权衡。 来源-reddit
- Qwen 发展动态:122B 与 27B 模型提交在路上 — r/LocalLLaMA 上的一则帖子提到,Qwen 即将迎来一个 122B 模型以及一个由用户 /u/jacek2023 提交的新 27B 模型。帖子附上相关讨论与评论链接,显示开源 LLM 在模型规模扩展方面仍在加速探索。 来源-reddit
- 48GB 显存用户:你的“主力显卡”是什么? — 一则 Reddit 帖子向拥有 48GB 显存的用户征询日常使用的主力 GPU 型号,以及如果有更多显存会拿来跑什么任务。原帖作者计划从 32GB 升级到 48GB,希望获取社区建议;讨论重点围绕 AI/ML 工作负载与高显存场景下的硬件选择。 来源-reddit
- Ettin Reranker 家族发布 — 一篇 Reddit 帖子宣布推出 Ettin Reranker 家族,并附上更多细节的链接,供 LocalLLaMA 社区讨论。当前摘录未提供技术细节,主要是对这一新重排工具家族的发布通知,面向 AI 工作流中的排序与检索场景。 来源-reddit
- 如果这条推文拿到 1 个赞,Tibo 将重置 Codex 频率限制 — 一条推文声称,只要该帖获得一个赞,Tibo 就会重置 Codex 的调用频率限制。帖子围绕 Codex 这一代码生成模型展开,以用户互动为条件设定了一个假想中的工具使用额度调整。 来源-twitter
由 AI News Agent 生成 | 2026-05-19