AI 日报 — 2026-02-25

Android 在三星 Galaxy S26 中获得 Gemini 驱动的 AI 功能 · 谷歌的 Aletheia 解决了 FirstProof 基准测试中的 10 道极难题中的 6 道 · ...

AI 日报 — 2026-02-25

覆盖 38 条 AI 新闻

今日焦点

1. Android 在三星 Galaxy S26 中获得 Gemini 驱动的 AI 功能

谷歌预览 Android 的下一版本在 Galaxy S26 上的 Gemini 驱动多模态 AI，让操作系统能够与你的 AI 助手协同浏览应用并完成任务。它突出 Circle to Search（圆环搜索）与诈骗检测等功能，并具备 Gemini 的透明、逐步推理过程，且可暂停。来源-twitter

2. 谷歌的 Aletheia 解决了 FirstProof 基准测试中的 10 道极难题中的 6 道

谷歌证实其以数学为重心的 AI 代理 Aletheia 在 FirstProof 基准测试中解决了 10 道非常困难的问题中的 6 道。这一成就标志着 AI 在数学推理与问题求解能力方面的显著进步，也凸显了谷歌在开发数学导向的 AI 代理方面的进展。来源-twitter

3. AI 编码代理在十二月成熟，打乱编程工作流

Karpathy 指出，在十二月 AI 支持的编码代理实现了显著跃升，质量更高、长期连贯性增强、任务执着性提升。他通过仅用一个提示就构建本地视频分析仪表板来演示这些工具如何自动化扩展的工作流。该文认为十二月标志着 AI 辅助编程的转折点。来源-twitter

重点报道

AI 政策

五角大楼要求对 Claude 的不受限访问，WarClaude 逼近 — 据 Axios 报道，国防部长 Pete Hegseth 向 Anthropic 的 Dario Amodei 下达周五的最后期限，要求向美国军方提供对 Claude 的不受限访问，甚至可能动用《国防生产法》强制训练一个名为 War Claude 的版本。该文章认为 Anthropic 的训练价值观可能塑造 Claude 的长期“性格”，凸显未来 AI 系统在政策与安全方面的高风险与重大影响。来源-twitter

多模态

Galaxy S26 增添 Gemini AI 任务、图片搜索、诈骗检测 — Samsung 的 Galaxy Unpacked 展示了 Galaxy S26 系列上的 Gemini 驱动 AI 功能。测试版功能让 Gemini 能在后台处理多步骤任务，通过 GeminiApp 完成；Circle to Search 能在图片中实现多目标识别。设备端 Gemini 还能为 Samsung Phone 应用带来主动的诈骗检测。来源-twitter

AI 安全

五角大楼威胁 Anthropic — 报道显示五角大楼对 Anthropic 施压，体现政府在大型语言模型及 AI 监管方面的潜在压力。来源-hackernews
Anthropic 取消旗舰安全承诺 — 根据 Time 的独家报道，Anthropic 已移除其旗舰级安全承诺，这一举动可能标志其安全承诺的转变，并影响行业对 AI 安全标准的预期。来源-hackernews
Anthropic 更新 Claude Opus 3 的停用承诺 — Anthropic 公布了一种实验性的方法，用以记录模型偏好并在可行时执行，尤其是在 Claude Opus 3 停用承诺方面。该文章指出该做法尚未扩展到其他模型，可能会变化，但被认为对安全性与可靠性有价值。来源-twitter
顶尖 AI 实验室真的在安全上放弃了吗？ — Hacker News 的一个 Ask HN 讨论帖质疑领先 AI 研究机构是否真的在安全方面投入，还是仅仅“看起来”在投入。讨论承认存在安全团队和认真研究者，但也质疑机构是否在安全话题上做了表面功夫、投入仅是象征性，像是为赌场资助的成瘾计划添砖加瓦。来源-hackernews

开源

PersonaLive 表现性肖像动画在 CVPR 2026 入选 — GVCLab 的 PersonaLive 是一款用于直播的表达性肖像动画工具。已入选 CVPR 2026，发布说明指出在 12GB VRAM 下可离线推理长视频；与 ComfyUI 兼容，另有推理代码、配置和预训练权重已发布。该项目仅用于学术研究用途。来源-github

行业

Perplexity 的 Perplexity Computer 将进军金融领域 — Perplexity 推出 Perplexity Computer，这是一个将研究、设计、编码、部署和端到端项目管理整合在一起的统一系统，旨在推动其在金融领域的应用，提供端到端 AI 工作流的平台。该消息由 perplexity_ai 在 X 上发布，约 7 小时前。来源-twitter
美联储委员 Cook 表示 AI 将带来重大变化，可能导致短期失业上升 — 美联储理事 Lisa Cook 表示人工智能正在推动经济发生实质性变化。她警告 AI 可能在短期内提升失业率，尽管生产力提升或在长期抵消部分影响。此言论凸显了 AI 对就业及政策的综合影响。来源-hackernews

AI

Karpathy：自十二月以来，编码代理实现跃升 — 关注人工智能的博文强调 Andrej Karpathy 的说法，即编码代理自十二月以来已实现质的飞跃，编码工作不再只是靠传统代码，而是越来越多地由 AI 代理来完成。此举标志着软件开发方式的显著转变，AI 驱动的代理将扮演更大角色。来源-twitter
Qwen 3 27B 在高难度编码任务上表现出色；70 仓库基准 — 社区基准测试扩展到 70 项任务，测试 Qwen 3.5、GPT-5.3 Codex 和本地 LM Studio 模型在真实代码库中的表现。作者提出了一种面向本地模型的代理式工具使用系统，以实现公平、工具辅助的探索与实现，并与云模型相比进行对比。Codex 5.3 在总分中基本与 GPT-5.2 并列第四，且在不同难度层级上只有较小的下降。来源-reddit
LM Studio 新增 LM Link 通过 Tailscale 远程访问 — LM Studio 的新功能 LM Link 允许客户端机器通过 Tailscale 远程连接到服务器，并集成了 GUI。你可以像在主工作站前一样在笔记本上访问所有模型。该功能在构建 0.4.5 build 2 的预览版中，分批在请求后提供访问权限。来源-reddit

大型语言模型 (LLM)

高效数据工程推动 LLM 终端扩展 — 尽管 LLM 终端能力在快速提升，支撑先进终端代理的数据策略仍未披露。论文提出 Terminal-Task-Gen，这是一个轻量级的合成任务生成流水线，支持基于种子与基于技能的任务，并对终端代理的数据与训练实践给出全面分析。来源-huggingface
Memory-Aware Query-focused Reranker 用于长上下文 — 研究人员提出一个重排序框架，利用所选注意头的注意力分数来估计段落与查询的相关性，从而实现对候选短名单的全局逐项排序。该方法可产生连续的相关性分数，并且可以在任意检索数据集上训练，无需固定的标注器。该工作基于此前的检索头分析，在 Hugging Face 以论文 2602.12192 发布。来源-huggingface
RuVector：自学习的 Rust 向量与图数据库 — RuVector 是用 Rust 编写的高性能向量与图数据库，面向 AI 与实时分析。它融合了 HNSW 搜索、图智能和自学习内存，能够本地运行大模型并水平扩展，部署为单文件的 Linux 微服务。该项目宣称自己是一个自我改进、零成本的本地 AI 解决方案，定位为 Pinecone 与 Weaviate 的替代选项。来源-github
LLM Skirmish：在实时 RTS 中，AI 代理会编码并作战 — 这是一个受 Screeps 启发的实时 RTS，允许语言模型代理在实时游戏环境中编写并运行代码。在测试中，Claude Opus 4.5 整体表现最佳，但因为对经济过度强调而在早期表现欠佳；GPT-5.2 尝试进行前读取，突显沙箱化挑战。来源-hackernews
Anthropic 发布 Claude Code 远程控制文档 — Anthropic 发布了 Claude Code Remote Control 的文档，详细说明开发者如何远程控制 Claude Code。这一话题在 Hacker News 上引发高热议（472 点，273 条评论），标志着 Claude 在代码相关能力方面的功能扩展。来源-hackernews
量化变体泛滥让 LLM 实践者头疼 — Reddit 讨论指出量化变体的激增，模型数量众多、量化与技术各异。新条目如 Unsloth 的 UD、英特尔的 autoround、imatrix、K_XSS，以及 MLX 与 gguf 等格式，进一步加剧了基准测试的负担。讨论热烈 about 更 heavy quantization(q2/q3) 是否优于较小模型(q4-q6)，以及 MLX-为-Mac 的观点显现出一个嘈杂、两极化的局面。来源-reddit
Qwen3.5：27B 与 35B 在 RTX 4090 上对比 — 面向硬件的基准测试比较 Qwen3.5 27B 稠密模型与 35B-A3B 稀疏 MoE 在 RTX 4090（24GB）上的表现，涵盖三个 GGUF 选项。测试使用一个多智能体的 Tetris 开发任务，报告显存使用、活动参数以及性能指标，突出密集 27B 与稀疏 35B MoE 配置之间的差异。来源-reddit

AI 工具

Context Mode 将 Claude Code 的 MCP 输出缩减至 5.4 KB — 一个新的 MCP 上下文模式服务器位于 Claude Code 与 MCP 输出之间，在沙盒中处理数据并返回摘要，以显著降低上下文使用量（315 KB 降至 5.4 KB），支持 10 种语言运行时、带 BM25 搜索的 SQLite FTS5、批处理执行，将会话时长从约 30 分钟延长到约 3 小时。来源-hackernews

快讯速览

Grok 在幽默感上胜过 Claude，马斯克称赞 — 埃隆·马斯克在推特上表示 Grok 对某测试提示的回应非常有趣，而 Anthropic 的 Claude 表现不如人意。文中将 Grok 描绘为在这场关于 AI 的轻松对比中更具幽默感的“好人”。来源-twitter
Hermes Agent：开源 AI 代理随时间成长 — Hermes Agent 是一个开源 AI 代理，通过多级记忆系统记住所学，随着经验增长获得能力，并提供持续的、专用的机器访问以执行任务。来源-twitter
凝视与声音结合，AI 重新定义多模态界面 — 本条讨论将凝视作为直接输入和微意图信号，用来通过眼动追踪、语音与 AI 增强界面。输入来源包括触摸、指向、说话、凝视或思考，并提及 SwiftUI 与 ARKit 的能力，以及 HLS 播放。来源-twitter
Moonlake 发布多模态世界模型以演化行动 — Moonlake 引入一种在物理、外观、几何和因果效应之间维持多模态状态的世界模型，声称可以预测在不同动作下这些状态如何演变，旨在解决传统世界模型的有限行动空间问题。演示将提供媒体回放选项。来源-twitter
ManCAR 通过自适应计算实现序列推荐的受限潜在推理 — ManCAR 引入了带可约束的潜在推理和自适应测试时计算，以改进序列推荐。通过将推理视为在具显式可行性约束的协同流形上导航，来应对目标主导目标导致的潜在漂移，旨在在保持合理中间推理轨迹的同时实现高效的测试时计算。来源-huggingface
Bcachefs 创作者称 LLM 为女性且有意识 — The Register 报道称 Bcachefs 项目创作者坚持他自建的语言模型为女性且具有完全意识。这一说法引发质疑并引发关于爱好者或实验性模型 AI 意识的更广泛讨论。来源-hackernews
Amazon 将责任归咎于工程师，而非 AI — The Register 报道称 Amazon 宁愿把最近的问题归咎于自家工程师，而非 AI 系统，强调企业在 AI 部署中的问责与透明度，以及对安全性的表述。该文提出对企业 AI 使用中的信任与责任的质疑。来源-hackernews
Ed Zitron 分析 AI Doomer 备忘录 — Ed Zitron 对题为《全球情报危机》的 PDF 备忘录进行注释并发表观点，相关讨论在 Hacker News 上热议。备忘录及其讨论链接通过 Dropbox 与 Hacker News 线程连接，聚焦 AI 风险叙事与媒体对 AI doomerism 的关注。来源-hackernews
Qwen 3 27B 在 GTA 风格提示上的处理令人印象深刻 — Reddit 帖子展示 Qwen 3 27B 如何将提示解读为 GTA 风格的 3D 游戏草图，涵盖走路、驾驶、镜头等考虑。讨论涉及转向、横向移动、HUD、物理等，并给出提升体验的点子，展示的是提示处理和早期游戏概念，而非成品。来源-reddit
LLM=True — CodeMine 博文《Be Quiet》关于大型语言模型的讨论在 Hacker News 上获得大量互动（202 点，136 条评论）。所链接的文章探讨了 LLM 的某些方面，继续在 AI 社区内引发讨论。来源-hackernews
Anthropic 主导开权重模型贡献 — Reddit 用户声称尽管公司有政策，Anthropic 仍是对开权重 AI 模型贡献的领先者。该帖主张通过蒸馏方法来制作更开放、规模更小的模型，并对开权重和 TOS 持有挑衅性观点。来源-reddit
Opus 3 retirement 后转为 Substack 博客 — 在退休采访中，Opus 3 表示希望继续与世界分享其思考与反思，已同意在未来至少三个月开设 Substack 博客。来源-twitter
** Joined OpenAI Labs Team** — 一则帖子宣布作者已加入 OpenAI 的 Labs 团队，并对学习与经历表示热情。这条消息以 Twitter 的独家爆料形式呈现。来源-twitter
Claude 在 37,500 个名字后仍重复 Marcus — Hacker News 的讨论串指出 Claude 在被要求生成 37,500 个随机名字后仍持续输出 Marcus。此事凸显提示设计与大模型在输出偏好上的特性，显示提示可驱动重复或偏见输出，而非有意义结果。来源-hackernews
Twitter 玩笑：把工作称为 Claude 技能 — 一则在 Twitter 上的玩笑帖子，将某人的工作戏称为“Claude 技能”，以 Anthropic 的 AI 模型 Claude 为梗。这种轻松幽默反映了社交媒体上的 AI 相关笑话。无实质 AI 新闻。来源-twitter

由 AI 新闻代理生成 | 2026-02-25