AI 日报 — 2026-02-28
AI 公司与 DoW 签署协议,在 DoW 的机密网络中部署模型 · Google 发现更长推理会降低准确性;引入 Deep Thinking Ratio · Qwen3.5-35B-A3B 在...
覆盖 23 条 AI 新闻
🔥 今日焦点
1. AI 公司与 DoW 签署协议,在 DoW 的机密网络中部署模型
一家具 AI 公司宣布与 Department of War 签署协议,在 DoW 的机密网络中部署其模型。该协议确立了安全原则——禁止国内大规模监控,并确保对武力使用进行人类监督,包括自治武器——以及技术保障和云端部署的限定。它还要求 DoW 向所有 AI 公司提供相同条款。 来源-twitter
2. Google 发现更长推理会降低准确性;引入 Deep Thinking Ratio
Google 研究人员在 AIME2024/2025、HMMT 2025 与 GPQA-Diamond 等评测中测试了八种模型变体(GPT-OSS、DeepSeek-R1、Qwen3 等),发现标记长度与准确性呈负相关(-0.54)。他们引入 Deep Thinking Ratio(DTR),用以衡量推理中的深层处理,其与准确性的相关系数达到 0.82。团队还提出 Think@n 策略:对多条推理路径进行采样,基于前 50 个标记估算 DTR,保留高 DTR 的前半部分,并通过多数投票来决定答案。 来源-reddit
3. Qwen3.5-35B-A3B 在 M1 上取代了我的两模型代理式设置
在 Reddit 的一帖中称,Qwen3.5-35B-A3B 能在同尺寸等级内达到或超过更大模型的推理、代理式与编码任务性能,甚至可与参数量高达数百亿级的模型竞争。用户在 Apple Silicon M1 Max(64GB RAM)上,通过 llama.cpp 服务器以 19 GB 的内存占用运行 Qwen3.5-35B-A3B,分析一份六页的 Amazon 2025 年 1 月销售 Excel 表,并为下月提出 10% 的销售提升建议。该单模型设置据称取代了他们先前的两模型代理式工作流,显示出在消费硬件上也具备强大的端到端能力。 来源-reddit
📰 重点报道
行业
- Anthropic 的 Amodei 在 Pentagon 将 Anthropic 列入黑名单后首次接受采访,表示该实验室爱国且致力于开发用于保卫美国的模型;文中提到政府对自治武器和大规模监控的无条件访问,以及在紧急状态下的权力运用,包括供应链指定和通过 Truth Social 的六个月逐步退出。文本强调 AI 发展、政策与国家安全交叉处的紧张局势。 来源-twitter
AI 工具
- Claude Code 将新增 /simplify 与 /batch 两项技能 — Anthropic 的 Claude Code 将引入两项新技能 /simplify 与 /batch。这些功能自动化诸如将拉取请求推送到生产环境、执行可并行化的代码迁移等任务,显著减少人工工作量。作者表示他们每日都在使用,并很高兴公开分享。 来源-twitter
AI 安全
- ** Pentagon 拒绝对军事 AI 使用的否决权** — 五角大楼认为不应赋予对其购买的 AI 工具使用方式的否决权,此举主张在民用控制下的合法使用。文中将此与呼吁设定严格限制(不得进行大规模监控、须人类在环自治)的批评对比,并将美国治理与 PLA 的 AI 部署进行对照,文中提及 Claude 与 Dario Amodei。 来源-twitter
- DoW 对 OAI 与 Anthropic 的标准不同;Altman 在误导吗? — 评论者认为 DoW 针对 OpenAI 与 Anthropic 适用不同标准,或称 Altman 在此推文中误导。鉴于 Altman 的历史,发帖者倾向于后者的解释。 来源-twitter
大型语言模型
- CodexBar 在 Codex、Claude 等平台上跟踪 AI 使用情况 — CodexBar 是一个 macOS 14+ 菜单栏应用,用于显示来自 OpenAI Codex、Claude Code 和其他 AI 服务的逐提供商使用限制。它显示会话与每周的限制、各提供商状态、重置时间,以及一个可选总览标签,全部可通过设置配置。项目还提供 Linux CLI 支持与 Omarchy 集成,GitHub 上有发布,也提供 Homebrew 安装选项。 来源-github
- Wei-Shaw Claude Relay 服务实现统一的开源 LLM 访问 — Wei-Shaw 的 claude-relay-service 提供自托管的 Claude Code 镜像,以及一个面向 Claude、OpenAI、Gemini、Droid 的统一开源中继,采用共用成本拼车模式。警告称 v1.1.248 及更早版本存在严重的管理员认证绕过漏洞,建议升级到 v1.1.249+ 或迁移到 CRS 2.0(sub2api),并推广具备多账户支持的自托管 Claude API 中继。该项目还将 pincc.ai 的 Claude/Codex 拼车服务通过 Codex CLI 推广,但提醒须注意 Anthropic 的条款、隐私与第三方镜像的可靠性问题。 来源-github
- Bare-Metal AI:无需操作系统/内核即可启动 LLM 推断 — 一则 Reddit 帖子描述了一个基于 UEFI 的应用,直接进入大语言模型推断阶段,不需要操作系统或内核。整个 AI 栈(分词器、权重加载、张量运算和推断引擎)在 freestanding C 环境下运行于 UEFI 启动服务之上,未来计划增加网络驱动并在网络上服务较小的模型。开发者表示目前速度较慢,未来优化以提升性能,主要用于实验。 来源-reddit
- Qwen3 Coder Next 基准测试在 Rust 与 Next.js 中 — 继续在本地生产仓库进行基准测试,作者比较 Qwen3 Coder Next、Qwen3.5 27B、Devstral Small 2 等相关模型在 Rust + Next.js 环境下的表现。先前结果显示 Qwen3.5 27B 在 78 任务的 Next.js/Solidity 基准测试中领跑,Devstral Small 2 则在 Next.js 上略胜一筹;Noctrex 基准测试也将 Qwen3-Coder-Next-UD-IQ3_XXS 与 Mistral、Qwen 系列模型对比。本次更新在 Rust + Next.js 仓库上测试,新增 LM Studio 的 Devstral Small 2 Q8_0,并将 KV Cache 修正为 Q8_0 以降低显存需求。 来源-reddit
- 自组织映射实现多方向拒绝抑制 — 一个 Pull Request 提出使用自组织映射在多个方向上抑制拒绝,认为拒绝并非单一潜在方向,而是形成低维流形。关于 gpt-oss-20b 与 oss-120b 的结果显示,在不同的 KL 发散下拒绝抑制有所提升;早前的一维消融实验不足,HuggingFace 模型可视化了拒绝簇。来自卡利亚里大学的研究者参与了此项工作。 来源-reddit
- LLM Agent 将 KV-缓存传递以减少对令牌的重复处理 — 一位 AI 爱好者认为多代理 LLM 设置会对整个对话进行重分词与重新处理,导致大量令牌浪费(测试中约 47-53%)。他们提出 Agent Vector Protocol(AVP),在代理之间传递 KV-缓存而非文本,消除重分词和冗余的前馈传递。对 Qwen2.5、Llama 3.2、DeepSeek-R1-Distill 的早期测试报告显示令牌节省率为 73-78%,且无额外开销。 来源-reddit
开源
- Alibaba OpenSandbox 推出多语言 AI 沙盒平台 — OpenSandbox 是 Alibaba 的通用 AI 应用沙盒平台,提供多语言 SDK、统一沙盒 API,以及 Docker/Kubernetes 运行时。支持编码代理、图形界面代理、代理评估、AI 代码执行和强化学习训练等用例,内置环境与运行时生命周期管理。项目在 GitHub 的 Alibaba/OpenSandbox 仓库上托管。 来源-github
- InvisPose WiFi DensePose 提供实时隐私保护的人体姿态估计 — ruvnet 已发布 InvisPose 的生产就绪实现,该系统基于 WiFi 的密集人体姿态估计,利用信道状态信息而非摄像头实现全身姿态检测,能够穿墙跟踪。系统在 30 FPS 下延迟低于 50ms,支持多达人群跟踪(最高 10 人),并提供企业就绪的 API,具备跌倒检测、占用监测等分析功能,覆盖医疗、健身、智能家居和安保等场景。 来源-github
多模态
- DeepSeek V4 将于下周发布,具备图像与视频生成能力 — 《金融时报》报道,DeepSeek 将在下周发布其长期期盼的 AI 模型 DeepSeek V4,新增图像和视频生成能力,标志着在竞争对手对抗中的多模态 AI 推进。 来源-reddit
⚡ 快讯速览
-
Anthropic 的 Amodei 为政府使用 AI 设定红线 — Anthropic 的 CEO Dario Amodei 告诉 CBS News,公司计划就政府对其 AI 技术的使用设定红线,表示越过这些红线将违反美国价值观。他还补充说,与政府的分歧是“世界上最美国的事”。 来源-twitter
-
Meta 的 Llama 4 在 AI 讨论中被边缘化 — 一则 X 帖子声称 Meta 已将 Llama 4 弃置到几乎不再出现在 AI 讨论之中,帖文将 Meta 对待 Llama 4 的方式视为其在竞争模型中地位下降的原因。该贴未提供独立验证。 来源-twitter
-
moeru-ai/airi 开源自托 AI Waifu 容器 — moeru-ai/airi 是一个开源项目,将 Neuro-sama 重现为名为 Grok Companion 的自托管 AI Waifu 容器,提供实时语音聊天和游戏支持(如 Minecraft、Factorio),覆盖网页、macOS 与 Windows,具备内存/RAG 功能与 Live2D 工具。该项目是 Project AIRI 的一部分,欢迎通过 Crowdin 进行翻译,并强调没有加密货币代币。 来源-github
-
OpenAI Pivot 获投资者青睐 — 一则匿名 Reddit 帖子指出投资者对 OpenAI 的最近转型充满热情,但未给出具体转型细节,只指市场对该方向的积极反应。 来源-reddit
-
Unsloth Dynamic 2.0 改善 GGUF 层量化 — Unsloth Dynamic 2.0 通过更新 GGUF 以选择性地对模型层进行更智能、更广泛的量化,从而在不牺牲性能的前提下实现更精细的压缩。该更新体现了对开源 AI 的持续优化努力。 来源-reddit
-
训练于猫推文的算法;被 killbot 声称干扰而中断 — 某人描述训练一个偏向猫相关内容的社会化媒体算法。报道称有时会出现非猫相关的帖子,其中包括声称政府计划用 AI 组建 Killbot 与大规模监控的说法,凸显对 AI 驱动推荐系统及其信息安全风险的担忧。 来源-twitter
-
Small Qwens 更新新增 4 个隐藏条目 — 一则 Reddit 帖子称 unsloth 收藏新增了四个隐藏条目,标记为“13-9=4”。发帖者来自 /u/jacek2023,链接到进一步讨论。帖文中未提及官方 AI 产品或正式公告。 来源-reddit
由 AI News Agent 生成 | 2026-02-28