AI 日报 — 2026-03-20

Anthropic 招募编辑主管经济与政策方向 · Kimi-k2.5 通过 RL 驱动 Composer-2 Frontier · Karpathy 谈 AI 相变、AutoResearch ...

覆盖 24 条 AI 新闻

🔥 今日焦点

1. Anthropic 招募编辑主管经济与政策方向

一位作者宣布自己即将加入 Anthropic 的编辑团队，负责主导经济与政策方向，并与 Anthropic Institute 合作。他强调，随着 AI 进展加速，高质量信息变得愈发重要，并提到自己将在几周后继续担任 Institute for Foreign Policy（IFP）和 Recoding America 的相关角色。这次转变被形容为从前沿智库转向前沿实验室，在 IFP 度过三段成长期的岁月后，心情既欣喜又依依不舍。来源-twitter

2. Kimi-k2.5 通过 RL 驱动 Composer-2 Frontier

在基于困惑度（perplexity）的评估中，Kimi-k2.5 被报道为当前最强的基础模型。团队随后进行了持续预训练以及高算力强化学习（放大 4 倍规模），从而让 Composer-2 达到前沿水平的性能，并利用 Fireworks 的推理与 RL 采样器。Cursor AI 提到这一合作，并确认可以通过 FireworksAI HQ 访问 Kimi-k2.5。来源-twitter

3. Karpathy 谈 AI 相变、AutoResearch 与模型格局

Karpathy 探讨了由 AI 赋能的工程正在经历的相变、AI “精神错乱”现象以及 AutoResearch 的潜力。对话涵盖当前模型生态格局、二阶效应，以及类似 SETI-at-Home 的 AI 协作形式，并讨论了人类与 AI 在技能与协作界面上的分工与配合。来源-twitter

📰 重点报道

开源 Open Source

OpenDataLoader PDF：面向 AI 的 PDF 解析器，内置 OCR — OpenDataLoader PDF 是一个开源 PDF 解析器，可将 PDF 导出为 Markdown、JSON（包含边界框）和 HTML，以便直接用于 AI。它内置 OCR（支持 80+ 种语言），既提供确定性的本地模式，又提供针对复杂页面的 AI 混合模式，在 200 份真实世界 PDF 上取得顶级基准成绩（整体 0.90、表格识别精度 0.93）。该工具专为 RAG 流水线设计，可通过三行 pip 命令完成安装。来源-github
本地 AI 可离线渲染交互式图表与表单 — 在 Anthropic 的 Claude 展示了交互式 artifacts 之后，一位开发者发布了 Inline Visualizer，将类似能力带给所有支持工具调用的模型。该工具采用 BSD-3 许可证，可在对话中内嵌渲染 HTML/SVG 可视化内容，封装在带暗色模式的主题外壳中，并提供双向 JavaScript 桥接以支持模型驱动的交互，全程离线运行，无需外部服务。来源-reddit

AI

Qwen3 30B 在 Raspberry Pi 5 8GB 上实现 7–8 token/s — 一个边缘 AI 演示展示了 Qwen3-30B-A3B-Instruct-2507-GGUF 在本地运行于 Raspberry Pi 5（8GB 内存，配 SSD）上，在 16,384 token 上下文下可达到 7–8 token/s。通过 ByteShape 量化（2.66 BPW）以及 4-bit 变体（提供 4–5 token/s），该方案被封装为 Potato OS：一个可刷写的无头 Debian 镜像，开机后会自动下载带视觉编码器的 Qwen3.5 2B。所有计算均在本地完成（无 API 调用、无 eGPU），展示了边缘推理的显著进展。来源-reddit
BioReason-Pro：首个用于蛋白功能的推理模型 — BioReason-Pro 被介绍为首个面向蛋白质功能的推理模型，标志着 AI 驱动蛋白分析的新阶段。该发布以 Twitter/X 线程形式出现，概述了模型能力及其对蛋白生物学可能产生的影响。这代表了 AI 与生命科学交叉领域的一项重要进展。来源-twitter
TinyLlama 1.1B 在 2002 年的 PowerBook G4 上本地运行 — MacinAI Local 是一款面向经典 Macintosh 硬件的原生本地 AI 推理平台，可在完全离线的环境下工作。它基于自下而上的 C89 引擎，支持多种模型（GPT-2 124M、TinyLlama、Qwen 0.5B、SmolLM），并可通过 Python 导出脚本支持任意 HuggingFace/LLaMA 架构的模型；同时还包含一个在 Macintosh 语料上训练的 1 亿参数 transformer，结合 AltiVec 优化，在 PowerPC 上实现 7.3 倍加速。该项目展示了从 CD 启动、在 Mac OS 9 上离线运行 AI 的完整路径。来源-reddit

AI 政策 AI Policy

白宫发布国家级 AI 政策框架 — 白宫公布了国家人工智能政策框架，旨在确保所有美国人都能从 AI 中受益。该框架主张由联邦层面制定统一 AI 政策，而非允许各州形成支离破碎的规则，并表达了与国会合作推进相关立法的意愿。来源-twitter

大模型 LLM

Mistral Small 4 开源权重，在 AI Index 上得分 27 — Mistral 发布了 Small 4，这是一款开源权重模型，采用 119B 参数的专家混合（Mixture-of-Experts）架构，兼顾推理模式与非推理模式。在推理模式下，它在 Artificial Analysis Intelligence Index 上取得 27 分，比 Small 3.2 提升 12 分，跻身 Mistral 更高能力的模型之列。但与具有类似总参数规模的开源权重同类模型（如 gpt-oss-120B、NVIDIA Nemotron 3 Super 120B A12B、Qwen3.5 122B A10B）相比，它仍略处下风。来源-twitter
生成模型利用隐式 3D 先验进行场景理解 — 多模态大模型在语义层面表现出色，但在空间与几何推理方面仍然吃力。现有方法多依赖显式 3D 模态，遭遇数据稀缺与泛化能力不足等问题。该研究提出利用大规模视频生成模型中蕴含的隐式空间先验来增强场景理解能力。来源-huggingface
GLM-5.1 将会开源 — 一篇 X（Twitter）上的帖子称，GLM-5.1 计划以开源形式发布。公告强调开放性，但尚未给出具体的许可证细节或时间表。来源-twitter
将 Qwen 3.5-35B 与 Claude Opus 4.6 融合以适配小显卡 — 一次由社区主导的合并实验，将 Qwen 3.5-35B-A3B-Uncensored-Claude-Opus-4.6-Affine 与 HauhauCS 和 Jackrong 的变体结合，以增强推理能力。工作流程包括进行 KL-divergence 清理，并整合来自 Jackrong 模型的“思维能力”。整个过程在 Google Colab 免费额度中完成，无需解包模型（IQ4_XS 格式），目标是支持 RTX 3060 12GB 等低端 GPU。来源-reddit

多模态 Multimodal

SAMA：用于指令引导视频编辑的语义锚定与运动对齐因子化框架 — 现有的指令引导视频编辑模型在精确修改内容的同时往往难以保持运动不被破坏，并且通常依赖于视觉-语言特征等外部先验。该论文提出 SAMA（Factorized Semantic Anchoring and Motion Alignment），通过将编辑过程分解为语义锚定和运动对齐两个部分，在减少对重型先验依赖的同时提升鲁棒性与泛化能力。此方法旨在在语义精度与运动保持之间取得更好平衡。来源-huggingface
FASTER：重新思考实时 Flow VLA — 对于在物理世界中部署视觉-语言-行动（Vision-Language-Action）模型而言，实时执行至关重要。该研究批评了现有异步推理方案只关注轨迹平滑，却忽视对环境变化的反应延迟问题，并提出在动作分块（action chunking）框架下重新定义“反应”。论文系统分析了影响反应时间的关键因素，并报告称反应时间服从由时间参数决定的均匀分布。来源-huggingface

AI 工具 AI Tools

gsd-build 推出用于 Claude Code 的 Get Shit Done 元提示工具 — gsd-build 发布了 “Get Shit Done”，一个轻量级的元提示、上下文工程与规格驱动开发系统。它支持 Claude Code、OpenCode、Gemini CLI、Codex、Copilot 和 Antigravity，并通过在模型上下文窗口内保留相关信息来缓解“上下文腐烂”问题。该项目通过 npx 跨平台运行，并在 GitHub 上开源，作者称已被 Amazon、Google、Shopify 与 Webflow 的工程师采用。来源-github

⚡ 快讯速览

面向学生的 Codex：美国与加拿大赠送 100 美元额度 — OpenAI 的 Codex for Students 计划为美国和加拿大的大学生提供 100 美元的 Codex 额度。该举措旨在通过 AI 驱动的编程工具，鼓励学生在“搭建、破坏、修复”的过程中进行实践式学习，为编程教育提供更具操作性的支持。来源-twitter
Gemini 安卓版现已支持讲话暂停；iOS 版本即将上线 — Gemini 安卓应用更新后，用户在说话时可以中途停顿，而不会被助手打断。这修复了此前 AI 过早插话、影响用户说话流畅度的问题。iOS 版本预计将在数周内推送。来源-twitter
T3 Code 新增 Claude 支持，强化 AI 编码功能 — T3 Code 现已支持 Claude。如果你已安装并登录 Claude Code CLI，即可在 T3 Code 中直接调用 Claude。帖子最后还以半开玩笑的语气提到可能遇到的法律阻力。来源-twitter
交互式 3D/2D GPT-2 激活可视化工具上线 — 新网站 llm-visualized.com 提供在线可视化，可在一次前向传播过程中，动态展示 GPT-2 Small（124M）的真实激活值与注意力得分。该工具使用 Three.js 实现 3D，可视化界面采用原生 HTML/CSS/JS 实现 2D 展示，旨在通过揭示内部计算过程帮助用户理解大模型工作原理，并欢迎开发者反馈。来源-reddit
Minimax 2.7 将采用闭源权重 — 一条 Reddit 帖子称，Minimax 2.7 将采用闭源权重，这与此前开放策略有所背离，并将影响 LocalLLaMA 社区。帖子指出，目前尚无官方确认；若消息属实，这将是开源生态中对模型权重开放性的一次显著收紧。来源-reddit
通过平衡思考提升 LRM 推理效率 — 大型推理模型（Large Reasoning Models）在推理方面表现强劲，但容易出现过度思考（产生多余步骤）和思考不足（探索不充分）的问题，从而导致资源浪费和错误。这限制了其在资源受限环境中的部署。该文综述了相关缓解手段，如抑制反思性关键词或调整推理策略，并倡导采用“平衡思考”方法，以提升效率与可靠性。来源-huggingface
训练 80 万参数模型用于商务邮件生成 — 一位用户训练了一个 80 万参数的模型，用于生成商务邮件，并采用与此前“28m model email experiment”不同的架构。作者用“写一封礼貌拒绝邮件”的提示对其测试，示例输出是一封模板化的邮件，包含占位符和一些略显奇怪的措辞。来源-reddit
Openclaw：它有哪些实际应用场景？ — 一篇 Reddit 帖子质疑 Openclaw 的热度，要求给出具体用例和实际价值。作者对它为何有用持怀疑态度，并在 /r/LocalLLaMA 版块发帖，希望他人解释其应用方向。来源-reddit

由 AI News Agent 生成 | 2026-03-20