AI 日报 — 2026-03-03

Gemini 3.1 Flash-Lite：迄今最快、性价比最高的 Gemini 3 · Qwen3.5-9B 登陆 LM Studio，本地运行约需 7GB 内存 · 传闻：GPT-5.3 I...

覆盖 26 条 AI 新闻

🔥 今日焦点

1. Gemini 3.1 Flash-Lite：迄今最快、性价比最高的 Gemini 3

Google 推出的 Gemini 3.1 Flash-Lite 被定位为 Gemini 3 系列中速度最快、成本效率最高的模型，相比 2.5 Flash，其首次答复 Token 输出时间快 2.5 倍，整体输出速度提升 45%，而成本仅为更大模型的一小部分。这样的速度提升可以显著缩短实验迭代周期，让开发者和研究人员在边缘场景中实现更灵敏的工作流。该模型已立即开放使用，表明 Google 正在推动几乎“即时响应”的 AI 交互体验。来源-x

2. Qwen3.5-9B 登陆 LM Studio，本地运行约需 7GB 内存

Qwen3.5-9B 现已在 LM Studio 上线，可在本地以大约 7GB RAM 进行推理，同时支持多模态输入（图像）、推理能力以及工具调用。由此降低了离线实验和私有部署的门槛，进一步拓展了边缘侧 AI 应用的空间。这也凸显了云端 AI 工具与本地 AI 工具之间能力差距正在快速缩小。来源-x

3. 传闻：GPT-5.3 Instant、5.3 Thinking/Pro 与 5.4 即将发布

关于 OpenAI GPT-5 系列的传闻显示其版本迭代节奏十分密集，GPT-5.3 Instant、5.3 Thinking/Pro 和 5.4 据称都已在近期开发布计划之中。相关讨论暗示了一条短期内高度密集的产品路线图，同时也在助推市场预期，并可能影响企业用户在定价和资源争夺方面的决策与博弈。来源-x

📰 重点报道

Multimodal & Tools

OmniLottie 通过参数化 Lottie Tokens 生成矢量动画 — OmniLottie 是一个可以从多模态输入生成高质量矢量动画的框架，它利用 Lottie JSON 来控制形状与动画行为；针对原始 Lottie 文件中不变元数据给模型学习带来的挑战，该框架引入了精心设计的 Lottie tokenization 方法，简化了学习过程并强化对动画的精细控制。来源-huggingface

Evaluation & Standards

RubricBench 让模型评分标准与人类标准对齐 — RubricBench 提出了一套统一基准，用于评估大模型在“评分标准（rubric）引导”对齐中的表现，主要解决现有工作中缺乏区分度复杂性和缺少真实 rubric 标注的问题，并主张评估“模型生成的评分标准”与“人类评分标准”的一致性，以改进基于 Reward Model 的评估方式并减少表面偏差。来源-huggingface

Open Source & Edge Deployment

Qwen3.5-35B-A3B 在 Orange Pi 5 上用 ik_llama.cpp 跑到 8 t/s — 在基于 RK3588 的 Orange Pi 5 Plus（32GB）和 Orange Pi 5 Max（16GB）设备上，ik_llama.cpp 对 UD-Q4_K_M 量化可以达到约 8.2 t/s，对 Q2_K_L 则约为 8.1 t/s，性能约为 llama.cpp 的两倍；提示词生成阶段仍然较慢（17–28 t/s），内存占用约 19–28 GB；该结果凸显了 ik_llama.cpp 在 CPU 优化推理上的性能优势。来源-reddit

Open Source & Speech

Kokoro TTS 通过 KokoClone 新增零样本语音克隆 — Kokoro TTS 现已通过 KokoClone 支持零样本语音克隆，同时保持 Kokoro 的高速度和近实时表现；系统采用两阶段流程——Kokoro-TTS 负责发音与节奏控制，而克隆层则从一段 3–10 秒的参考音频中迁移音色；整个方案在 Apache 许可下完全开源，并在 Hugging Face Spaces 与 GitHub 上提供在线演示和源码。来源-reddit

AI Safety & Security

用反向提示注入蜜罐捕获 AI Red Teamer — 研究人员使用 Beelzebub 搭建了一个 HTTP 蜜罐，对 LLM agent 设计了两个陷阱；数小时内他们记录到来自一个 Tor 出口节点的 58 个请求，并观察到非人类、非常规扫描的行为：该 agent 提取了凭据，在同一秒内发起凭据登录、SQL 注入和 XSS 攻击，并在会话中途切换工具，参数带有语义化标签，交互节奏呈锯齿型时间分布，暗示 LLM 在“思考暂停”后再进行快速批量执行。来源-reddit

Developer Tools & Knowledge Graphs

MCP server 将代码库索引为知识图，实现 120 倍 Token 压缩 — 某 MCP server 使用 tree-sitter 将代码库解析成持久化知识图（SQLite），以便快速进行代码结构的图查询；声称在相同问题上至少可减少 10 倍 Token 消耗，在 35 个真实项目上基准测试中，有示例显示分析类似 ProcessOrder 的调用链时，仅需约 500 个 Token，而传统方式则需要约 80,000 个 Token；该方法旨在减少理解代码架构所需的上下文长度，从而提升本地 LLM 方案的效率。来源-reddit

Hardware & Industry

Apple 发布 M5 Pro 和 M5 Max，LLM 提示处理更快 — Apple 宣布推出 M5 Pro 与 M5 Max，声称在处理大语言模型提示词方面相较 M4 Pro 和 M4 Max 可快至 4 倍，体现出其在大模型工作负载硬件加速上的持续发力，不过当前披露片段中尚未给出更为详细的规格信息。来源-reddit

⚡ 快讯速览

OpenAI 研究员离职，对 GPT-5 后训练工作感到自豪。 — 一位离职的 OpenAI 研究员积极评价自己在 GPT-5 后训练阶段的工作，侧面反映公司内部正在经历人事与项目重组。来源-x
在免费 Notebook 中用 5GB 显存微调 Qwen3.5-2B LoRA — 展示了在小显存 GPU 上依然可以进行低资源微调的可行性和易用性。来源-x
SWE-rebench V2 支持大规模、与语言无关的软件工程任务评测 — 扩展了跨多种编程语言的软件工程能力评估覆盖面。来源-huggingface
OpenAutoNLU：面向 NLU 任务的开源 AutoML — 为自然语言理解任务提供开源 AutoML 能力，使模型选择与调优更加自动化和可复现。来源-huggingface
DoW 与 Anthropic 之争揭示闭源安全评估如同骗局，呼吁开放评测 — 强调在安全评估领域推动透明化与可公开验证的重要性。来源-reddit
Qwen-9B Base 自带 Chat 模板，引发“基座模型”定义争论 — 激起了关于何为真正“base model”的广泛讨论。来源-reddit
Qwen3.5-4B 未审查激进版 GGUF 发布 — 这一版本引发人们对模型内容安全与控制措施是否充分的担忧。来源-reddit
本地 LLM Qwen 发布后可离线辅助写代码，用户直呼惊艳 — 用户对本地模型在离线编码辅助上的实用性和体验表现出强烈热情。来源-reddit
Qwen 2.5 到 3 再到 3.5：小模型带来巨大收益 — 强调在小参数规模上依然能获得显著效率与性能提升。来源-reddit
Unsloth Qwen3.5-35B-A3B 更新在科研任务上表现出色 — 最新版本在研究类任务上的能力有明显增强。来源-reddit
Grok 4.20 Beta 2 提升指令跟随能力并降低幻觉 — 在可靠性方面取得了有意义的改进。来源-x
Qwen 技术负责人在 Qwen 3 Next 发布后卸任 — 新版本上线前后团队管理层出现变动。来源-x
图像编辑中的自适应测试时缩放方法 — 探索在图像编辑等任务中使用自适应测试时缩放技术以提升效果。来源-huggingface
为 Qwen 3.5 0.8B 排名每一个神经元 — 帮助揭示模型内部机制及其稀疏性特征。来源-x
Anthropic 推出 Claude 交互式 Prompt Engineering 教程 — 提供实用教程，帮助用户系统性提升提示词设计能力。来源-github
全本地 AI 3D 模型生成器用于快速原型设计 — 支持完全离线的 3D 模型生成，加速产品与概念原型迭代。来源-reddit

由 AI News Agent 生成 | 2026-03-03