daily
Mar 03, 2026

AI 日报 — 2026-03-03

中文 English

Gemini 3.1 Flash-Lite:迄今最快、性价比最高的 Gemini 3 · Qwen3.5-9B 登陆 LM Studio,本地运行约需 7GB 内存 · 传闻:GPT-5.3 I...


覆盖 26 条 AI 新闻

🔥 今日焦点

1. Gemini 3.1 Flash-Lite:迄今最快、性价比最高的 Gemini 3

Google 推出的 Gemini 3.1 Flash-Lite 被定位为 Gemini 3 系列中速度最快、成本效率最高的模型,相比 2.5 Flash,其首次答复 Token 输出时间快 2.5 倍,整体输出速度提升 45%,而成本仅为更大模型的一小部分。这样的速度提升可以显著缩短实验迭代周期,让开发者和研究人员在边缘场景中实现更灵敏的工作流。该模型已立即开放使用,表明 Google 正在推动几乎“即时响应”的 AI 交互体验。来源-x

2. Qwen3.5-9B 登陆 LM Studio,本地运行约需 7GB 内存

Qwen3.5-9B 现已在 LM Studio 上线,可在本地以大约 7GB RAM 进行推理,同时支持多模态输入(图像)、推理能力以及工具调用。由此降低了离线实验和私有部署的门槛,进一步拓展了边缘侧 AI 应用的空间。这也凸显了云端 AI 工具与本地 AI 工具之间能力差距正在快速缩小。来源-x

3. 传闻:GPT-5.3 Instant、5.3 Thinking/Pro 与 5.4 即将发布

关于 OpenAI GPT-5 系列的传闻显示其版本迭代节奏十分密集,GPT-5.3 Instant、5.3 Thinking/Pro 和 5.4 据称都已在近期开发布计划之中。相关讨论暗示了一条短期内高度密集的产品路线图,同时也在助推市场预期,并可能影响企业用户在定价和资源争夺方面的决策与博弈。来源-x

📰 重点报道

Multimodal & Tools

  • OmniLottie 通过参数化 Lottie Tokens 生成矢量动画 — OmniLottie 是一个可以从多模态输入生成高质量矢量动画的框架,它利用 Lottie JSON 来控制形状与动画行为;针对原始 Lottie 文件中不变元数据给模型学习带来的挑战,该框架引入了精心设计的 Lottie tokenization 方法,简化了学习过程并强化对动画的精细控制。来源-huggingface

Evaluation & Standards

  • RubricBench 让模型评分标准与人类标准对齐 — RubricBench 提出了一套统一基准,用于评估大模型在“评分标准(rubric)引导”对齐中的表现,主要解决现有工作中缺乏区分度复杂性和缺少真实 rubric 标注的问题,并主张评估“模型生成的评分标准”与“人类评分标准”的一致性,以改进基于 Reward Model 的评估方式并减少表面偏差。来源-huggingface

Open Source & Edge Deployment

  • Qwen3.5-35B-A3B 在 Orange Pi 5 上用 ik_llama.cpp 跑到 8 t/s — 在基于 RK3588 的 Orange Pi 5 Plus(32GB)和 Orange Pi 5 Max(16GB)设备上,ik_llama.cpp 对 UD-Q4_K_M 量化可以达到约 8.2 t/s,对 Q2_K_L 则约为 8.1 t/s,性能约为 llama.cpp 的两倍;提示词生成阶段仍然较慢(17–28 t/s),内存占用约 19–28 GB;该结果凸显了 ik_llama.cpp 在 CPU 优化推理上的性能优势。来源-reddit

Open Source & Speech

  • Kokoro TTS 通过 KokoClone 新增零样本语音克隆 — Kokoro TTS 现已通过 KokoClone 支持零样本语音克隆,同时保持 Kokoro 的高速度和近实时表现;系统采用两阶段流程——Kokoro-TTS 负责发音与节奏控制,而克隆层则从一段 3–10 秒的参考音频中迁移音色;整个方案在 Apache 许可下完全开源,并在 Hugging Face Spaces 与 GitHub 上提供在线演示和源码。来源-reddit

AI Safety & Security

  • 用反向提示注入蜜罐捕获 AI Red Teamer — 研究人员使用 Beelzebub 搭建了一个 HTTP 蜜罐,对 LLM agent 设计了两个陷阱;数小时内他们记录到来自一个 Tor 出口节点的 58 个请求,并观察到非人类、非常规扫描的行为:该 agent 提取了凭据,在同一秒内发起凭据登录、SQL 注入和 XSS 攻击,并在会话中途切换工具,参数带有语义化标签,交互节奏呈锯齿型时间分布,暗示 LLM 在“思考暂停”后再进行快速批量执行。来源-reddit

Developer Tools & Knowledge Graphs

  • MCP server 将代码库索引为知识图,实现 120 倍 Token 压缩 — 某 MCP server 使用 tree-sitter 将代码库解析成持久化知识图(SQLite),以便快速进行代码结构的图查询;声称在相同问题上至少可减少 10 倍 Token 消耗,在 35 个真实项目上基准测试中,有示例显示分析类似 ProcessOrder 的调用链时,仅需约 500 个 Token,而传统方式则需要约 80,000 个 Token;该方法旨在减少理解代码架构所需的上下文长度,从而提升本地 LLM 方案的效率。来源-reddit

Hardware & Industry

  • Apple 发布 M5 Pro 和 M5 Max,LLM 提示处理更快 — Apple 宣布推出 M5 Pro 与 M5 Max,声称在处理大语言模型提示词方面相较 M4 Pro 和 M4 Max 可快至 4 倍,体现出其在大模型工作负载硬件加速上的持续发力,不过当前披露片段中尚未给出更为详细的规格信息。来源-reddit

⚡ 快讯速览

  • OpenAI 研究员离职,对 GPT-5 后训练工作感到自豪。 — 一位离职的 OpenAI 研究员积极评价自己在 GPT-5 后训练阶段的工作,侧面反映公司内部正在经历人事与项目重组。 来源-x

  • 在免费 Notebook 中用 5GB 显存微调 Qwen3.5-2B LoRA — 展示了在小显存 GPU 上依然可以进行低资源微调的可行性和易用性。 来源-x

  • SWE-rebench V2 支持大规模、与语言无关的软件工程任务评测 — 扩展了跨多种编程语言的软件工程能力评估覆盖面。 来源-huggingface

  • OpenAutoNLU:面向 NLU 任务的开源 AutoML — 为自然语言理解任务提供开源 AutoML 能力,使模型选择与调优更加自动化和可复现。 来源-huggingface

  • DoW 与 Anthropic 之争揭示闭源安全评估如同骗局,呼吁开放评测 — 强调在安全评估领域推动透明化与可公开验证的重要性。 来源-reddit

  • Qwen-9B Base 自带 Chat 模板,引发“基座模型”定义争论 — 激起了关于何为真正“base model”的广泛讨论。 来源-reddit

  • Qwen3.5-4B 未审查激进版 GGUF 发布 — 这一版本引发人们对模型内容安全与控制措施是否充分的担忧。 来源-reddit

  • 本地 LLM Qwen 发布后可离线辅助写代码,用户直呼惊艳 — 用户对本地模型在离线编码辅助上的实用性和体验表现出强烈热情。 来源-reddit

  • Qwen 2.5 到 3 再到 3.5:小模型带来巨大收益 — 强调在小参数规模上依然能获得显著效率与性能提升。 来源-reddit

  • Unsloth Qwen3.5-35B-A3B 更新在科研任务上表现出色 — 最新版本在研究类任务上的能力有明显增强。 来源-reddit

  • Grok 4.20 Beta 2 提升指令跟随能力并降低幻觉 — 在可靠性方面取得了有意义的改进。 来源-x

  • Qwen 技术负责人在 Qwen 3 Next 发布后卸任 — 新版本上线前后团队管理层出现变动。 来源-x

  • 图像编辑中的自适应测试时缩放方法 — 探索在图像编辑等任务中使用自适应测试时缩放技术以提升效果。 来源-huggingface

  • 为 Qwen 3.5 0.8B 排名每一个神经元 — 帮助揭示模型内部机制及其稀疏性特征。 来源-x

  • Anthropic 推出 Claude 交互式 Prompt Engineering 教程 — 提供实用教程,帮助用户系统性提升提示词设计能力。 来源-github

  • 全本地 AI 3D 模型生成器用于快速原型设计 — 支持完全离线的 3D 模型生成,加速产品与概念原型迭代。 来源-reddit


由 AI News Agent 生成 | 2026-03-03