AI 日报 — 2026-06-02

MAI 发布由 MAI-Thinking-1 领衔的七款全新世界级模型 · Claude Code 推出 Workflows，为自 Skills 以来最大升级 · OpenAI 在 Codex ...

涵盖 32 条 AI 新闻

🔥 今日焦点

1. MAI 发布由 MAI-Thinking-1 领衔的七款全新世界级模型

MAI 一口气发布七款全新世界级模型，其中旗舰是拥有 350 亿激活参数、支持 256K 上下文窗口的 MoE 模型 MAI-Thinking-1，并针对 MAIA 200 芯片做了优化，相比 GB200 实现每美元性能提升 30%、每瓦性能提升 1.4 倍。这一产品阵容表明 MAI 正在打造面向硬件深度优化的广泛 AI 产品组合，目标是在大规模场景中提升效率，并扩大其在模型生态中的竞争版图。来源-x

2. Claude Code 推出 Workflows，为自 Skills 以来最大升级

Claude Code 新增 Workflows 功能，这是自 Skills 和子代理以来最重大的升级，使其能够对非技术任务和端到端流程进行自动化处理。此举显著拓宽了 Claude Code 在纯代码开发之外的实际应用场景，或将推动企业级采用，但也会引发对其可靠性与成本的更多审视。来源-x

3. OpenAI 在 Codex 中上线 Sites，支持端到端软件开发

OpenAI 在 Codex 中引入 Sites，帮助不同技术水平的用户构建端到端的软件应用。Sites 可以部署到一个 URL，且仅在所属工作区内可见，内置用户认证、静态文件托管和动态数据存储，并将先面向商务版和企业版团队小范围预览，之后再在整个工作区全面开放。来源-x

📰 重点报道

LLM

MAI 发布由 MAI-Thinking-1 领衔的七款全新世界级模型 — MAI 推出一套围绕 350 亿参数、支持 256K 上下文窗口的 MoE 模型构建的多模型阵容，并针对硬件进行了深度优化；效率提升是其关键差异点。来源-x
Claude Code 推出 Workflows，为自 Skills 以来最大升级 — Workflows 扩展了 Claude Code 超越既有 Skills 的自动化能力，使其能够执行完整的端到端任务流程。来源-x
OpenAI 在 Codex 中上线 Sites，支持端到端软件开发 — 通过 Codex Sites 实现端到端软件创建，支持仅工作区可见的 URL、身份认证以及数据托管；目前向商务版与企业版提供预览访问。来源-x
Anthropic 扩大 Project Glasswing，延长 Claude Mythos 预览期 — Glasswing 的访问范围扩展到超过 15 个国家的约 150 家机构，进一步扩大了 Mythos 预览版本的可用范围。来源-x
Microsoft 在 Build 上宣布七款新 AI 模型 — 一组覆盖推理、编程、图像处理、转写和语音等领域的七个模型，被设计为一个协同工作的工具家族。来源-x
多智能体 RL 改进 LLM 工作流：共享策略 vs 隔离策略 — 比较 Shared-Policy 与 Isolated-Policy 强化学习在端到端 LLM 工作流中的表现，强调稳定性与不同方案的权衡。来源-huggingface
75M 参数 KeyLM 在 IFEval 上击败 135M Instruct 模型 — 一个使用 180 亿 tokens 训练的 7500 万参数小模型，在指令跟随基准上超越了 1.35 亿参数模型，凸显小模型在效率与性能上的潜力。来源-reddit
TASTE 任务合成提升智能体基准覆盖度 — 提出通过 Task Synthesis（任务合成）拓展超越自然语言到工具映射的基准覆盖度，以应对现有基准饱和与成本过高的问题。来源-huggingface
Domino：在推测生成中解耦因果建模与草稿生成 — Domino 在推测解码中将草稿生成与因果建模分离，以提升整体效率，并在草稿质量与生成成本之间寻找更优平衡。来源-huggingface

⚡ 快讯速览

线性集成可抹除 LLM 水印 — 提出一类方法可通过线性集成抹除 LLM 输出中的水印，凸显潜在滥用与安全风险。来源-huggingface
TradingAgents v0.2.5 新增情绪分析与双区域支持 — 为量化/交易智能体新增基于事实的情绪分析能力，并支持双区域部署。来源-github
《Machine Learning for Trading》第二版——GitHub 代码 — 在 GitHub 上发布《Machine Learning for Trading》第二版配套代码。来源-github
在多智能体编排器中用本地 Qwen3.6-27B 替换 Claude — 有用户在多智能体编排系统中用本地运行的 Qwen3.6-27B 替代 Claude，以测试本地 LLM 的可行性。来源-reddit
在 6GB RTX 4050 上对 20 个小型 LLM 做基准测试 — 在一块 6GB 显存的 RTX 4050 上对 20 款小型 LLM 进行并列基准测试对比。来源-reddit
Gemma 4 E4B 搭配 LiteRT 文本生成提速约 2.4 倍 — 使用 LiteRT 引擎的 Gemma 4 E4B 在文本生成任务中可获得约 2.4 倍速度提升。来源-reddit
1-bit 与 Ternary Bonsai Image 4B：面向本地设备的微型扩散模型 — 提供轻量级的 1-bit 与三值量化 Bonsai Image 4B 扩散模型，方便在本地设备上运行。来源-reddit
简单编码基准：Step 3.7 对比 Qwen 3.5/3.6 — 一份快速基准对比 Step 3.7 与 Qwen 3.5/3.6 在编程任务上的表现。来源-reddit
Claude Opus 4.8 Max 质疑自身内容声明 — Claude Opus 4.8 对自己生成内容中的部分声明提出质疑，引发讨论。来源-x
Natol Lambert 在 Ai2 工作 2.5 年后离职 — 在 Ai2 工作多年的研究员 Natol Lambert 宣布在任职约两年半后离开。来源-x
Perplexity Computer 推出混合式智能体推理 — Perplexity 为其智能体引入混合式 agentic inference 推理模式。来源-x
OpenCode 的一个分支通过 Chipotle 未加固的 AI 端点路由请求 — 安全问题曝光：某 OpenCode 分支的请求会通过 Chipotle 未加安全防护的 AI 接口路由。来源-x
Hermes WebUI 为 Hermes Agent 提供 Web 界面 — Hermes WebUI 项目为 Hermes Agent 提供基于浏览器的可视化交互界面。来源-github
Minimax M3 似乎没有政治审查 — 有用户声称 Minimax M3 在内容生成中似乎不进行政治相关审查。来源-reddit
以 200 英镑在游戏 PC 中插上一块数据中心 GPU — 有玩家以 200 英镑购入数据中心级 GPU，并成功安装到家用游戏 PC 中。来源-reddit
你为自己的智能体使用什么记忆系统？ — 社区讨论不同智能体的记忆架构与实现方案。来源-reddit
哪家 Web 搜索 API 为本地 RAG 提供最干净的 Markdown？ — 围绕哪种搜索 API 能为本地 RAG 场景返回更干净 Markdown 结果展开讨论。来源-reddit
LLaMA.cpp 增加带推理等级的 Thinking 模式开关 — LLaMA.cpp 现已支持 Thinking 模式切换，并能调整不同等级的推理强度。来源-reddit
Ollie：号称“世界首个能管理家庭生活”的 AI 家庭助手 — 发布 Ollie，一个定位为家庭场景、帮助管理日常生活的 AI 助手。来源-x
Harness-1：面向 RL 搜索智能体的状态外化 Harness — Harness-1 为强化学习搜索智能体引入状态外化能力。来源-huggingface
StepFun 3.5 MTP 对 Llama.cpp 的 PR — 针对 Llama.cpp 提交集成 StepFun 3.5 MTP 的 Pull Request。来源-reddit
想象 80 年代就有 LLM，并启用 HLS 播放 — 一种怀旧式的概念设想：为 LLM 引入类似高层综合（HLS）的“播放”模式。来源-x

由 AI News Agent 生成 | 2026-06-02