AI 日报 — 2026-02-21
LoopViT:借助循环变换器的小型 AI 以少量权重实现对大模型的超越 · Llama 3.1 70B 通过 NVMe-GPU 绕过 CPU 在 RTX 3090 上运行 · CPU 训练的 ...
覆盖 34 条 AI 新闻
🔥 今日焦点
1. LoopViT:借助循环变换器的小型 AI 以少量权重实现对大模型的超越
A collaboration between HKUST, CASIA, and UC Santa Cruz introduces LoopViT, a looped transformer that reuses a small set of weights to simulate an internal chain of thought. The 18M-parameter model stops computing when predictions become certain and achieves 65.8% on the ARC-AGI visual reasoning benchmark, outperforming a larger 73M-parameter model on the same task. The paper is available on arXiv and code on GitHub. 來源-twitter
2. Llama 3.1 70B 通过 NVMe-GPU 绕过 CPU 在 RTX 3090 上运行
A Show HN demonstrates that Llama 3.1 70B can run on a single RTX 3090 by bypassing CPU and RAM with an NVMe-to-GPU setup. The project links a library (ntransformer) and reports it works on consumer GPUs, with better performance expected on professional GPUs. It highlights a hardware-focused approach to running large transformers outside traditional CPU-based memory paths. 來源-hackernews
3. CPU 训练的 2970 万参数 LLM 在 40 小时内击败 GPU 基线
FlashLM v5 ‘Thunderbolt’ 在 CPU(AMD Ryzen 7950X3D)上训练约 40 小时,达到困惑度 1.36、BPC 0.44,参数量 29.7M。它击败 TinyStories-1M 基线(PPL 1.59),标志着首个在 CPU 上训练的模型超过该基准。该模型使用一种不含 MatMul 的架构 ParallelGatedRecurrence,权重为三进制 BitLinear;CPU 硬件由 arki05 提供。 來源-reddit
📰 重点报道
大型语言模型
- ChatGPT Pro Lite 定价为每月 100 美元,结账提示 — 开发者发现的推文指出,ChatGPT 网页应用现在提及一项名为 ‘ChatGPT Pro Lite’ 的计划,定价为每月 100 美元。结账页面描述似乎尚未完成,暗示该计划仍处于开发或测试阶段,尚未正式宣布。若确认,Pro Lite 将为 ChatGPT 用户引入更低价位的选项。 來源-twitter
- Tidy:云托管的 AI 代理学习使用任意应用 — Tidy 是一个个人代理,能够学习使用你使用的任意应用,从而执行你的工作流程。该系统云托管,通过 iMessage 向你提供更新,并提供一个持久化文件系统。它可以被教授在不编写代码的情况下安全地操作网站,将自己定位为 OpenClaw 的云端替代方案。 來源-producthunt
- Taalas 将 LLM 印在芯片上 — Taalas 概述了一种将大型语言模型直接嵌入硬件的方法。文章讨论了硬件-软件协同设计,使 LLM 能在芯片上运行,可能提升效率和部署能力。它强调了 LLM-on-chip 方法对产业界和研究的影响。 來源-hackernews
- Qwen 团队指出 GPQA 与 HLE 评测存在严重数据质量问题 — 关于 DeepSeek-Overclock 的讨论表明,该模型可能推导出与 gold-standard 标签相冲突的正确推理,暴露评测集的数据质量问题。Qwen 团队已确认 GPQA 与 Humanity’s Last Exam (HLE) 基准存在严重数据质量问题,凸显这些测试的潜在可靠性问题。 來源-reddit
- O-TITANS:为 Gemma 3 提供正交 LoRA 的 TITANS — 本帖介绍 O-TITANS,这是一个用于 Gemma 3 的正交 LoRA 方法,利用 Google 的 TITANS 内存架构。它概述 MoOLE-T,即通过一个 8B 路由器从一个或多个 O-LoRA 中进行并行推理并在出口节点运行一个更大(20B-80B)模型以解决冲突。设计承诺提供可扩展、互不干扰的技能模块,并具备训练 100+ 个 O-LoRAs 的潜力。 來源-reddit
- Ouro 2.6B GGUF 模型发布:Q8_0 与 Q4_K_M 就绪 — Ouro 在 HuggingFace 发布了其 2.6B GGUF 模型(Q8_0 与 Q4_K_M),与 LM Studio、Ollama、llama.cpp 兼容。Ouro 是一个循环推理模型,在最终输出前执行多轮推理,其推理过程在结果中可见。发行说明澄清 GGUF 格式遵循标准的 Llama 架构,但 Ouro 包含三个自定义特性;值得注意的是,此版本跳过了早期退出门张量。 來源-reddit
- Nanbeige 4.1 冠军小型 LLM,胜过 Qwen 4B — Reddit 用户声称 Nanbeige 4.1 是最佳的小型语言模型,并在给予足够“思考”空间时据称胜过 Qwen 4B。该帖将 Nanbeige 定位为本地 LLM 的首选,显示出对 Qwen 4B 的有利对比。来源归属:/u/Individual-Source618 在 r/LocalLLaMA。 來源-reddit
- Anthropic 的 Claude Code:用于编码和 Git 的终端 AI — Claude Code 是一个在终端中运行、理解你代码库并通过执行常规任务、解释复杂代码以及通过自然语言命令管理 Git 工作流来加速编码的智能编码工具。它可在终端、IDE 或通过 GitHub 提及(@claude)使用。安装说明强调推荐的方法,并警告 npm 安装已弃用,指向设置文档。 來源-github
AI 在销售
- Ashera AI 分析 GTM 电话以将事实转化为行动 — Ashera AI 使用 AI 来分析 go-to-market 的销售电话,提供可执行的指导而非泛泛的摘要。它在通话中提供指导,提取每次通话后的风险/异议/下一步,自动更新你的 CRM,并对账户进行评分以显示交易健康状况。其独特之处在于在整个销售旅程中提供一个“唯一事实来源”,以让团队对所说的话保持一致;Product Hunt 上提供免费计划。 來源-producthunt
开源
- zclaw:ESP32 上 888 KB 以下的个人 AI 助手 — Zclaw 是一个开源的个人 AI 助手,设计在 ESP32 MCU 上运行,重量不足 888 KB。它展示了微控制器上的超轻量级 AI,能够在设备本地推理,无需云端。该项目托管在 GitHub,并在 Hacker News 讨论,表明社区对嵌入式 AI 的兴趣。 來源-hackernews
- Kon 发布了微型开源编码代理 — Kon 推出一个名为 kon 的新开源编码代理,在消费级硬件(i7-14700F、64GB RAM、RTX 3090)上运行 glm-4.7-flash-q4。该项目强调一个紧凑的框架,约有 215 个系统提示 token 与 600 个工具定义 token,在上下文前将对话控制在 1k token 以内。截止 2026 年 2 月 22 日,该仓库大约有 112 个文件,被定位为一个最小、Fork 并可扩展的编码代理。 來源-reddit
LLMs
- IQ2 量化实现 LLM 的速度与质量平价 — Reddit 用户在 Qwen3-30B-A3B(10.3 GB)上测试 UD-IQ2_XXS,报告在全 GPU 卸载下速度提升约 5 倍(100 TPS vs 20 TPS),且在中学/大学主题的质量与 Q4_K_M 相当。在诸如哥德尔不完备性定理等细分领域,IQ2 略逊(81/100 对 92),一个 10 GB 的 IQ2 模型甚至解决了 Claude Opus 4.6 与 Sonnet 4.6 未解决的图形题目。帖子质疑为何极低量化并未得到更多炒作。 來源-reddit
⚡ 快讯速览
- 批评者称 Frontier Labs 的 AI 声称会产出有缺陷、资源密集的软件 — 一则帖子嘲讽 Frontier Labs 声称 AI 能编写他们的代码,认为所发布的产品存在 bug 且资源消耗大。作者表示这曲解了他们的产品及其世界观。 來源-twitter
- AI 应增进知识,而非外包认知 — Francois Chollet 主张 AI 应作为信息界面,帮助人们深化和提升知识与认知模型。他警告不要让 AI 成为依赖思考、削弱个人认知能力的拐杖。 來源-twitter
- Codex API 通过应用服务器实现本地 iPhone 集成 — 一名开发者描述 Codex 提供一个通过运行“codex app-server”即可访问的友好 API。他们还意外构建了一个原生 Codex iPhone 应用,能够在本地网络上启动并与 Codex 实例对话,Codex 集成直接在 iPhone 上运行。 來源-twitter
- Figure 的自主机器人 24/7 运行并具备 HLS 回放 — 一则推文强调 Figure 的自主机器人持续运行、风雨无阻。系统据称支持 HTTP 实时流回放,凸显自主机器人领域的持续进展。 來源-twitter
- 你的护城河:你 + AI,而非害怕被替代 — 一条 AI 相关推文认为,工人应停止担心 AI 替代他们。相反,应最大化与 AI 合作的优势——“你 + AI” 与 “他人 + AI” 的差距将成为他们的护城河。该信息强调将 AI 增强作为就业市场中的战略差异化因素。 來源-twitter
- Straion 将 AI 编码代理的规则集中化以提升速度 — Straion 提供集中化的规则管理,覆盖 Claude Code、Github Copilot、Cursor 等 AI 编码代理。平台会自动为每个任务选择合适的规则,从而实现更快的企业级代码交付。它定位 Straion 为 AI 编码工具的编排层。 來源-producthunt
- Cloudflare 发布由 Durable Objects 支撑的 AI Agents 平台 — Cloudflare 推出 AI Agents 平台,在其边缘网络上部署持久化、具状态的代理工作负载,借助 Durable Objects。代理提供实时通信、调度、AI 模型调用、MCP 与工作流,空闲时进入休眠且在不活跃时具备巨大的可扩展性且免费。开发者可通过 npm create cloudflare@latest — —template cloudflare/agents-starter 开始,或通过 npm install agents 将其添加到现有项目中。 來源-github
- GitNexus:基于浏览器的代码知识图谱与 AI 代理 — GitNexus 是一个客户端工具,将一个 GitHub 仓库或 ZIP 索引成在浏览器中运行的知识图谱,捕捉依赖、调用链和执行流程。它提供交互式网页 UI 以供探索,以及 Graph RAG Agent,辅以 CLI 工具(MCP),为 AI 代理提供更深的体系结构视图以实现可靠的代码理解。 來源-github
- AI uBlock 黑名单推出开源 AI 阻断清单 — Hacker News 的讨论聚焦开源项目 ai-ublock-blacklist,该清单托管在 GitHub,旨在在 uBlock Origin 中阻断与 AI 相关的域名。讨论获得大量互动,显示出对隐私导向、与 AI 相关的广告拦截工具的显著兴趣。该项目为用户提供了一个经过筛选的资源,用以在浏览器中屏蔽 AI 服务。 來源-hackernews
- PSA:最新 Cline 版本中注入 OpenClaw — 公共代理工具快速更新质量参差不齐。一则 Reddit 帖子称最近的 Cline 版本包含 OpenClaw 安装程序,暗示 OpenClaw 的广泛暴露和对 VSCode 扩展的不安全影响。此信息呼吁对工具进行更严格的审查,并建议关闭 VSCode 扩展的自动更新。 來源-reddit
- ** Culture 和执行力推动伟大的 AI 产品。** — 作者认为成功的 AI 产品需要创造力和严格的技术执行力,强调文化与空间对想法成长以及强执行力的驱动作用。警告不要为虚构用户开发,而应来自真实用户需求的个人、以用户为中心的项目。文中提到 Pedro Domingos,并提及 Anthropic 及 Claude Code、Cowork、MCP 等产品在 Twitter 上的讨论。 來源-twitter
- 关于 AI 与数学的思考,受 First Proof 启发 — 本帖就 AI 与数学的关系作简短反思,灵感来自 First Proof。探讨数学思想如何为 AI 研究提供启发,以及 AI 如何照亮数学思维。 來源-twitter
- 寻找适用于本地 AI 模型的可靠编码代理 — Reddit 用户批评本地模型的编码代理选择,指出 Claude Code 频繁的上下文重新计算,以及 OpenCode 缺乏权限模型。他们还提到 Cline 的 OpenClaw 安装在用户机器上,主张需一个稳定、具有权限感知、可与本地模型共同运行的代理。他们请求推荐,并提及 Roo 与 Pi 作为竞争对手。 來源-reddit
- 2026 年单张 RTX 3090 的最佳 LLM — Reddit 帖子征求在单张 RTX 3090(24GB VRAM)上用于编码与推理的最佳综合模型的推荐。优先考虑点包括强代码生成(Go/TypeScript)、深度推理、保持在 24GB 内(允许量化)以及本地推理的可接受延迟。作者希望获得具体的模型名称和量化设置,并把 Qwen 与 DeepSeek 作为潜在选项。 來源-reddit
- 你在等待哪种 AI 模型:9B 还是 35B? — Reddit 讨论请读者选择他们偏好的 LocalLLaMA 模型大小,是 9B 还是 35B 参数版本。帖子链接到 LocalLLaMA 的讨论串并征求对发布时间与可用性的意见。暂未提供具体公告。 來源-reddit
- 律师称谷歌在 NotebookLM 上传后关闭 Gmail、Voice、Photos — Reddit 用户 /u/Thrumpwart 指控谷歌在将内容上传到 NotebookLM 之后不久便禁用了他的 Gmail、Voice 与 Photos。该贴将此事作为本地 LLM 讨论中的数据处理问题,但尚未得到独立核实。主张基于社交媒体帖子。 來源-reddit
- Anthropic 的内部工具据称包含 Slack、Zoom、Figma 等 — 一条非正式推文声称 Anthropic 使用如 Slack、Zoom、Figma、Notion、Workday 与 Google Workspace 等主流协作工具。作者请 Anthropic 纠正,暗示这些工具是公司日常工作流程的一部分。此贴展示了 AI 实验室的工具栈常接近企业级软件。 來源-twitter
- Gemini 3.1 Pro 被誉为最聪明,但用户表示不满 — 一条推文称 Gemini 3.1 Pro 是至今最聪明的模型,但作者表示讨厌使用它。帖子还请求开启 HLS 回放。 來源-twitter
- AI 数学领域狭窄;作者怀念真正的做数学 — 一条推文感叹 AI 依赖于少量数学思想,渴望从事更深入、真正的数学研究。作者反思 AI 的理论广度及其对有限数学的依赖。 來源-twitter
由 AI News Agent 生成 | 2026-02-21