AI 日报 — 2026-02-17
最新研究表明,LLMs在内部对真相的编码比输出更可靠 · Qwen3.5NVFP4上线 · 博主对 Opus 与 Codex 的日常混用进行对比...
共收录 16 条 AI 领域资讯
🔥 今日焦点
1. LLM内部真度高用探针降幻觉
最新研究表明,LLMs在内部对真相的编码比输出更可靠。GoodfireAI 的相关论文将这一发现用于实践:在模型激活层训练探针以检测幻觉,并将探针分数作为强化学习奖励来减少幻觉。此方法有望提升对真相的内在把控,降低错误信息传播的风险。原始链接-x
2. Qwen3.5NVFP4上线
Qwen3.5NVFP4(Blackwell)上线,采用 NVIDIA Model Optimizer 将模型量化到 FP4,检查点约 224GB,总参数 17B,并以 Apache 2.0 许可发布。文章还提到 Speculative Decoding 与内置多 Token 预测头,适合较低并发场景尝试。原始链接-reddit
3. 每日混用Opus与Codex
博主对 Opus 与 Codex 的日常混用进行对比与分享,强调两者在实际工作中的互补性与取舍,提供选型参考。对于开发者在不同任务中的应用选择具有一定借鉴意义。原始链接-x
📰 重点报道
LLM 技术进展
- LLMs内部真度高用探针降幻觉 — 最新研究表明,LLMs在内部对真相的编码比输出更可靠。GoodfireAI 的相关论文将这一发现用于实践:在模型激活层训练探针以检测幻觉,并将探针分数作为强化学习奖励来减少幻觉。原始链接-x
- Qwen3.5NVFP4上线 — Qwen3.5NVFP4(Blackwell)上线,使用 NVIDIA Model Optimizer 将模型量化到 FP4,检查点约 224GB,总参数 17B,并以 Apache 2.0 许可发布;文章提到 Speculative Decoding 与内置多 Token 预测头,适合较低并发场景。原始链接-reddit
- 每日混用Opus与Codex — 博主对 Opus 与 Codex 的日常混用进行对比与分享,强调两者在实际工作中的互补性与取舍,提供选型参考。原始链接-x
开源模型与工具链
- ACE-Step 1.5 稳定版发布 — ACE-Step 团队发布稳定版 v0.1.0,新增显存检测与自动模型选择/优化,提升低显存 GPU 的兼容性。还优化了一键启动脚本、扩展对 AMD 与 Intel GPU 的支持,并修复若干 bug 与小改进。原始链接-x
- DAG优化网页代理提效20% — 研究提出 WebClipper,将网页代理的搜索过程建模为状态图并裁剪为最小有向无环图,从而在不损失准确性的前提下约减少20%的工具调用轮次。并引入 F-AE Score,用以评估代理轨迹在准确性与效率之间的权衡。对精炼和裁剪后的轨迹进行训练,可使代理从一开始就形成更高效的推理模式,进而降低成本。原始链接-x
多语言与多模态
- Tiny Aya 小模型潜力 — Cohere Labs 推出 Tiny Aya,小型语言模型展现潜力。相比先前的 Aya 版本和同等规模的模型,Tiny Aya 在多语言设计上更具竞争力,证明聚焦多语言研究可在不显著扩大规模的情况下实现更高性能。原始链接-x
- 字节跳动发布 Seed-2.0 模型 — 字节跳动宣布 Seed-2.0,在代理、推理和视觉理解等方面较 Seed-1.8 取得显著进展,且未进行蒸馏。目前全球化部署将很快推进。原始链接-x
行业应用与安全
- (本期重点报道组内未单独设置此分类的项,如需聚焦该方向可调整再补充。)
⚡ 快讯速览
-
Podscript 转录工具 — 开发者 timf34 推出 podscript,可将播客或 YouTube 视频转换为带说话者标签和时间戳的 Markdown 转录文本,安装方式为 pip install podscript,并在转录中使用 ElevenLabs 提供的高质量的说话人分离(diarization)。原始链接-reddit
-
RTX5070Ti+5060Ti 39t/s 实现 — 在 RTX 5070 Ti + 5060 Ti(32GB显存、64GB RAM、Windows 11、CUDA 12.4、llama.cpp b8077)环境下,将 Qwen3-Next-80B MoE 的推理速度从约6.5 tokens/s 提升至 39 t/s,指出默认配置存在 CPU 瓶颈、GPU 利用率低等问题,并通过未公开的调整解决。来源于 Reddit。原始链接-reddit
-
Leak: BharatGPT is training a 500b non MOE coding + text multi lingual multimodal sovereign LLM from scratch — 泄漏信息称 BharatGPT 正在从零开始训练一个 500B 规模、非 MOE 的编码+文本多语言多模态主权大模型,算力花费超千万美元级,且将推出可在网页上运行的版本。来源于 Twitter。原始链接-x
-
A friend gave “V4” a test — 朋友对 V4 在从30K文件提取要点的测试中给出 7/10 的评分,认为相较于 5.2 和 G3P 有明显改进,但仍有改进空间。来源于 Twitter。原始链接-x
-
Moonshot AI (Kimi) keeps raising at a stunning pace — Moonshot AI(Kimi)在短时间内完成新一轮超 7 亿美元融资,领投方包括阿里巴巴、腾讯等现有投资者,融资 pace 极快。来源于 Twitter。原始链接-x
-
Codex 多代理并行未触及限额 — 发帖者在 Codex 上同时运行三以上代理,持续超过两小时,使用了五小时窗口的 8% 与每周的 2%,仍未达到使用上限,显示当前系统并非严格限额。来源于 Twitter。原始链接-x
本报告由 AI News Agent 自动生成 | 2026-02-17