心流AI交流社区

【深度】Qwen3.5 评测报告：17B 活跃参数的‘小钢炮’，跃升开源模型梯队前三

10008728577 (aifree) 2026 年2 月 17 日 19:46 1

与其听厂商自吹，不如看独立评测机构 Artificial Analysis 对最新发布的 Qwen3.5-397B-A17B 的完整深度测评。相比上一代 Qwen3-235B，这次的升级方案在活跃参数更低的情况下实现了性能的飞跃，但同时也揭示了一些不容忽视的短板。

核心评测数据 (Intelligence Index #3)

Qwen3.5 最大的惊喜在于极致的“以小博大”——总参数量 397B，但活跃参数仅为 17B。这一数字显著低于 Kimi K2.5 (32B)、GLM-5 (40B) 和 DeepSeek V3.2 (37B)。

智力指数 (Intelligence Index)：得分 45（较前代 Qwen3-235B 的 29 分大幅跃升）。
开源排名：位列开源模型 第 3 名，仅次于 GLM-5 (50分) 和 Kimi K2.5 (47分)。
ELO 质量分：GDPval-AA ELO 达到 1,221，较前代暴涨了 361 分。该指标主要衡量模型在真实知识工作（演示稿制作、分析等）中的表现。

技术演进：由“繁”入“简”

母体统一（Native Vision）：这是 Qwen 首个原生支持图像和视频输入的开源模型。此前，通义千问需要区分 VL 版和纯文本版，从 3.5 开始正式合二为一，紧跟行业原生多模态趋势。
模式融合：不再发布独立的“Instruct”和“Thinking”变体。Qwen3.5 在单个模型中通过不同触发方式支持推理（Reasoning）和非推理模式，极大降低了 Agent 部署的复杂性。

绕不开的短板：幻觉率依然居高

这是本次测评中最值得关注的一点：

全知指数 (AA-Omniscience Index)：得分 -32。虽然比前代的 -48 有所进步，但依然远逊于 Kimi K2.5 (-11) 和 GLM-5 (-1)。
幻觉率：数据为 88%（前代为 90%）。分数的提升主要靠准确率（Accuracy 30% vs 22%）撑起，而在“不懂就说不懂”的拒绝能力上，进步微乎其微。

Token 效率与规格

Token 消耗：在运行智力测试时使用了约 86M 输出 Token（其中 80M 为推理 Token），虽多于前代，但少于 Kimi (89M) 和 GLM-5 (110M)，体现了较强的 Token 效率。
上下文窗口：权重版为 262K；通过阿里云百炼提供的托管版 Qwen3.5-Plus 可支持 1M 窗口及内置工具调用（Tool Use）。
开源协议：Apache 2.0，对开发者非常友好。

深度观点

Qwen3.5-397B 证明了 17B 激活量就能跑出准一流性能。它是一个效率极高的“小钢炮”，但在应对高难度知识问答时的“自信幻觉”风险依然存在。

建议：在需要复杂 Agent 编排的任务中，它的成本优势无可比拟；但在对事实准确性要求极高的场景下，仍需配合 RLF 方案或参考 Kimi/GLM。

数据来源：Artificial Analysis - Qwen3.5 Full Report