背景

最近探索适合日用的国产 LLM，找到了之前不屑一顾的纳米 AI 搜索，发现体验意外好，能达到 ~32 tps（而且纳米 AI 也敢把输出时间和 tps 展示在对话里），输出丝滑稳定，没有中间卡顿。但随后就发现其幻觉严重，我知道 deepseek 本身就有不低的幻觉率，但是看到纳米 AI 搜索的表现还是觉得不可思议。

DeepSeek-R1-联网满血版的介绍是：本模型为 DeepSeek-R1-671B 全尺寸版本，由华为 910B GPU 服务器提供推理加速。这里 910B 应该是 NPU。然后昇腾没有 FP8 支持，要么转换成 BF16，要么用 int8 的 W8A8 量化。因为 BF16 和 int8 速度相差非常大，让人难免怀疑纳米搜索上的 deepseek 用的是 int8。另一方面，昇腾硬件计算的精度误差也是被很多人提到的，这可能导致模型性能下降。

以下任务都是用 DeepSeek-R1-联网满血版 不思考进行的。

任务一：重新摘取段落中心句

试了两次结果都差不多，纳米 AI 搜索上的 v3 无法遵从指令，忽略了“我不想要这句”，也就是“重新给出段落最重要的部分”的要求。

纳米搜索：

而 deepseek 官网和腾讯元宝都能正常工作（就不放腾讯元宝的图了）：

任务二：论文阅读

我提供了链接、打开了联网搜索、描述了要求，纳米 AI 搜索确实能正常阅读网页，但是给出的结果是错的：错把 Github PR 中评论的其他人的配置当成了 PR 作者的硬件配置。

而且多轮对话之后也开始出现幻觉。