最近探索适合日用的国产 LLM,找到了之前不屑一顾的纳米 AI 搜索,发现体验意外好,能达到 ~32 tps(而且纳米 AI 也敢把输出时间和 tps 展示在对话里),输出丝滑稳定,没有中间卡顿。但随后就发现其幻觉严重,我知道 deepseek 本身就有不低的幻觉率,但是看到纳米 AI 搜索的表现还是觉得不可思议。
DeepSeek-R1-联网满血版的介绍是:本模型为 DeepSeek-R1-671B 全尺寸版本,由华为 910B GPU 服务器提供推理加速。这里 910B 应该是 NPU。然后昇腾没有 FP8 支持,要么转换成 BF16,要么用 int8 的 W8A8 量化。因为 BF16 和 int8 速度相差非常大,让人难免怀疑纳米搜索上的 deepseek 用的是 int8。另一方面,昇腾硬件计算的精度误差也是被很多人提到的,这可能导致模型性能下降。
以下任务都是用 DeepSeek-R1-联网满血版 不思考进行的。
试了两次结果都差不多,纳米 AI 搜索上的 v3 无法遵从指令,忽略了“我不想要这句”,也就是“重新给出段落最重要的部分”的要求。
纳米搜索:
而 deepseek 官网和腾讯元宝都能正常工作(就不放腾讯元宝的图了):
我提供了链接、打开了联网搜索、描述了要求,纳米 AI 搜索确实能正常阅读网页,但是给出的结果是错的:错把 Github PR 中评论的其他人的配置当成了 PR 作者的硬件配置。
而且多轮对话之后也开始出现幻觉。