我花了3个月把主流大模型都跑了一遍，才搞懂这些模型根本不是同一类东西

去年给一个电商客户的客服系统切模型，需求很明确：回答质量至少对齐 GPT-4，推理延迟不能超过 1 秒。结果一圈测下来发现，市面上的“AI大模型”远比想象中杂——不是好坏问题，是它们根本就不该放在同一个维度比。

先说我当时拿到的候选名单：GPT-4o、Claude 3.5 Sonnet、Gemini 1.5 Pro、DeepSeek-V2、Qwen2-72B、Llama 3 70B、还有几个 MoE 架构的开源模型。表面看都是大模型，一上生产环境数据，差异立刻炸开。

第一层分类：API 闭源、本地部署、以及“伪开源”

最常见的分法是闭源和开源，但真实世界里远比这复杂。我们当时把候选模型划成三类：

1. 纯闭源 API：GPT-4o、Claude 3.5 Sonnet、Gemini。只能用接口，模型权重不公开，延迟受网络和供应商弹缩影响。比如 Sonnet 凌晨 2 点延迟能压到 400ms，白天高峰期能飙到 1.5s，这对 SLA 是灾难。

2. 可本地部署的开放权重模型：Llama 3 70B、Qwen2-72B、DeepSeek-V2。你可以下权重，用 vLLM 或 TGI 部署，延迟、吞吐自己控。我们最终用 4 张 A100 跑 Qwen2-72B INT4 量化版，首 token 延迟压到 300ms 以内——代价是维护成本拉满。

3. 名字叫开源但商用受限的：比如 Llama 2 的部分变体、Falcon 的某些版本。只要月活超过一定量就得额外授权，根本不叫开源。这种模型我们直接排除，法务过不了。

如果你在选模型时只看评测榜单不看部署形态，大概率一上线就被延迟和成本教做人。我之前专门记过怎么把 GPT-4 级别的推理延迟从 3 秒压到 800ms，包括量化的坑、kernel 选择、KV cache 策略，细节写在了大模型推理延迟优化里，这里不展开。

第二层分类：架构差异才是选型分水岭

同样是“大模型”，Dense 和 MoE（混合专家）在工程上完全是两种生物。

我们的客服系统是典型的长尾场景，70%请求是高频问题，30%是边缘 case。一开始我用 Dense 模型（Llama 3 70B）硬扛，发现内存吃得死死的，单张 A100 跑 BF16 都困难。后来切到 DeepSeek-V2（MoE），同样是 70B 参数，激活参数只有 6B 左右，推理吞吐直接翻了 3 倍，单卡能跑 4 副本，资源总成本降了 60%。

但 MoE 有坑：显存波峰不稳定。当某层专家被热点请求同时激活，显存会瞬间飙高，OOM 概率比 Dense 高。我们的解法是加了一个请求队列，按专家负载做动态路由调度，这里面的锁竞争细节够写一篇新文章了。

另一类是多模态模型，比如 GPT-4o 和 Gemini 1.5 Pro。它们本质是把视觉编码器焊在语言模型上，对于我们的纯文本客服场景完全是屠龙刀切菜——能力溢出，成本还高一截。所以不要把“多模态”当成升级版，它只是一个特定架构，跟你的任务未必匹配。

第三层分类：能力维度，不是越大越好

同样做文本生成，不同模型的能力曲线差别巨大。我们按业务模块拆开测：

多轮对话改写：Claude 3.5 Sonnet 最稳，指代消解和上下文衔接比 GPT-4o 更自然。但它的输出风格偏保守，做促销文案时缺乏攻击性。关于这一点，我在Claude SEO优化实战里记过——让 Claude 生成高转化标题必须加严苛的格式约束，否则它绕来绕去就是不下钩子。

逻辑推理与知识问答：GPT-4o 仍然是最强，但它的优势在 70% 的客服请求里根本用不上。我们用 10 万条真实历史对话做 A/B 测试，GPT-4o 和 Qwen2-72B 的答案好评率差不到 2 个百分点，但成本差了 8 倍。

长上下文处理：Gemini 1.5 Pro 的 1M token 长窗确实香，但我们测过把 200 页产品手册灌进去做 RAG 问答，召回精度反而比拆开做 chunking 低 15 个百分点。长上下文不是万能的，而且输入 token 贵得肉疼。

我的结论很简单：不要拿一个模型打所有任务。我们的线上模型现在做了分层路由——高频简单问题走 7B 模型，复杂问题才调 70B 模型，推理成本每天省下 1200 块人民币。

第四层分类：地缘与合规，国内大模型的另一套逻辑

国内选模型还要过备案关。北京到今年已经备案了 242 个大模型，全国断层第一。这意味着什么？不是北京技术强，而是产业链在强制收敛——算法备案、生成式 AI 服务备案、数据安全评估，每一步都筛掉一批。具体的原因我在北京 242 个 AI 大模型备案全国第一里写过，那篇文章是我翻完备案列表后的真实感受，不重复。

在国内做生成式 AI，选模型的逻辑要倒过来：先看备案，再看数据合规，最后才是效果。我们有个客户本来想接 Claude，但数据不出境的要求直接卡死，最后还是落到了通义千问和 DeepSeek 上。而且国内模型的人力成本有隐性优势，商汤、智谱的售后响应比海外 API 快得多，半夜出问题也有人拉群定位——算下来比用 API 又省了一笔沟通成本。

选模型的正确姿势：不问“哪个模型最好”，只问三类问题

踩完这些坑以后，我们内部把模型选型流程简化成了三个固定追问：

1. 数据流向哪？ 出不了境就只能境内模型，能出境再考虑海外闭源 API。

2. 延迟上限多少？ 如果要求 <1s 首 token，基本只能上本地部署 + 量化，或者用 MoE 架构冲吞吐。API 的弹性永远无法给你硬延迟承诺。

3. 任务的核心能力是什么？ 是逻辑推理、还是风格控制、还是长上下文？拿着真实业务日志去测 5～10 个模型，跑一遍准确率、召回率、延迟、成本的雷达图，别信榜单。

这个流程帮我们避开了至少 3 次翻车。最近一次帮另一个客户选模型，从候选到全面上线只花了两周。不是我们厉害，是终于不再跟模型谈恋爱，而是把它当零件测。

测对了零件，系统才抗揍。