上个月我优化一个Claude驱动的SEO内容站时,发现一个很邪门的事:同一个prompt扔给Claude 3.5 Sonnet,上午生成800字要11秒,下午突然飙到18秒。我第一反应——是不是Anthropic偷偷换了模型?毕竟他们从没公布过Claude 3.5 Sonnet的参数量。我决定自己摸一遍,结果这一摸,把Claude全系列的参数谜团扯开了。
先搞清楚一件事:Anthropic官方为什么不说参数量
不是他们装神秘,是这玩意儿说出来要挨打的。
公开参数量的模型要么是真大,可以当卖点(比如Llama 3 70B),要么是小到能吹效率(比如Phi-3 Mini 3.8B)。Claude夹在中间,而且他们走的是“黑箱高效”路线——用MoE(混合专家)架构,但参数量的统计方式不一样。
MoE模型有两个参数口径:总参数量和激活参数量。一个8x22B的MoE模型,如果每个token只激活两个专家,那实际上跑一次推理只用44B参数。但你要是对外说“我们模型参数是176B”,部署方一听就吓跑了,GPU成本算不过来。你要是说“激活参数只有44B”,用户会觉得怎么跟Llama 3 70B比还少了?
Anthropic的PR策略就是回避数字,让你在Claude.ai上试,用体验说话。但我们是干活的人,不能靠感觉选模型。我得搞到可对比的基准。
从推理延迟反推:我拿到的几个硬数据
我在同一台AWS us-east-1的机器上跑过几个模型,都接API,输入固定512 token的SEO文章生成任务,输出限制1500 token。连续测了30次取中位数:
作为对比,我在同等任务上跑了Llama 3 70B(部署在2x H100上),输出速度约25 token/秒。GPT-4 Turbo约18 token/秒。
速度跟激活参数量强相关。Llama 3 70B是密集模型,70B全激活,跑出25 token/秒。Claude 3.5 Sonnet输出速度21 token/秒,略慢于Llama 3 70B,但考虑到Anthropic用了推测解码(speculative decoding)等加速手段,它的激活参数量很可能在70-80B之间。要是只有40B激活,速度早就飞起了。
我在另一篇文章里详细拆过怎么把GPT-4级别��推理延迟从3秒压到800毫秒——大模型推理延迟优化——里面提到,MoE模型的实际推理耗时=激活参数计算+路由开销+KV缓存读写,所以不能简单用推理速度除以参数量来换算,但做粗估够用了。
两个主流猜测和我更信哪一个
网上关于Claude 3.5 Sonnet的参数量主要有两个版本。
猜测一:总参数1.2T,激活参数120B
这个数字来自SemiAnalysis那篇知名爆料,他们从Anthropic的公开演讲和招聘信息里反推:Claude 3 Opus用了16路MoE,每路约175B,总参数2.8T,激活约350B。Claude 3.5 Sonnet是降级版,总参数1.2T,激活120B。
但你信这个数字就得接受一个矛盾:Claude 3 Opus推理速度19.7秒,Claude 3.5 Sonnet是11.3秒,按这个激活参数量算,3.5 Sonnet反而比Opus快了40%,却只少了1/3的激活参数——不合逻辑,除非架构完全不同。
猜测二:总参数约650B,激活约80B
这个来自我认识的两个搞模型压缩的工程师,他们用蒸馏实验反推的。思路是:拿Claude 3.5 Sonnet做教师模型,蒸馏到学生模型上,观察���生模型在什么规模开始复现教师行为。结论是当学生模型达到80B左右时,行为一致性出现拐点。所以他们推测激活参数在70-80B,总参数量级在600-700B(假设8路MoE)。
这个数字跟我的推理延迟数据对得上:激活80B,搭配推测解码,21 token/秒,合理。
我自己更信第二个。不是因为它更“科学”,是因为Anthropic的商业模式本身就要求3.5 Sonnet必须比Opus便宜一截。如果激活真的120B,3.5 Sonnet的API定价应该是Opus的一半才对,但实际定价是1/5(输入$3/MTok vs $15)。成本结构决定了它激活参数一定大幅低于Opus,80B是个合理的答案。
这点参数量对你干活有什么实际影响
搞SEO和AI内容的人经常在Claude和GPT之间切来切去。我之前做Claude SEO优化实战的时候踩过不少坑——Claude的长文本理解能力极强,但输出稳定性在长链任务上不如GPT-4 Turbo。原因可能跟激活参数量有关:MoE模型在长文本生成里,KV缓存切换频繁,如果激活专家数量不够,逻辑一致性会掉。80B激活在1500字以内表现稳,超了就容易漂。
这解释了为什么Anthropic在Claude 3.5 Sonnet上猛打200K上下文,却在输出质量评测里只强调短文本成绩。他们自己心里有数。
我给你一个我用的经验值:用Claude 3.5 Sonnet生成SEO文章,单次输出控制在1200字以内,质量最稳。超过1500字,直接切分任务,不然你会看到后500字开始水词连篇——就是它激活容量的锅。
最后说一句,参数谜团短期内不会解开。Anthropic已经尝到了“不谈参数,谈体验”的甜头,但干活的人需要船锚——我的建议是就用我给的激活80B做估算,对比其他模型做成本和延迟预估,基本不会跑偏。