2024年12月,总部位于杭州的AI Company DeepSeek发布了其V3模型,点燃了一场辩论。结果被称为“中国的AI冲击”。
DeepSeek-V3与美国同行(例如GPT-4和Claude 3)的可比性能以较低的成本对AI能力的统治地位,这是美国当前针对高级筹码的出口控制政策的支持。它还质疑了根深蒂固的行业范式,该范式优先考虑重度计算能力的硬件投资。为了回应美国总统唐纳德·特朗普的言论,DeepSeek的出现不仅代表 “叫醒电话” 对于科技行业来说,这也是美国及其盟友重新评估其技术政策策略的关键关键。
那么,DeepSeek似乎破坏了什么? DeepSeek所要求的V3模型所要求的成本效率令人惊讶:其总培训成本仅为557.6万美元,仅占GPT-4成本的5.5%,占GPT-4的成本,为1亿美元。培训完成了 使用2,048个NVIDIA GPU,实现资源效率是美国公司的八倍,这通常 需要16,000 GPU。这是使用较不先进的H800 GPU而不是高级H100的,但DeepSeek提供了可比的性能。
因此,DeepSeek的低成本模型挑战了大型模型的复杂性等同于大规模计算功率积累的传统观念。这种发展可能会打破对美国AI芯片的依赖,从而在半导体禁运中,从而提出了有关围绕高端计算能力控制的传统政策的问题。
不清楚的成本
但是,围绕DeepSeek-V3模型的讨论有几个方面需要进一步澄清。 V3模型与GPT-4相当,而R1模型于2025年1月下旬发布,对应于OpenAI的高级模型O1。报告的成本为557.6万美元,专门与DeepSeek-V3有关,而不是R1型号。该数字不包括总培训成本,因为它不包括与建筑开发,数据和先前研究有关的费用。
V3模型是使用R1内部版本在其正式发布之前生成的数据集对培训的。 这种方法旨在利用R1生成的推理数据的高精度,结合规则格式数据的清晰度和简洁性。但是这些相关成本的文档仍然没有公开,特别是关于如何将R1的数据和建筑开发费用集成到V3的整体成本中。
增量创新,而不是破坏
从技术竞争的角度来看,DeepSeek在基础LLM技术(如多头潜在注意力(MLA)和Experts(MOE)混合物(MOE)中的进步都表明了效率提高。但是这些进步不应引起政策制定者的过度关注,因为这些技术并不是严格的保护秘密。
也就是说,目前围绕DeepSeek的成就的兴奋背后是真正的创新。 MLA技术通过使用钥匙矩阵和价值矩阵的低级压缩来增强传统的注意机制。这大大降低了键值(KV)缓存大小, 与标准的多头注意(MHA)结构相比,记忆使用量减少6.3倍,从而降低培训和推理成本。 DeepSeek似乎也是第一家成功部署大规模稀疏MOE模型的公司,展示了他们提高模型效率并通过专家平衡技术降低沟通成本的能力。
尽管这些发展是不寻常的,但它们可能仅表示AI领域的迭代增强,而不是可以改变技术力量平衡的颠覆性飞跃。
确实,DeepSeek-V3和R1模型都不代表尖端技术的顶峰。它们的优势源于提供与美国同行相当的性能,但成本明显降低。在这方面,自然要质疑美国技术行业采用的看似奢侈开发方法的成本效率,以将纯粹的计算能力等同于AI模型的复杂性。
然而,这种具有成本效益的创新通常不是技术最前沿的焦点,配备了丰富的先进资源。任何创新的初始迭代通常会产生高支出。但是,随着成本削减创新的出现,它们降低了费用,允许后来者,特别是在中国等地区,可以迅速采取这些进步,并以降低的成本赶上领导者。
美国筹码制裁的限制
DeepSeek的方法,通过降低的培训成本展示了后来的优势,引发了关于AI模型中对广泛计算能力的真正需求的辩论。 批评者质疑中国是否真的需要依靠美国高级筹码,挑战以高端计算为中心的政策,指导华盛顿当前的半导体出口控制计划。如果通过低级芯片可以实现性能均衡,那么高层芯片的溢价可能是不合理的。
但是,这可能是一种误解,因为高层芯片通常具有更高的效率。从经济角度来看 这是不切实际的 对于像DeepSeek这样的任何中国公司,如果可以使用更多的高级芯片,请避免使用更先进的筹码。
此外,培训成本的降低潜在地降低了用户费用,这表明采用AI服务的财务障碍会减少。随着服务之间的竞争加剧,全球人工智能行业可能会看到对计算能力的需求增加而不是减少。为了使中国在AI比赛中保持一致,它将需要连续提供更复杂的高端筹码。
在这些方面,扩展法仍然是正确的。 DeepSeek刚刚证明,至少从数学术语来说,通过减少资本投资可以实现可比的结果。在硬件方面,这转化为更有效的性能,资源较少,这对整个AI行业有益。而且,如果事实证明DeepSeek的成本效率破坏是可行的,那么我们没有理由使我们AI公司无法适应并保持步伐。
出口中国的AI定价竞赛
那么,美国及其盟友应该真正关注什么呢?关键问题是:中国人工智能服务可以以较低的价格提供与美国同行相当的绩效怎么办? DeepSeek举例说明了政策制定者应密切监视的发展情景 – 中国正在为AI服务发起全球价格战,AI服务已经在国内正在进行中。
DeepSeek-V3和R1模型的实际培训成本尚不清楚。公众对他们是否仅使用低级H800 GPU达到这种效率知之甚少。这些主张的实用性尚未确定。但是,在这里至关重要的是不要将成本与价格混淆。 DeepSeek的确切支出不确定,尚不清楚 该公司是否使用美国模型以可能违反服务条款的方式进行训练。我们可以肯定的是,DeepSeek以异常低价提供其AI服务。
例如,DeepSeek-R1仅收费 每百万美元的输入令牌(使用缓存数据)和每百万美元的输出令牌2.19美元。相反,OpenAI的O1模型 每百万个缓存输入令牌和每百万个产出令牌的费用为12.25美元。这意味着与OpenAI的O1相比,DeepSeek-R1的输入令牌的价格几乎便宜九倍,输出令牌的输出令牌便宜大约四倍。
从某种意义上说,DeepSeek的竞争定价可以看作是对中国2024年国内AI服务价格战争的国际预测。例如,阿里巴巴 将其Qwen-Long的价格降低了97% 我n去年5月, 进一步降低了其视觉语言模型的成本qwen-vl,12月的85%。但是,与DeepSeek不同,许多中国人工智能公司由于模型缺乏竞争力而降低了价格,因此很难与美国同行竞争。即使有这些降价,吸引高质量的客户仍然是一个挑战。相比之下,DeepSeek提供的性能与竞争产品相当,从而使其定价具有真正的吸引力。
对于民主党盟友而言,中国人工智能服务的兴起既负担得起又高效,这引起了两个主要的战略关注,尤其是鉴于最近的主权人工智能倡议。首先,存在国家安全风险,特别是与数据隐私有关的风险 潜在的结果操纵。其次,中国在AI服务中的积极定价对其他国家的AI行业的发展构成了威胁,类似于以前与 太阳能电池板 和 电动汽车 在欧美。
如果这种情况发生了,则必须认识到,中国的AI价格优势不太可能仅受培训成本降低的驱动,而其他公司可能很快就会采用。还应关注非市场机制,例如政府补贴,这可能在未来为中国带来竞争优势。