DeepSeek如何做到低训练成本_巨人_内存

DeepSeek如何做到低训练成本

http://www.100md.com 2025年7月8日知识窗 2025年第6期

巨人,内存,专家

     深度求索公司在网络上发布的大语言模型DeepSeek最新版本轰动全球。美国硅谷的高科技公司首席科学家、相关领域的顶级学者纷纷加入了讨论，甚至引发了纳斯达克指数的异常波动。

    那么，在市场上已经存在不少大语言模型的情况下，为什么DeepSeek能引起如此大的轰动？原因有二：其一，它开放源代码，允许全世界下载，支持本地部署；其二，它的低训练成本打破了大语言模型完全依赖性能和显卡的思维定式。

    DeepSeek的训练成本500万美元(约合人民币3 631万元)，是指最新版本的预训练和训练费用，不包含前期技术验证、预研发费用，以及技术积累的人工和计算开销 ......

百拇医药网 http://www.100md.com/html/paper/1006-2432/2025/06/055.htm

您现在查看是摘要页，全文长 2584 字符。