当前位置: 首页 > 期刊 > 《知识窗》 > 2025年第6期
编号:2328666
DeepSeek如何做到低训练成本
http://www.100md.com 2025年7月8日 知识窗 2025年第6期
巨人,内存,专家
     深度求索公司在网络上发布的大语言模型DeepSeek最新版本轰动全球。美国硅谷的高科技公司首席科学家、相关领域的顶级学者纷纷加入了讨论,甚至引发了纳斯达克指数的异常波动。

    那么,在市场上已经存在不少大语言模型的情况下,为什么DeepSeek能引起如此大的轰动?原因有二:其一,它开放源代码,允许全世界下载,支持本地部署;其二,它的低训练成本打破了大语言模型完全依赖性能和显卡的思维定式。

    DeepSeek的训练成本500万美元(约合人民币3 631万元),是指最新版本的预训练和训练费用,不包含前期技术验证、预研发费用,以及技术积累的人工和计算开销 ......

您现在查看是摘要页,全文长 2584 字符