DeepSeek：这家中国初创公司正在改变人工智能模型的训练方式

中国人启动就在该公司在全球引起轰动的几天后，DeepSeek 已成为 2025 年开源大语言模型 (LLM) 领域的“最大黑马” 人工智能 (AI) 社区及其最新版本。

这一评估来自吉姆·范（Jim Fan），他是该公司的高级研究科学家。英伟达及其人工智能代理计划的领导者，在元旦的帖子中社交媒体平台 X，遵循杭州总部位于纽约的初创公司上周发布了其同名法学硕士 DeepSeek V3。

“[The new AI model] 表明资源限制迫使你以惊人的方式重塑自己，”范写道，指的是 DeepSeek 如何以其他科技公司投资建设法学硕士的一小部分资本支出开发该产品。

DeepSeek V3 拥有 6710 亿个参数，训练时间约为两个月，成本为 558 万美元，使用的计算资源比大型科技公司（例如 Facebook 家长元平台和聊天GPT 创造者开放人工智能。

LLM指的是技术基础生成式人工智能 ChatGPT 等服务。在人工智能中，大量参数对于使法学硕士能够适应更复杂的数据模式并做出精确的预测至关重要。开源允许公众访问软件程序的源代码，允许第三方开发人员修改或共享其设计、修复损坏的链接或扩展其功能。

半导体设计巨头 Nvidia 的高级研究科学家 Jim Fan 表示，他一直在密切关注人工智能初创公司 DeepSeek 的进展。照片：南华早报

DeepSeek 以低于大公司花费的成本开发强大的法学硕士，这表明中国人工智能公司已经取得了多大进展，尽管美国制裁这在很大程度上阻碍了他们获得先进的半导体用于训练模型。

1735737320
#DeepSeek这家中国初创公司正在改变人工智能模型的训练方式
2025-01-01 13:00:00

Leave a Reply Cancel reply