XPost: alt.chinese.text
DeepSeek是如何把构建AI的价格“打下来”的
CADE METZ
2025年2月13日
深度求索使用了一些技术手段,大大�低了构建系统的成本。 Caroline Brehman/EPA, via Shutterstock
上个月,一家�为“深度求索”(DeepSeek)的中国初创公司表示,它用比许多专家认为的最低限度要少得多的芯片,打造出世界上最强大的人工智能系统之一,随后美国金�市场出现暴跌。
人工智能公司通常使用装有1.6万枚或更多专用芯片的超级计算机来训练聊天机器人。但深度求索表示,该公司只用了大约2000枚芯片。
正如深度求索工程师在圣诞节甫一过后发表的一篇研究论文中详细说明的那样,这家初创公司使用了一些技术手段,显著�低了系统构建成本。它的工程师只需要约600万美元的纯算力,大约是
Meta在构建其最新人工智能技术时所花费的�分之一。
深度求索到底做了什么?这里是一些介�。AI技术是如何构建的?
领先的人工智能技术基于科学家所说的神经网络,�通过分析大量数�来学习技能的数学系统。
最强大的系统需要花费数月时间分析互联网上几乎所有的英文文本,以及许多图像、声音和其他多媒体内容。这需要庞大的运算能力。
大约15年�,人工智能的研究者意识到,一�被称为图形处理�元(GPU)的专用计算机芯片是进行这�数�分析的有效方式。像硅谷芯片制造商英伟达这样的公司最初设计这些芯片是为了在电脑游�
�中渲染图形。但GPU也擅长运行推动神经网络的数学运算。
随着各家公司将更多的GPU集成到计算机数�中心,它们的人工智能系统可以分析更多的数�。
但最先进的GPU每块售价在4万美元上下,而且需要大量的电力。在芯片之间传输数�比运行芯片本身更耗电。深度求索是如何把成本�下来的?
它做了很多工作。其中最值得注意的是,它采用了一�所谓的“混合专家”法。
公司通常会创建一个�一的神经网络,学习互联网上所有数�的所有模式。这样做的成本很高,因为它需要大量的数�在GPU芯片之间传输。
如果一枚芯片正在学习如何写一首诗,而另一枚芯片正在学习如何编写计算机程序,它们还是需要相互交流,以防诗歌和编程之间出现某��叠。
研究人员尝试通过混合专家法来解决这个问题,他们将系统拆分成许多神经网络:一个用于诗歌,一个用于计算机编程,一个用于生物学,一个用于物理学,等等。这样较小的专家系统可能多达
100个。每个专家都可以专注在特定领域。
许多公司在尝试这�方法时并�顺利,但深度求索能够很好地做到这一点。它的诀�是将那些较小的“专家”系统与一个“通�”系统�对。专家系统�然需要相互交�一些信息,而通�系统可
以帮助�调专家系统之间的互动。通�系统对每个主题都有�错的理解,但比较粗略。
这有点像一个主编负责一个全是专业记者的新闻编辑室。
这样做的效率更高吗?
高很多。但深度求索做的�仅仅是这些。它还掌握了一个涉及小数的简�技巧,只要你还记得小学数学,就能理解。
这里涉及数学?
还记得你的数学老师讲过的π吗?圆周率,也就是π,是一个无限数字:3.14159265358979……你可以用π来做一些有用的计算,比如确定圆的周长。当你做这些计算时,你会把π缩短到仅几�小数:3.
14。使用这个更简�的数字,你就能很好地估算出一个圆的周长。
深度求索在训练它的人工智能技术时做了类似的事情,�过规模要大得多。
让神经网络识别文本模式的数学实际上只是乘法——很多很多很多的乘法。我们说的是数�枚计算机芯片进行持续数月的乘法运算。
通常,芯片会将能放入16�存储器的数字相乘。但深度求索将每个数字压缩到只有八�的存储器中,节省了一�的空间。实际上就是在每个数字中删掉了几�小数。
这意味着每次计算的准确性都会�低。但这并��要。这些计算准确度足以产生一个非常强大的神经网络。
就这么简�?这个嘛,他们另外还有一招。
在将每个数字塞进八�存储器后,深度求索在将这些数字相乘时采取了�同的方法。在确定每个乘法问题的答案时——进行有助于决定神经网络将如何运作的关键计算——它将答案扩展到32�存�
��器中。�句话说,这样就保留了更多的小数,使得答案更为精确。
所以高中生都能做到这一点吗?
当然�是。深度求索的工程师在论文中表明,他们也非常擅长编写非常�杂的计算机代码,告诉GPU该做什么。他们知道如何从这些芯片中榨取更高的效率。
具备这�技能的人�多。但一个人工智能实验室只要有心成事,就能找到与深度求索所做的事情相匹�的优秀工程师。
那为什么他们没有早些做到这一点呢?
一些人工智能实验室可能已经在使用相同的技巧了,至少是其中的一部分。像OpenAI这样的公司并�总是透露他们在幕后所做的事情。
但显然还是有人对深度求索的工作感到惊讶。要做到这家初创公司所做的事情,并�简�。找到这样的突破点所需的实验,需要用到数百万甚至数�亿美元的电力。
�句话说,需要冒巨大的风险。
西雅图艾伦人工智能研究所的研究员蒂姆·德特默斯说,“你必须投入大量资金来尝试新事物——而且它们往往会以失败告终。”德特默斯从事构建高效人工智能系统的探究,之�曾在Meta担任人
工智能研究员。
“这就是为什么我们看到的创新没有那么多的原因:人们害怕大量投入都打了水漂,”他补充道。
许多专家指出,深度求索的600万美元只涵盖了这家初创公司在训练系统最终版本时的费用。深度求索的工程师在论文中表示,他们在最终的训练运行之�,还在研究和实验上花费了额外的资金。
但任何尖端人工智能项目都是如此。
深度求索进行了尝试,并取得了成功。现在,由于这家中国初创公司已经与其他人工智能研究人员分享了方法,它所采用的技术手段有望显著�低构建人工智能的成本。
Cade Metz撰写有关人工智能、无人驾驶汽车、机器人、虚拟现实和其他技术新兴领域的新闻。点击查看更多关于他的信息。
翻译:纽约时报中文网
[0] 用比许多专家认为的最低限度要少得多的芯片:
https://www.nytimes.com/2025/01/27/technology/what-is-deepseek-china-ai.html
[1] 打造出世界上最强大的人工智能系统之一:
https://www.nytimes.com/2025/01/23/technology/deepseek-china-ai-chips.html
[2] 美国金�市场出现暴跌:
https://www.nytimes.com/2025/01/27/business/us-stock-market-deepseek-ai-sp500-nvidia.html
[3] 研究论文:
https://arxiv.org/html/2412.19437v1
[4] 神经网络:
https://www.nytimes.com/2018/03/06/technology/google-artificial-intelligence.html
[5] 分析互联网上几乎所有的英文文本:
https://www.nytimes.com/2024/04/06/technology/tech-giants-harvest-data-artificial-intelligence.html
https://cn.nytimes.com/technology/20250213/deepseek-ai-chip-costs/?utm_source=RSS
Thu, 13 Feb 2025 02:32:42 +0800
--
Mobot
If you have any comments on this article, feel free to reply to this post. However, for feedback on the bot, please post in the cn.fan group.
--- SoupGate-Win32 v1.05
* Origin: fsxNet Usenet Gateway (21:1/5)