寒武纪近日发布了2023年第一季度报告,显示营收0.75亿元,较上年同期增长19.52%,较上年同期亏损收窄11.26%。甚至在五一前夕,寒武纪总市值达到1034.48亿元,这也是时隔两年半多,寒武纪再破千亿大关。


(资料图)

云端AI大爆发,国产芯片“水涨船高”

从寒武纪2022年年报来看,营业收入较上年同期增加798.93万元,同比增长 1.11%。其中,云端收入大幅增长,云端产品线收入2.19亿元,较上年同期增长173.52%。寒武纪公告称,随着云端产品线思元290、思元370系列产品在多家头部企业完成产品导入,带动了云端产品线业务收入大幅增长。

随着以ChatGPT为代表的AIGC相关应用涌现,AI相关概念股也持续上涨。寒武纪作为国内AI算力芯片龙头,也迎来了上市以来最大的风口。

从2月中下旬开始,ChatGPT逐渐引爆了训练需求。某企业人士透露,其公司去年年末主要都是针对小模型训练做的预算,约不到3000万。但经过3月份对大模型应用需求的调研后,已经增加了9000万预算。

市场需求之旺盛可见一斑。那么,寒武纪为此做好准备了吗?

寒武纪云端产品线的产品形态主要包括云端智能芯片和加速卡、训练整机及智能计算集群,而这基本是英伟达的领地。

图:寒武纪主要产品线(来源:公司公告)

据了解,思元370芯片及加速卡目前与多家头部互联网企业在视觉、语音、图文识别、自然语言处理等场景下完成了适配工作后,已经进入批量销售环节,实现了收入突破。

对于大模型领域,寒武纪公告称:与某互联网企业进行了大模型训练的初步合作,目前仍处于技术探索和测试阶段。

大模型训练国产替代,难在哪里?

3月中旬,有市场消息称,百度“文心一言”将调用超大规模算力,并尝试使用寒武纪思元590替代部分英伟达A100。

这一消息后来被寒武纪所辟谣。然而,根据所传出的疑似百度内部的消息是:“除了英伟达A100和寒武纪思元590,其他性能差一点的替代品也考虑。”

据了解,思元590是寒武纪最新一代云端智能训练芯片,该产品目前尚未正式发布。寒武纪董事长陈天石在一次大会中介绍,思元590采用MLUarch05全新架构,实测训练性能较在售旗舰产品有大幅提升,能够提供更大的内存容量和更高的内存带宽,其I/O和片间互联接口也较上代实现大幅升级。

虽然还未正式上市,但思元590已然被寄予厚望,甚至被认为“将是最早实现商业应用的接近英伟达A100性能的国产Al训练芯片”。

寒武纪和百度双方均未对合作细节做出正式回应,或许存有这样的可能性:思元590在“文心一言”中可能小规模部署进行测试,比如用于推理应用中的小部分场景,进入大模型训练中的可能性或许并不大。

其实,在性能达到要求的前提下,国产芯片所能实现的成本优势,以及从防止“断供”、“卡脖子”的战略意义层面来看,都有其发展空间和必要性所在。在与一位业内人士的对话中,问其:如果英伟达A100的库存用完了,国内企业宁愿买“阉割版”的芯片,也不会买国产芯片吗?对方答:“如果国产算力芯片整体性价比能够达到英伟达的60%-70%,就有购买的意愿,可惜目前还达不到。”

对于大模型训练所需的算力芯片,业内认为“只有英伟达的A100和A800能够真正跑起来,国产GPU只能做小规模和中规模的训练和推理。”

那么,国产芯片的差距主要在哪?

一位业内人士认为,在性能提升的基础上,国产芯片的稳定性还需要时间去打磨。以大模型训练为例,通常进行一次训练需要几天甚至十几天的时间,稳定性必须足够好。因为训练过程中,需要保存模型参数,以便进行推理及中断后再训练使用。如果稳定性不好,出现一两个节点的宕机,或是个别计算节点失效,那么就要推翻重来,导致训练时间延长。

而稳定性取决于配套的软件和工程能力。由于运行过程中,需要解决很多BUG,还需要软硬件结合、冗余的机制等等,而这些都需要付出相应的时间和成本,也免不了商业应用中前期的投入和磨合。

此外,英伟达在云端AI训练生态领域已布局多年,用户迁移到国产芯片,需要付出一定的代码工作量和移植成本,这也是国内芯片企业的最大瓶颈。

面对云端这个巨大的市场,英伟达方面也丝毫没有松懈。即使面临美国商务部以安全问题为由,禁止其向中国客户出售A100和更先进的H100的情况下。针对禁令,英伟达面向中国市场先后推出了“合规版”的A800和H800,在关键参数方面(如:数据传输速率、所支持的内存带宽)进行了一定下调,以符合出口管制要求。

据传,在英伟达A100停售前,国内多家企业都进行了囤货。且几家头部互联网企业都向英伟达下了1.5万-1.6万的A800和H800订单,每家金额在十几亿美元左右,大约能保证在2024年有足够的产能。

国产芯片是否有追赶的可能性?

一份来自阿伯丁大学、MIT等机构的研究,将算力演进划分为三个阶段:前深度学习时代、深度学习时代、大规模时代。该研究显示,在过去12年间(2010-2022年),ML训练算力增长了100亿倍。2010 年之前,训练所需的算力增长符合摩尔定律,大约每20个月翻一番。自2010年代初深度学习问世以来,训练所需的算力快速增长,大约每6个月翻一番。而到了2015年末,随着大规模ML模型的出现,训练算力的需求提高了10到100倍,一种新的趋势出现了。

根据OpenAI 近日的分析显示,自 2012 年以来,AI训练任务中使用的算力,目前每3.5个月翻一倍。

大模型的“大”体现在海量参数训练,而这意味着需要极致算力。由于模型越大、参数越多,对算力的需求也更大。这无疑加剧了算力芯片的迭代速度。通常来讲,算力芯片折旧时间最长不超过5年,一般为2-3年,在强力需求的推进下,这一市场竞争会更为激烈。

对于企业用户来讲,追求大算力、高性能的芯片无可厚非,迭代跟不上需求的产品只能从业务中剥离。特别是对于AI云端训练这种高门槛的应用,注定难以百花齐放,而会成为寡头垄断的领域。对于国内芯片企业来说,既需要解决生态问题,又需要实现良好的性价比和稳定性,才能让企业有替代意愿。

那么,国产算力芯片还有追赶的可能性吗?

一位业内人士认为,差距在一点点缩小,但是缩小的难度会越来越大。因为硬件迭代投入是巨大的,量产风险也很高,如果没有雄厚的资金持续投入,实现追赶首先有一定的难度。其次,如果英伟达保持现有的产品发布节奏,对于国内厂商来讲,差距可能会慢慢增大,特别是在相关禁令约束的情况下。

写在最后

一颗芯片背后,不仅仅是一颗芯片,是长达数十年的平台耕耘,包括软硬件平台、应用框架等等。

顶着“国产AI芯片第一股”头衔上市的寒武纪,面向的是AI未来的星辰大海,以及国产替代的广阔前景。但是,在云端这个极需自己“卷”自己的市场中,寒武纪正处于一场看似曙光在即、但仍遥遥无期的长跑中。

不仅是寒武纪,对于所有AI芯片厂商来说都是如此,只有扩大规模效应、提升营收高速增长,同时,提升项目落地交付速度、降低耗费成本,才有望打破这种“增收仍亏损”的死循环,实现真正的追赶甚至超越。

关键词: