阿里云暂停A100服务器出租AI算力奇缺国产AI芯片任重道远

  发烧友网报道(文/李弯弯)上个月,美国发布更新针对的出口管制规定,新措施意在填补去年10月发布法规中的漏洞。这样意味着,除了

  近日,阿里云A100服务器业务暂停出租的消息传出。这反映出,美国对AI芯片的出口管制规定,已经对中国的算力供应造成影响。当前的情况是,需求侧大模型正在快速发展,对算力的需求不断提升;供给侧英伟达GPU芯片对华销售受阻,市面上A100/A800等现货价格水涨船高,算力租赁服务售价同样如此。而阿里云在满足自身大模型研发需求之外,也已经没有足够多算力用于对外出租。

  目前,国内各大互联网厂商都已经推出自己的大模型产品,并在不断探索技术和应用创新,同时各行各业的企业,无论大小,都在尝试将大模型技术引入自己的产品和解决方案中。而无论是大模型的研究和应用,其训练和推理过程都需要依靠强大的算力作支撑。

阿里云暂停A100服务器出租AI算力奇缺国产AI芯片任重道远

  百度、腾讯、字节、阿里作为国内主要的云服务厂商。相较之下,购买和积累了更多的GPU产品。其中,字节跳动A100 和V100显卡总数接近10万块,阿里巴巴集团也大概拥有10万块显卡。腾讯因为在2022年底砍掉一批英伟达订单,其拥有的GPU数量较少。相对来说,百度所拥有的GPU数量也偏少。

  近年来,大模型热潮如龙卷风般袭来,这对GPU的需求不断增加,上述各大厂商也加大了向英伟达GPU所下的订单,以扩大自己的基础硬件设施储备。今年8月,百度、字节、腾讯和阿里向英伟达下单订购50亿美元的芯片,其中价值10亿美元约10万颗英伟达A800芯片,将在年内交付。另外价值40亿美元的芯片将于2024年交付。

  然而,在上个月美国发布AI芯片出口管制新规之后,这些订单都将不能如期交付。这意味着各大互联网厂商面临着不同程度的GPU芯片紧缺的局面。

  阿里云此次暂停A100服务器对外出租可想而知就是如此。阿里云是全球领先的云计算服务提供商之一,它提供各种各样的云计算产品和服务,包括云服务器租赁。

  阿里云云服务器租赁是一种将计算资源分配给用户的服务,用户可以通过互联网租用虚拟化的服务器资源。这些服务器资源是在阿里云数据中心中运行的,用户只需要根据自己的需求选择适合自己的云服务器,并根据需要支付租金。

  在10月31日开幕的2023年云栖大会上,阿里巴巴集团董事会主席蔡崇信谈到,在当下的智能化时代,阿里巴巴要致力于打造AI时代最开放的云。他表示,目前,中国有80%的科技企业和一半的大模型公司都跑在阿里云上。

  除了对外出租,阿里云正在研发和迭代自己的通义千问大模型,这对GPU算力的需求很高。举例来看,OpenAI的GPT-3训练使用了128台英伟达A100服务器(训练34天),对应640P算力,GPT-4模型训练使用了3125台英伟达A100 服务器(训练90-100天),对应15625P算力。从GPT-3至GPT-4模型参数规模增加约10倍,用于训练的GPU数量增加了近24倍。

  根据行业人士的推测,国内头部大模型厂商如果对标GPT-3模型的训练需求,需要1920台A100/A800服务器,对应15360张GPU。如果对标GPT-4模型的训练需求,则额外需要13705台A100/A800服务器,对应近11万张GPU。

  根据此前传出的一份交流纪要里,阿里云AI专家提到,阿里云在云上有上万片的A100,整体能够达到10万片,集团体量应该是阿里云的5倍。该AI专家提到,大模型大规模的应用,成本也很高,比如ChatGPT完成一个推理任务,需要5张A100在2秒钟之内做一次推理。

  大致来看,1万张显卡才刚刚算是能够跨进大模型的门。而如果要训练更高级别的大模型,对GPU的需求将会呈大幅度增长。就如上文所述,阿里云拥有大约1万张A100,已经足够其训练大模型产品,然而如果它想训练出对标GPT-4的模型,可能就要用上阿里集团目前所有的GPU卡。

  随着大模型的研发和应用,以及美国对AI芯片的出口管制,目前市场面现有的英伟达GPU芯片已经涨到天价,而且所剩不多,各个算力租赁服务企业价格也在不断上涨。阿里云或许是为了率先满足自己对算力的需求,只得暂停A100服务器对外出租。

  然而这些举措都没有办法真正解决,目前国内对可用于大模型训练和推理的AI芯片的需求问题。近日,面对美国加强对华人工智能芯片管制,英特尔率先提出应变策略。据英特尔供应链透露,英特尔已针对最新发布的Gaudi2推出降规版出货,预计将不受新禁令影响。

  不过,即使Gaudi2降规版短期内能够出货,然而其性能必然是会大打折扣的。要知道,之前英伟达在符合去年10月法规的基础上,推出的A800/H800,相对于A100/H100在关键性能上就已经大幅限制,如今要符合更新后的出口管制规定,Gaudi2降规版计算性能还得更进一步下调。

  期待国产AI算力芯片的突围,才是长久之计。事实上,目前已经有一些国产企业的人工智能芯片,受到客户的青睐。比如弘信电子近日发布公告称,已与上海燧原科技有限公司签署采购协议,拟长期向燧原科技采购一定数量的人工智能加速卡及配套产品作为原材料。本次公司已正式向燧原科技下发9152片芯片采购订单,计划于年底前完成全部芯片的交付,快速形成国产算力落地。

  近日也有消息传出,百度为200台服务器订购了1600片昇腾910B AI芯片。到10月份,华为已向百度交付了超过60%的订单。而且此前科大讯飞此前就已经采用华为昇腾910B芯片,该公司还表示,当前华为昇腾910B能力已经基本做到可对标英伟达A100。

  可以看到,在当前大模型的不断发展,及美国对AI芯片的出口管制下,算力已经出现了极度紧缺的情况。虽然英特尔表示,已发布针对最新发布的Gaudi2推出降规版。然而可想而知其性能将会大打折扣,而且不能确保美国后续不会针对降规版也实施限制。长久来看,发展中国自己的AI算力芯片极其重要,而如今已经有国产的AI芯片可以用于大模型的训练和推理,这无疑给国产AI芯片在未来的发展中增添了更多信心。

相关阅读

添加新评论