智算中心建设面临闲置与亏损问题,政府调整投资节奏与能耗指标政策
智算中心在全国各地陆续建立,却不幸陷入了诸多困境。不论是国内的还是依赖英伟达的设施,闲置和亏损都成为了明显的难题。政府已经注意到了这个问题,那么,我们是否应该重新考虑智算中心的布局和发展步伐?
智算中心的闲置现状
多地智算中心建设初期便显现出闲置问题。一些城市不惜投入巨资建设,动用了众多资源。然而,由于种种原因,这些智算中心设备多数时间闲置,未能充分发挥效用。观察运营主体,虽然投入了大量资金,却因业务量不足而出现亏损,部分运营主体甚至陷入收支不平衡的困境。
各地情况不一,有的地方因能耗指标等原因与供应商协商耗时过长,建设进度因而缓慢;另一些地方虽然建设迅速,却因需求不足而亏损严重,这些问题亟需解决,高层也开始重视这一问题。
算力需求的不平衡
大模型的算力需求情形相对复杂。在超大规模大模型训练方面,算力供应明显不足。然而,在其他大模型的算力需求上,情况并非紧急。众多企业实际上能够采用国产AI芯片,无需依赖最新的英伟达GPU。综合考虑成本、价格以及易用性等因素,当前形势下,企业有其他选择。
不少企业在多种场合下会选用消费级显卡,这样做既减少了开支,又能够满足使用需求。消费者可以观察到,并非所有情况下都必须追求最顶级的设备,这种选择是企业根据自身需要做出的考量。
网络与调度的难题
网络对大模型有了全新的要求。以往未曾出现如此需求模式,因此目前尚无完全成熟的网络解决方案。各种网络方案正边探索边实施。实际上,网络技术对智算中心的规模构建起着决定性的影响。
然而,当算力集群规模较小时,网络处理相对简单,但规模与效率难以兼顾。为此,我们亟需一种高灵活度的计算任务调度策略,以提升资源利用率,并使算力价格更为公道。然而,要实现这一目标,必须攻克众多技术难关。
海外生态体系依赖
我国智算中心普遍依赖海外生态体系。目前看来,还需大约三到五年的时间来过渡。若此刻盲目加快智算中心的建设步伐,必将造成严重资源浪费。类似的情况,许多企业囤积英伟达卡,却缺少构建智算中心所需的网络、调度及运维能力,结果只能是算力被浪费。
我国在智算中心技术领域与国外相比还有较大差距,目前我们正处于依赖阶段,要想实现完全自给自足尚有难度。然而,行动的起点应当从现在开始。
运营管理的欠缺
智算中心的运营管理现状并不理想。其中,专业技术人才的短缺和高效管理团队的缺失,都可能导致一系列问题。若缺乏相应的人才支持,智算中心的设备效能恐难得到充分发挥。
现实中有一个鲜明的例子,那就是设备闲置和资源浪费的现象时有发生。这就像拥有了精良的武器却无人能驾驭,智算中心虽然配备了强大的设备和卓越的性能,却因缺乏人才而无法充分发挥其潜力。
政策调整的新导向
从政策的角度来看,政府对智算中心的要求如今更为严格。以往,只要建成即可,但如今,从建设之初就必须考虑选择合适的运营方,或者选择建设与运营相结合的模式。这一做法旨在提升算力的利用率。
当前市场状况下,众多大型模型制造商削减了预训练规模,那些以往热衷于囤积算力的企业,如今亦无需大量租用外部算力。在这种背景下,智算中心唯有拓展推理应用场景,落地更多实际应用,并使终端用户更加分散,方能更有利于市场的整体健康发展。那么,大家觉得智算中心应如何突破这一困境?期待大家的分享与点赞,共同探讨。
作者:小蓝
链接:https://www.lanmiyun.com/content/4897.html
本站部分内容和图片来源网络,不代表本站观点,如有侵权,可联系我方删除。