【环球网报道 记者 张阳】随着科技的飞速发展,我们正日益步入一个以大数据、人工智能、云计算等新技术为代表的时代。尤其是在“大模型”盛行的今天,人工智能技术作为关键变量,如今已然成为推动新一轮科技革命、产业变革和社会发展的战略抓手,赋能各行各业深刻改变着人们的社会生活、产业结构、工作方式和科技趋向。

只不过我们今天密切关注大模型的发展多少有些“空中楼阁”的意味,在这则成语故事中,富豪只想要第三层楼,而不想让工人修建一二两层。“大模型”就像这第三层楼,尤其是行业大模型聚焦特定领域、针对特定场景、解决特定问题,为行业赋能,吸引了大众的目光。

但是要想这第三层楼不在一夜之间轰然倒塌,甚至还想让其向更高层拔节生长就要格外重视一二两层的稳固。算力、算法、存储、框架、人才等各个层面都决定了大厦如何成就之大。

存储成为大模型发展的基石

这其中算力、算法、数据在发展人工智能过程中的重要性早已为人所熟知。但是作为数据的承载,存储却往往被忽略。其实人工智能的发展与计算机系统的发展有一定相似之处,都符合典型木桶理论,任何部分存在短板都会严重制约整体性能。在训练大模型过程中,往往需要大量数据的交换,如果存储性能不强,那么可能需要耗费大量时间才能完成一次训练,这就会严重制约大模型的发展迭代。

事实上不少企业在开发及实施大模型应用过程中,已经开始意识到存储系统所面临的巨大挑战。

首先,数据准备时间长,数据来源分散,归集慢。数据归集需从跨地域的多个数据源拷贝原始数据。多种数据格式、协议的数据源,造成了数据归集流程复杂、耗时长;另一方面,传统硬盘邮递方式时间长达数周,公共网络传输方式费用高昂。如何打通数据孤岛、缩短归集时长是大模型时代存储系统面临的第一个挑战;

其次,是数据预处理周期长。因为网络上收集的原始数据是不能直接用于AI模型训练的,需要将多样化、多格式的数据进行清洗、去重、过滤、加工,行业内称其为“数据预处理”。与传统单模态小模型训练相比,多模态大模型所需的训练数据量是其1000倍以上,一个典型的百TB级大模型数据集,预处理时长超过10天,占比AI数据挖掘全流程的30%。同时,数据预处理伴随高并发处理,对算力消耗巨大。如何以最经济的手段,缩短数据预处理的时长是当前亟需解决的第二个问题;

再次,是训练集加载慢;训练易中断,数据恢复时间长。相较于传统学习模型,大模型训练参数、训练数据集指数级增加,如何实现海量小文件数据集快速加载,降低 GPU等待时间是关键。目前,主流预训练模型已经有千亿级参数,而频繁的参数调优、网络不稳定、服务器故障等多种因素带来训练过程不稳定,易中断返工,需要Checkpoints机制来确保训练回退到还原点,而不是初始点。当前,由于Checkpoints需要天级的恢复时长,导致大模型整体训练周期陡增,而面对单次超大的数据量和未来小时级的频度要求,需要认真考虑如何降低Checkpoints恢复时长;

最后,大模型实施门槛高,系统搭建繁杂,推理实时性和精准度低。当大模型用于推理时,为了提升推理数据的实时性和精准度,避免大模型出现幻觉,需要将最新数据和企业私有数据连接到大模型。如果用最新的数据在GPU训练集群进行再次的训练和微调,训练时间长,而且成本高昂。因此需要寻找更高效的方法,实现模型数据的动态更新;

数据决定AI智能高度

针对这些挑战,华为顺应大模型时代AI发展趋势,针对不同行业、不同场景大模型应用,在7月14日发布了OceanStor A310深度学习数据湖存储和FusionCube A3000训/推超融合一体机。

在华为看来,企业在大模型开发过程中面临的挑战,正是可以有的放矢解决存储问题的标靶。首先,针对数据归集难,华为数据存储构建数据编织能力,通过全局文件系统Global File System,可以实现跨系统、跨地域、跨云的全局统一数据视图和调度的能力,使得数据归集从天级缩短到小时级。提升数据传输效率,打破数据孤岛,使得所有这些数据就好比在一个设备中存储一样,能够很好地支持大模型使用数据。

针对预处理周期长难题,华为通过近存计算,数据在存储完成数据准备,减少数据搬移;存储支持配置算力,加速数据准备,释放训练集群CPU、GPU资源。

面对训练集加载慢以及训练易中断,数据恢复时间长的问题,华为通过预处理加速、高性能高带宽加速训练集加载等手段降低数据恢复时间。

而就此打造的两款AI存储新品,专门为基础模型训练、行业模型训练,细分场景模型训练推理等场景提供存储解决方案。

其中,OceanStor A310深度学习数据湖存储,面向基础/行业大模型数据湖场景,实现从数据归集、预处理到模型训练、推理应用的AI全流程海量数据管理。OceanStor A310单框5U支持业界最高的400GB/s带宽以及1200万IOPS的最高性能,可线性扩展至4096节点,实现多协议无损互通。全局文件系统GFS实现跨地域智能数据编织,简化数据归集流程;通过近存计算实现近数据预处理,减少数据搬移,预处理效率提升30%。

FusionCube A3000训/推超融合一体机,面向行业大模型训练/推理场景,针对百亿级模型应用,集成OceanStor A300高性能存储节点、训/推节点、交换设备、AI平台软件与管理运维软件,为大模型伙伴提供拎包入住式的部署体验,实现一站式交付。开箱即用,2小时内即可完成部署。训/推节点与存储节点均可独立水平扩展,以匹配不同规模的模型需求。同时FusionCube A3000通过高性能容器实现多个模型训练推理任务共享GPU,将资源利用率从40%提升到70%以上。FusionCube A3000支持两种灵活的商业模式,包括华为昇腾一站式方案,以及开放计算、网络、AI平台软件的第三方伙伴一站式方案。

华为数据存储产品线总裁周跃峰表示:“大模型时代,数据决定AI智能的高度。作为数据的载体,数据存储成为AI大模型的关键基础设施。华为数据存储未来将持续创新,面向AI大模型时代提供多样化的方案与产品,携手伙伴共同推进AI赋能千行百业。”

将目光投向更长远,大模型时代存储、计算、网络等IT基础设施势必会根据新需求进一步重塑。当AI产业具有了坚实的地基和一二层楼,届时才能再上层楼,登高远望,看见AI时代更美的风景。

点赞(358) 打赏

评论列表 共有 0 条评论

暂无评论

微信小程序

微信扫一扫体验

立即
投稿

微信公众账号

微信扫一扫加关注

发表
评论
返回
顶部