当前位置：首页> 资讯 >

存储系统如何支持大模型生成式AI

时间：2023-08-09 09:29:48 来源：电子创新网

冬瓜哥上次学习AI和ML，还是在2019年初。当时其实是卷积神经网络和深度神经网络蓬勃发展期，其主要目的是分类识别。当时冬瓜哥还做了一个4小时的视频，那真是我见过的最小白的白也能轻松入门，理清楚最基本的名词概念关系的视频了，没有之一。那时候利用AI生成一些艺术作品已经初见雏形，但是非常不成熟，基本上都是仅供娱乐。我记得曾经至少有两部科幻电影描述过（比如《机械公敌》，《Finch》），也许做梦对于一个机器人来讲，是一种超级进化的开端。

(资料图片)

生成式AI，AI2.0

时过境迁。短短几年内，新的不同于传统分类器的模型Transformer，让AI再一次革新。以往的RNN在自然语言处理训练方面的并行度不是很好，需要太多通信，处理长句子时效率比较低。而Transformer模型从新的维度上解决了这个问题，高并行度让GPU训练效率大幅提升。这个过程，感觉像极了当年分布式系统兴起的时候，大家也是拿着几篇经典论文翻来覆去的研读，然后开始用开源软件，最后逐渐发展出自己的技术。

当AI突破了人类语言这道关卡，后续就有点一马平川的感觉了。因为人类知识目前主要储存在各种语言文本当中。再结合对图片、声音等各种信息的数字化映射和分析，让AI能够运行于多模态模式下，能够更好的理解字里行间的信息，更精细化的生成对应的内容，走进了现实。

多模态生成式AI（AI Generated Content，AIGC）是指通过生成和分析多种模态的数据，如文本、图像、音频、视频等，以实现更加丰富和精准的智能应用。与传统机器学习方法相比，多模态生成式AI能够充分利用多种数据之间的关联性，提高模型的泛化能力和鲁棒性。生产式AI是人工智能从1.0时代进入2.0时代的重要标志，其具备强大的认知智能，在搜索引擎、艺术创作、影音游戏、文本生成、语音生成、图片生成、视频生成、代码生成、虚拟人生成以及金融、教育、医疗、工业等领域有着广阔的应用前景。

Gartner预测，到2023年将有20%的内容被AIGC所创建；到2025 年人工智能生成数据占比将达到10%。据分析师预测，到2032年，生成式人工智能市场规模将达到2,000亿美元，占据人工智能支出总额的约20%，显著高出当前的5%。换言之，未来十年市场规模可能每两年就会翻一番。

生成式AI的背后是基于行业上下游对数据进行采集、标注、训练、推理、归档，其特征是数据量大、多元数据类型复杂、服务协议多样、性能要求苛刻、要求服务持续在线。由于多模态数据具有复杂性和多样性，因此多模态生成式AI需要具备以下特点：

跨模态数据融合：能够将不同模态的数据进行有效的融合，以提取更丰富的信息。

跨语言理解：能够理解不同语言之间的语义差异，提高跨语言应用的准确性。

上下文感知：能够根据上下文信息进行智能推断和预测，提高应用的场景适应能力。

知识表示：能够将知识和信息进行有效的表示，以支持更高级别的认知和决策。

革新带来的新挑战，现有存储系统还能不能打？

多模态生成式AI系统本身是一个大规模集群，无论是集中式存储还是本地直连存储，都早已无法满足该系统对存储性能和容量的基本需求。另外，以机械硬盘构建的任何存储系统，也根本无法承担生成式AI对存储系统带宽和时延的要求。总的来讲，生成式AI在存储方面所面临的挑战如下：

大型数据集：随着数据和模型规模的增长，独立存储无法满足应用需求。因此，解决这些问题的分布式存储解决方案势在必行。

历史数据的完整归档：在某些场景下，AI集群每天都会产生大量新的数据集，必须将其归档为历史数据。这在自动驾驶领域尤为重要，道路测试车辆收集的数据（例如雷达和摄像头数据）对于公司来说是非常有价值的资产。在这些情况下，独立存储被证明是不够的，因此分布式存储成为必要的考虑因素。

小文件和非结构化数据过多：传统分布式文件系统难以管理大量小文件，导致元数据存储负担过重。这对于视觉模型来说尤其成问题。为了解决这个问题，需要一个针对小文件存储进行优化的分布式存储系统。这样既保证了上层训练任务的高效进行，又保证了海量小文件的轻松管理。

云训练数据I/O效率低：云模型训练往往采用对象存储作为存储计算分离架构的底层存储。然而，对象存储较差的读写性能可能会导致训练过程中出现严重的瓶颈。

异构数据的融合：生成式AI训练模型的数据呈现来源多、格式多的多源异构现状，传统存储面向单一数据类型设计，需要以搬移数据的方式实现多协议访问，存储成为应用平台的关键瓶颈。

持续的低延迟与高带宽：模型训练过程中，频繁的从数据集取Token，每个Token一般4字节，实时高并发小IO性能需要极低的延迟；存储模型Checkpoint时，为Checkpoint数据可快速写入，需要高带宽。

EB级大容量存储需求：越多的数据投喂结果越精准的工作原理，决定了大模型训练存在深度学习网络层数多、连接多、参数和数据集种类复杂、数据量大的特征，随着模型参数和数据量的快速增长，对于存储的大容量和扩展需求也迫在眉睫。

数据存储产业需要进行全方位的技术升级，通过在多源异构融合、数据高速传输、海量数据管理等方面持续创新，打造专业的生成式AI存储产品与解决方案。

块，文件，对象，哪种存储方式最好？

块存储

传统观点认为，低延迟高带宽场景，使用块存储是最佳方案。然而，块存储在可扩展性方面却不能令人满意。AI集群必须在数据量、数据类型、决策速度，当然还有预算方面进行平衡。AI训练环境对实时运行的基于网络的推荐引擎提出了不同的要求。块存储传统上非常适合高吞吐量和高I/O工作负载，其中低延迟非常重要，然而，随着现代数据分析工作负载（包括人工智能、机器学习甚至数据湖）的出现，人们发现传统的基于块的平台缺乏满足这些平台计算方面所产生的横向扩展需求的能力。因此，必须采用基于文件和对象的方法来支持这些现代工作负载。

文件和对象

因此，系统架构师更倾向于基于文件或对象的 AI 和 ML 存储。对象存储在构建时考虑到了 PB 级大容量，并且是按规模构建的，还支持物联网 (IoT) 等应用。对象存储在性能方面落后于块存储系统，尽管随着更新的高性能对象技术的出现，差距正在缩小。另外一个需要考虑的因素是，AI应用程序支持的存储访问接口各不相同，并非所有人工智能、机器学习或分析工具都支持 AWS 的 S3 接口（对象的事实标准）。

云储存

云存储主要是基于对象的，但为人工智能和机器学习项目提供了其他优势。其中最主要的是灵活性和较低的前期成本。云存储的主要缺点是延迟和潜在的数据传输成本。云存储对于基于云的人工智能和机器学习系统来说是一个不错的选择，对于长期数据归档来说还是划算的。

综上，传统观点认为，没有单一选项可以满足人工智能、机器学习和分析的所有存储需求。然而这个观点在浪潮信息AS13000这个老牌分布式存储系统面前就显得有点过于武断了。

浪潮信息生成式AI存储解决方案

浪潮信息生成式AI存储解决方案用一套AS13000融合存储支撑生成式AI的全阶段应用，提供全闪、混闪、带库、光盘四种介质，支持文件、对象、大数据、视频、块协议，可满足大容量、多协议共享，百万以上IOPS，100GB以上带宽，冷数据的长期保存和归档。结合AIGC数据处理的五个阶段：数据采集、数据准备、数据训练、数据推理和数据归档，由同一套存储提供端到端的数据流支持流程，满足面向文本、音频、图像、视频、代码以及多模态和全模态的模型需求。

标签：

上一篇：河南近百亿灾后重建资金出问题 11月底前将公布整改信息

下一篇：最后一页

为您推荐更多>>