InfoWorld文章丨将数据编排技术用于AI模型训练

3年前 (2022) 程序员胖胖胖虎阿

226 0 0

This article was originally published on InfoWorld on March 22, 2022.Reprinted with permission. IDG Communications, Inc., 2022. All rights reserved. Orchestrating data for machine learning pipelines.

作者导读

人工智能（AI）和机器学习工作负载依赖大型数据集，并且对数据吞吐量有较高的要求，两者都可以通过优化数据工作流来实现。

当进行 AI 模型训练时，我们需要高效的数据平台架构来快速生成分析结果，而模型训练在很大程度上依赖于大型数据集。执行所有模型训练的第一步都是将训练数据从存储输送到计算引擎的集群，而数据工作流的效率会大大影响模型训练的效率。

数据平台/AI 平台工程师在数据架构和数据管理方面需要考虑以下几个问题：

数据可访问性：当数据跨越多个数据源且存储在远端时，如何高效地获取训练数据？
数据工作流管理：如何把数据作为工作流来管理，在训练流程中无需等待，保证数据的持续供给？
性能和 GPU 利用率：如何同时实现低元数据延迟和高数据吞吐量，确保 GPU 始终处于忙碌状态？

本文将针对上述端到端模型训练数据流问题，讨论一种新的方案——数据编排方案。

文章首先会分析常见的挑战和误区，然后介绍一种可用于优化 AI 模型训练的新技术：数据编排

AI 模型训练中的常见挑战

端到端机器学习工作流是包含从数据预处理和清洗到模型训练再到推理的一系列步骤，而模型训练是整个工作流程中最重要且资源最密集的环节。

如下图所示，这是一个典型的机器学习工作流，从数据收集开始，接着是数据准备，最后是模型训练。在数据收集阶段，数据平台工程师通常需要花费大量的时间来确保数据工程师能够访问数据，之后数据工程师会对数据科学家搭建和迭代模型所需的数据进行准备。

训练阶段需要处理海量的数据，确保 GPU 能够持续获取数据，从而生成训练模型。因此我们需要对数据进行管理，使其能够满足机器学习的复杂性及其可执行架构的需求。在数据工作流中，每个步骤都面临相应的技术挑战。

数据收集上的挑战——数据无处不在
数据集越大，越有助于模型训练，因此收集所有相关数据源的数据至关重要。当数据分布在本地、云上或者跨区域的数据湖、数据仓库和对象存储中时，将所有的数据集中成单一数据源的做法不再可行。鉴于数据孤岛的存在，通过网络远程访问数据难免会造成延迟。如何在实现所需性能的同时确保数据可被访问成为巨大的挑战。

数据准备上的挑战——串行化的数据准备
数据准备从收集阶段的数据导入开始，包括数据清洗、ETL 和转换，最后再将数据用于模型训练。如果孤立地考虑这个阶段，则数据工作流是串行化的，训练集群在等待数据准备的过程中会浪费大量时间。因此，AI 平台工程师必须想办法创建并行化的数据工作流，实现数据的高效共享和中间结果的有效存储。

模型训练上的挑战——受制于 I/O 且 GPU 利用率低
模型训练需要处理数百万亿字节的数据，但通常是图像和音频文件等海量小文件。模型训练需要多次运行 epoch 来进行迭代，因此会频繁地访问数据。此外, 还需要通过不断向 GPU 供给数据来让 GPU 处于忙碌状态。既要优化 I/O 又要保持 GPU 所需的吞吐量并非易事。

传统方案和常见误区

在讨论不同的解决方案之前，我们先来看一个简化的场景，如下图所示：

我们在云上使用一个多节点的 GPU 集群，并把 TensorFlow 作为机器学习框架来进行模型训练。预处理的数据存储在亚马逊 S3 中。一般来说，让训练集群获取这些数据有两种方案，我们接下来会分别讨论：

方案 1：把数据拷贝到本地存储
第一种方案如下图所示，将远端存储中的完整训练数据集拷贝到每个用于训练的服务器的本地存储中。这样可保证数据的本地性，训练作业实际上是从本地读取数据，而非远程访问数据。

从数据工作流和 I/O 的角度来看，由于所有数据都在本地，因此该方案能够达到最大的 I/O 吞吐量。除了一开始训练必须等待数据完全从对象存储拷贝到训练集群外，GPU 会始终处于忙碌状态。

尽管如此，该方案并不适合所有情况。

首先，数据集的大小必须匹配本地存储的总容量。随着输入数据集的增大，数据拷贝耗时越来越长且更容易出错，与此同时也造成了 GPU 资源的浪费。
其次，将大量的数据拷贝到每台训练机上，会给存储系统和网络带来巨大的压力。在输入数据经常变化的情况下，数据同步可能会非常复杂。
最后，手动拷贝数据既费时又容易出错，因为要保持云存储上的数据与训练数据同步非常困难。

方案 2：直接访问云存储

另一种常见的方案如下图所示，让训练作业直接远程访问云存储上的目标数据集。如果采用该方案，数据集的大小就不再成为限制，但也面临着几个新的挑战：

首先，从 I/O 和工作流的角度来看，数据是串行处理的，所有的数据访问操作都必须通过对象存储和训练集群之间的网络，这使得 I/O 成为性能瓶颈。由于 I/O 操作的吞吐量受限于网络速度，GPU 会出现空转等待的情况。

其次，当训练规模较大时，所有训练节点需要同时访问同一个云存储中的同一个数据集，会对云存储系统造成巨大的负载压力。此时由于高并发访问，云存储很可能会出现拥塞，导致 GPU 利用率低。

最后，如果数据集由海量小文件组成，元数据访问请求将占到数据请求的很大一部分。因此，直接从对象存储获取大量文件或目录的元数据操作将成为性能瓶颈，同时也会增加元数据操作成本。