Coautores: Bryan Berezdivin y Marcos Seoane
Las empresas de todos los sectores se apresuran a adoptar IA generativa y modelos básicos (MB). Incluso con inversiones masivas en infraestructura acelerada, persiste un desafío: los datos y la capacidad de cómputo rara vez coinciden. Los modelos básicos modernos exigen una escala sin precedentes. El entrenamiento de un MB puede requerir miles de instancias aceleradas por GPU ejecutándose durante días o semanas, consumiendo conjuntos de datos que van desde cientos de terabytes para modelos de lenguaje hasta decenas de petabytes para sistemas multimodales que combinan texto, imágenes y vídeo. Estos conjuntos de datos no son estáticos y evolucionan continuamente a medida que las organizaciones reentrenan y ajustan los modelos para capturar nuevos casos límite, comentarios de los usuarios o datos específicos del dominio.
La realidad para la mayoría de las grandes empresas es que sus datos residen en centros de datos locales y en múltiples nubes. Esta desconexión entre la ubicación de los datos y la disponibilidad de computación acelerada se ha convertido en uno de los mayores obstáculos para escalar la inteligencia artificial (IA). Mover conjuntos de datos de petabytes entre regiones o nubes añade sobrecarga operativa, costes, latencia y complejidad de gobernanza, lo que repercute directamente en el tiempo de entrenamiento y el retorno de la inversión (ROI). Una arquitectura de datos unificada y adaptada a la ubicación resuelve este problema. La plataforma de datos unificada de Qumulo garantiza la coherencia global, el acceso universal y el acceso de baja latencia en topologías multirregionales o híbridas, lo que permite un nuevo paradigma de arquitectura de datos que se alinea con las modernas entornos de IA.
En esta publicación, describimos los elementos arquitectónicos de una plataforma de datos unificada, capaz de soportar cargas de trabajo de IA a gran escala, como el entrenamiento de modelos básicos. También mostramos cómo HiperPod de Amazon SageMaker, Emparejado con Qumulo nativo de la nube (CNQ)SageMaker HyperPod proporciona un entorno integral para el entrenamiento distribuido de IA/ML. Ofrece orquestación y escalado resilientes de clústeres de GPU, mientras que CNQ con Cloud Data Fabric (CDF) garantiza el acceso a los datos con baja latencia en distintas regiones o sitios. Ilustramos arquitecturas de referencia verificadas que combinan SageMaker HyperPod con CNQ en implementaciones de una sola región (véase la figura 1) y de varias regiones (véase la figura 2), junto con detalles de integración para Qumulo y SageMaker HyperPod.
Al combinar Qumulo con SageMaker HyperPod (y otras herramientas de IA en la nube o locales), las organizaciones pueden:
- Acelerar el tiempo para obtener resultados antes y después del entrenamiento en más del 25 %.
- Implemente cargas de trabajo de IA en sus datos geodistribuidos y supere la escasez de computación acelerada.
- Reduzca la sobrecarga operativa del bucle de datos de IA con orquestación cero.
- Unificar las políticas de gobernanza y seguridad de datos en todos los entornos.
Una plataforma de datos unificada para el entrenamiento de modelos básicos
A continuación se presentan los elementos clave para el entrenamiento del modelo base de soporte utilizando datos locales o datos distribuidos geográficamente:
- Acceso de alto rendimiento y baja latencia a datos para la utilización sostenida de la GPU de forma local y remota.
- Escalabilidad elástica para manejar conjuntos de datos de varios petabytes y clústeres de computación de tamaño dinámico.
- Soporte multiprotocolo para proporcionar bibliotecas basadas en archivos óptimas como PyTorch
- Visibilidad y gobernanza globales para cumplir con los requisitos de residencia y cumplimiento de datos.
Qumulo ofrece cada una de estas funciones con su arquitectura única de ejecución en cualquier entorno, que permite que sus características únicas se implementen en cualquier combinación de recursos de cómputo, memoria y almacenamiento. Esto permite que la plataforma de datos opere con costos y rendimiento óptimos en la nube (AWS, Azure, GCP y OCI), así como en cualquier hardware de servidor local, incluyendo los de HPE, Cisco, Penguin y otros. Esta es la base de una plataforma unificada, pero igual de importante es la compatibilidad multiprotocolo de Qumulo para que las aplicaciones accedan a los datos y los gestionen en estas ubicaciones. Esto facilita la integración en todo el ecosistema de aplicaciones empresariales, incluyendo diversas cadenas de herramientas de desarrollo de IA como PyTorch, TensorFlow y JAX. También es clave para una fácil integración con Amazon SageMaker Hyperpod.
Garantizar un alto rendimiento es clave en las costosas carreras de entrenamiento, donde Qumulo NeuralCache La funcionalidad ofrece un rendimiento óptimo en arquitecturas de datos locales y geodistribuidas. Por ejemplo, la latencia promedio fue inferior a un milisegundo para el entrenamiento de llama-3.1-8B utilizando varias instancias AWS P5e EC2 (cada una con 8 GPU Nvidia H200 Tensor Core). Recopilamos datos de rendimiento adicionales que se publicarán por separado para implementaciones tanto en una sola región como en varias regiones.
Para los equipos de IA, el desarrollo de modelos requiere múltiples ejecuciones de entrenamiento, que suelen utilizar datos externos con recursos de computación acelerada. Un ejemplo de esto es la necesidad de ejecutar un entrenamiento en la región 1, pero que se retrasa días o incluso semanas debido a la escasez de GPU. El enfoque de "hágalo usted mismo" (DIY) implica cientos de pipelines para preparar cada conjunto de datos preseleccionado para las ejecuciones de entrenamiento y validación en un centro de computación acelerada. Esto conlleva retrasos en el entrenamiento, proliferación de datos, falta de consistencia entre los conjuntos de datos y problemas de gobernanza. Un enfoque alternativo consiste en utilizar una plataforma de datos unificada que mueva los datos bajo demanda para garantizar el rendimiento, la rentabilidad y la consistencia entre los centros. Tejido de datos en la nube (CDF)Qumulo proporciona una plataforma de datos con reconocimiento de localidad. CDF extiende eficazmente un directorio/prefijo de un «centro» a uno o varios «nodos satélite». Los nodos satélite son totalmente coherentes y utilizan el reconocimiento de localidad y el conjunto de modelos de Neural Cache para decidir qué datos precargar para cada carga de trabajo. Como resultado, CDF permite que los nodos satélite ofrezcan a las aplicaciones un rendimiento local. En las figuras 1 y 2 se ilustra una arquitectura verificada con SageMaker HyperPod y Qumulo.
Se trata, en efecto, de un nuevo paradigma de datos para los equipos de IA que reducirá el tiempo de desarrollo de los ingenieros y aumentará el rendimiento de los nuevos modelos gracias a un ciclo de datos optimizado sin orquestación. El modelado de costes muestra que el uso de este enfoque puede reducir el coste total de propiedad (TCO) en más de un 30 %. Para lograr estos objetivos, a continuación se describen las características clave de una plataforma de datos unificada con Qumulo:
Acceso a datos elástico y de alto rendimiento para computación acelerada
- Escala desde De 1 GB/s a 1 TB/s rendimiento con latencia inferior a un milisegundo, como se muestra en Pruebas comparativas de imágenes con IA.
- Mantenga las GPU totalmente utilizadas eliminando las interrupciones de E/S durante la carga de datos, el particionamiento, la creación de puntos de control o el ajuste fino.
- Adáptese automáticamente a cada carga de trabajo de entrenamiento utilizando el almacenamiento en caché y la precarga impulsados por IA de NeuralCache™ de forma local y remota.
Estructura de datos unificada para la movilidad de cargas de trabajo
- Latencias optimizadas en los nodos remotos mediante el almacenamiento en caché impulsado por IA NeuralCache™ y la precarga sin problemas desde los clústeres Qumulo centrales hacia/desde múltiples clústeres Qumulo remotos.
- Comprime, elimina duplicados y optimiza las transferencias de datos para WAN para reducir los datos transferidos en >30% en comparación con las copias manuales.
- Aplique datos coherentes en todos los entornos con metadatos compartidos, como la información de versión.
Flexibilidad multiprotocolo
- Soporte nativo para S3, NFS, SMB, REST y SFTP Elimina la necesidad de refactorización, rediseño o copias redundantes.
- Los científicos de datos, ingenieros y equipos de simulación pueden acceder a los mismos conjuntos de datos con sus herramientas preferidas.
- Reduce la sobrecarga de orquestación de datos hasta 4 veces en comparación con el almacenamiento aislado tradicional.
SageMaker HyperPod con Qumulo
Para demostrarlo, Qumulo verificó un flujo de trabajo común basado en un modelo fundamental utilizando HiperPod SageMaker Se implementa tanto en la misma región que los datos de entrenamiento como en una región distinta. El resultado es un entrenamiento global del modelo sin duplicación ni orquestación de datos, manteniendo la coherencia y reduciendo el coste total de propiedad. Un detalle clave es que, en la mayoría de los proyectos de desarrollo de modelos de IA, solo se utiliza el 30 % de los datos etiquetados por ejecución de entrenamiento, con una superposición significativa entre la primera y las siguientes ejecuciones. Esto se traduce en un mayor retorno de la inversión (ROI) en comparación con la replicación del conjunto de datos en cada ejecución, un escenario común para la mayoría de los equipos en sus esfuerzos de orquestación. Aún más importante para mejorar el ROI es que muchos equipos han creado catálogos de datos complejos para evitar redundancias, algo que ya no es necesario crear, mantener ni actualizar al utilizar Qumulo CDF.
SageMaker HyperPod con Qumulo: conjunto de datos de una sola región
En esta implementación, CNQ se desplegó con los datos de entrenamiento en la misma región que SageMaker HyperPod. CNQ se implementó en una única zona de disponibilidad, sin ubicarse en el mismo servidor que los nodos EC2 de P5e. La arquitectura se muestra en la Figura 1.
SageMaker HyperPod con Qumulo: conjunto de datos multirregional
En esta implementación, CNQ se implementó en la región 2 como nodo central y en la región 1 como nodo periférico. CDF distribuiría de forma óptima los datos hacia y desde la carpeta del nodo periférico de CNQ. Esto permite que solo se distribuyan al nodo periférico los datos necesarios para el entrenamiento.
SageMaker HyperPod con Qumulo: opción híbrida o multi-nube
Muchas empresas ya operan clústeres de GPU en un entorno mientras que sus conjuntos de datos permanecen en otro. Cloud Data Fabric de Qumulo permite topologías híbridas o multicloud sin interrupciones y sin necesidad de orquestación.
- De lo local a la nube: Entrene en SageMaker HyperPod o Azure AI Foundry utilizando clústeres Qumulo locales como fuente de datos autorizada. Esto se ilustra en la Figura 2.
- Multicloud: Utilice instancias de Qumulo en AWS, Azure y GCP con controles unificados de espacio de nombres y políticas.
- Del borde al núcleo: Recopilar, organizar y entrenar con datos generados en el borde, sin trabajos de replicación complejos.
Integración de Qumulo con SageMaker HyperPod
A continuación, proporcionamos una receta verificada para la implementación en una sola región utilizando Cloud Native Qumulo (CNQ) en el mercado de AWS Para integrarse con SageMaker Hyperpod. En esta receta, CNQ admite los datos de entrenamiento y los puntos de control, además de usar el controlador NFS CSI para habilitar implementaciones dinámicas de contenedores en SageMaker Hyperpod.
Para reproducir una configuración validada, describimos los siguientes pasos;
Paso 1: Aprovisionar Amazon EKS y el clúster HyperPod
Seguimos el Guía de configuración de EKS y HyperPod Implementar un clúster EKS e integrar SageMaker HyperPod.
# Create EKS Cluster with managed node groups
eksctl create cluster \
--name hyperpod-eks \
--version 1.29 \
--region us-west-2 \
--nodegroup-name workers \
--node-type P5.4xlarge \
--nodes 2 \
--nodes-min 2 \
--nodes-max 8
# Confirm nodes are ready
kubectl get nodes
Paso 2: Implementar el clúster de Qumulo mediante Terraform
Implementar Cloud Native Qumulo (CNQ) en AWS con Terraform implica configurar una plataforma de datos de archivos totalmente elástica que aprovecha AWS S3 para el almacenamiento persistente e instancias EC2 para recursos de cómputo y caché. El proceso de implementación sigue el marco de buenas prácticas de AWS, lo que garantiza la escalabilidad, la seguridad y la eficiencia operativa. Antes de comenzar, el entorno debe cumplir varios requisitos previos, como los permisos de IAM adecuados, la conectividad a internet saliente hacia los puntos de conexión de Qumulo y la configuración de una puerta de enlace VPC de S3, si se utiliza. El paquete de implementación de Terraform proporciona plantillas modulares que automatizan el aprovisionamiento de todos los recursos de AWS necesarios.
El despliegue se realiza en dos fases principales. Primero, se establece el almacenamiento persistente mediante la creación de los buckets de S3 que contendrán los datos de Qumulo, utilizando configuraciones de Terraform. Una vez creado el almacenamiento, en la segunda fase se despliegan las instancias EC2 que alojan Qumulo Core. Terraform gestiona automáticamente la coherencia de la configuración, las convenciones de nomenclatura y la administración de dependencias, etiquetando todos los recursos con un identificador de despliegue único para evitar conflictos entre clústeres.
Tras la implementación, las tareas posteriores incluyen validar la configuración del clúster, confirmar el aprovisionamiento correcto mediante AWS Systems Manager y, opcionalmente, configurar la resolución DNS con Qumulo Authoritative DNS. El resultado es un clúster Qumulo nativo de la nube y totalmente operativo, capaz de gestionar datos a escala de petabytes con la elasticidad necesaria. acceso multiprotocolo para preguntas de Acceso a S3, NFS, SMB, FTP y RestAPI y las ventajas de integración de AWS.
Siga las Guía para implementar CNQ en AWS usando Terraform para los pasos detallados.
Paso 3: Crear usuario de Qumulo y exportar por NFS
Usando el Herramienta GUI de Qumulo (accesible a través de un navegador HTTP):
- Se ha añadido un nuevo usuario y permisos.
- Cree una ruta de exportación NFS /ai-factory-data.
Referencia: Cómo crear una exportación NFS.
Paso 4: Instalar el controlador CSI y configurar los PVC
Para conectar las cargas de trabajo de Kubernetes a Qumulo, instalamos el controlador CSI y definimos los PVC.
# Install Qumulo CSI Driver
helm repo add csi-driver-nfs https://raw.githubusercontent.com/kubernetes-csi/csi-driver-nfs/master/charts
helm install csi-driver-nfs csi-driver-nfs/csi-driver-nfs --namespace kube-system --version 4.12.0
# Example PV configuration
apiVersion: v1
kind: PersistentVolume
metadata:
name: pv-qumulo-static
spec:
capacity:
storage: 50Ti
accessModes:
- ReadWriteMany
persistentVolumeReclaimPolicy: Retain
storageClassName: ""
mountOptions:
- vers=3
- proto=tcp
- nolock
csi:
driver: nfs.csi.k8s.io
# Unique ID for this directory/volume; use a stable path-based handle volumeHandle: qumulo-nfs-root
volumeAttributes:
server: qumulo.qumulo-hub.com
share: "/csi"
# Example PVC configuration
apiVersion: v1
kind: PersistentVolumeClaim
metadata:
name: pvc-qumulo-static
spec:
accessModes:
- ReadWriteMany
resources:
requests:
storage: 50Ti
storageClassName: ""
volumeName: pv-qumulo-static
Referencia: Conexión de Kubernetes con CSI Driver.
Paso 5: Ejecutar la carga de trabajo
Hemos desplegado un modelo llama 2 usando FSDP de PyTorch en Kubernetes.
# Launch distributed Llama 2 job with FSDP
kubectl create -f llama2-fsdp-job.yaml
La configuración siguió el ejemplo de AWS: Ejemplo de Llama 2 FSDP.
Esta configuración está lista para producción, validada para operaciones tanto en una sola región como en varias regiones, y constituye el modelo para fábricas de IA híbridas y multi-nube.
Conclusión
A medida que las empresas amplían sus horizontes de IA, la capacidad de entrenar donde hay capacidad de cómputo disponible, sin necesidad de trasladarse al lugar donde residen los datos, mejora la eficiencia operativa y reduce el tiempo de obtención de resultados para las distintas áreas de negocio. Qumulo, disponible en las instalaciones, en la nube y en el edge, permite lograrlo de la forma más rentable, con el rendimiento y la simplicidad necesarios para el desarrollo de modelos básicos. Al integrar Qumulo con SageMaker HyperPod (y otros frameworks de desarrollo de IA en la nube o en las instalaciones), las organizaciones pueden:
- Acelerar el tiempo para obtener resultados antes y después del entrenamiento en más del 25 %.
- Implemente cargas de trabajo de IA en sus datos geodistribuidos y supere la escasez de computación acelerada.
- Reduzca la sobrecarga operativa del bucle de datos de IA con orquestación cero.
- Unificar las políticas de gobernanza y seguridad de datos en todos los entornos.
Ya sea que sus GPU se ejecuten en AWS, Azure, GCP o en sus propias instalaciones, Qumulo permite una estrategia de IA para entrenar y administrar desde cualquier lugar.
Más información en qumulo.com/ai


