Azure Native Qumulo ahora disponible en la UE, el Reino Unido y Canadá: Más información

Qumulo: la solución de archivos basada en la nube más rápida de la industria para cargas de trabajo de IA

Escrito por:

El mundo de la inteligencia artificial (IA) ha experimentado un crecimiento exponencial y tiene un hambre insaciable de consumir datos. Desde vehículos autónomos hasta chatbots que imitan la conversación humana, la IA está revolucionando las industrias a un ritmo vertiginoso. El poder de la IA se deriva de su columna vertebral de datos. El acceso a los datos, la velocidad de su procesamiento y el rendimiento del almacenamiento escalable son factores fundamentales que determinan la eficiencia de un canal de IA. Aquí es donde Qumulo ha demostrado ser la mejor solución de almacenamiento de datos del planeta para cargas de trabajo de IA, como la solución de datos de archivos en la nube de mayor rendimiento y más rentable de la industria.

Por qué Qumulo es ideal para cargas de trabajo de IA basadas en archivos

Las aplicaciones de IA, ya sean modelos de aprendizaje profundo o redes neuronales, requieren un conjunto único de características de almacenamiento, todas las cuales son satisfechas por Qumulo:

  1. Escalabilidad: Los conjuntos de datos de IA son dinámicos. Crecen con el tiempo a medida que se recopilan y procesan más datos. La capacidad de Qumulo para escalar con un alto rendimiento predecible garantiza que a medida que crezcan las cargas de trabajo de IA, Qumulo pueda satisfacer sus demandas a cualquier escala.
  2. Rentabilidad: Financiar iniciativas de IA puede ser una inversión importante. Ahorrar en costos de almacenamiento sin comprometer el rendimiento puede liberar recursos para otras áreas críticas, ya sea investigación, desarrollo o implementaciones de producción.
  3. Capacidad de escalar en cualquier lugarTM: Los propietarios de infraestructuras y los científicos de datos se benefician de la flexibilidad de la capacitación en un lugar, pero la implementación en otro, con una infraestructura altamente segura. El sistema de almacenamiento definido por software de Qumulo se puede implementar y ejecutar en cualquier lugar. Esto facilita entrenar un modelo de IA en el centro de datos central, pero llevarlo a producción en cualquier lugar.
  4. Actuación: Los modelos de IA, especialmente aquellos utilizados en escenarios como vehículos autónomos o transacciones financieras, necesitan acceso a datos en tiempo real para el entrenamiento previo y posterior al modelo. La recuperación de datos de alta velocidad de Qumulo garantiza que los datos estén disponibles en el momento en que se requiere.

Profundicemos en el punto 4 y subrayemos la importancia de una recuperación de datos/metadatos fluida y ultrarrápida. Esto es vital para las aplicaciones de IA que requieren almacenamiento de archivos escalable, ya sea local o en la nube.

Al probar cargas de trabajo de IA sintética, descubrimos que, de hecho, somos la solución en la nube basada en archivos más rápida del mercado para IA, donde los científicos de datos pueden usar Qumulo para la recopilación de datos, la capacitación previa, la capacitación en producción y la inferencia continua, sin importar la escala. .

Leyendo.

Punto de referencia de IA ampliamente aplicable

Para poner en perspectiva las capacidades de rendimiento de Qumulo, profundicemos en el último resultado logrado con Qumulo ejecutándose en la nube en la infraestructura de AWS. Usamos SPECstorage para caracterizar el rendimiento de la IA en Qumulo. Este punto de referencia (acertadamente llamado AI_Image) aprovecha los tamaños de archivos y los patrones de E/S que ejercitan de forma sintética y precisa cargas de trabajo comunes de IA:

  • Basado en Tensorflow y las mejores prácticas – el marco de IA/ML más implementado del mundo
  • Trazado a partir de 3 modelos diferentes: Resnet, VGG (Visual Geometry Group) y SSD (detector de disparo único)
  • Uso de conjuntos de datos de código abierto de CityScape, ImageNet y COCO

Debido a la ubicuidad de Tensorflow en el espacio de la IA, el punto de referencia se aplica a una amplia gama de cargas de trabajo de modelos de IA que producen resultados de IA para:

  1. Clasificación de imágenes y detección de objetos
  2. Procesamiento del lenguaje natural (PNL)
  3. Reconocimiento de voz
  4. Sistemas de recomendación
  5. Modelos generativos
  6. Salud y ciencias de la vida

…y muchos más

Descripción del punto de referencia y resultados obtenidos

El objetivo del punto de referencia es entregar datos rápidamente desde el almacenamiento Qumulo a la capa de aplicación (usando GPU) que ejecuta los trabajos de IA. El punto de referencia prueba el rendimiento del almacenamiento y la latencia a partir de un conjunto realista de patrones de E/S de un lote de clientes. Los clientes aumentan progresivamente su número de trabajos de IA hasta alcanzar el objetivo, que en el caso de esta prueba es un total de 480 trabajos. Hay cuatro operaciones principales en el punto de referencia, con 4 subcargas de trabajo simultáneas e independientes:

  • AI_SF – Lecturas de archivos de imágenes pequeños
  • AI_TF: escribe archivos más grandes (idealmente archivos de más de 100 MB)
  • AI_TR: lee en TFRecords grandes
  • AI_CP: realiza puntos de control ocasionales

Resultados

La figura 1 a continuación muestra los siguientes resultados:

  • El eje X muestra la cantidad de trabajos que ejecutan el punto de referencia de IA a lo largo del tiempo
  • El eje Y muestra la latencia general durante la duración de la prueba.
  • ¡La latencia muestra que el rendimiento del almacenamiento es rápido y predecible a medida que aumenta la cantidad de trabajos de IA!

Qumulo es el almacenamiento más rápido para IA en la nube

** Comparación basada en sistemas de mejor rendimiento en nubes públicas publicada en www.spec.org a octubre de 2023. SPEC® y el nombre de referencia SPECgeneric® son marcas comerciales registradas de Standard Performance Assessment Corporation. Para obtener más información sobre SPECstorage2020, consulte https://www.spec.org/storage2020/.

Aplicabilidad local

Si bien las pruebas comparativas de SPECstorage utilizaron un entorno basado en la nube, estos resultados se pueden extrapolar fácilmente para estimar resultados utilizando hardware local similar. Cuando Qumulo publique este punto de referencia en el sitio web de SPEC (ETA diciembre/2023), se podrán encontrar los detalles y el costo del entorno, observando los tipos de instancias EC2 (número de núcleos, memoria disponible, etc.) utilizados y el ancho de banda disponible en la red. ambiente. Mientras tanto, incluimos detalles adicionales en el apéndice de este blog para lectores curiosos.

Científicos de datos e ingenieros de datos, he aquí. ¡Inténtalo tú mismo!

En el mundo de la IA, que avanza rápidamente, tener una solución de almacenamiento sólida, rápida y escalable no es un lujo sino una necesidad. Qumulo, con su rendimiento y rentabilidad líderes en la industria, se destaca como la solución de archivos basada en la nube para cargas de trabajo de IA. El punto de referencia no solo subraya la destreza de Qumulo, sino que también consolida su posición como la solución de almacenamiento para IA más rápida y de mayor aplicación.

See resultados completos publicado en Spec.org




Apéndice


Rendimiento

Tiempo de respuesta total = 1.22 ms

Empresa
Métricos
(AI_Trabajos)
Normal
Estado latente
(mseg)
AI_Trabajos
Operaciones/Seg.
AI_Trabajos
MB/seg
16 1.360 6960 1565
32 1.281 13921 3127
48 1.313 20882 4691
64 1.213 27843 6255
80 1.201 34804 7822
96 1.147 41765 9385
112 1.158 48726 10950
128 1.123 55687 12514
144 1.122 62648 14082
160 1.109 69609 15644
176 1.144 76570 17208
192 1.117 83530 18774
208 1.112 90491 20340
224 1.112 97452 21899
240 1.121 104413 23470
256 1.271 111374 25037
272 1.143 118335 26598
288 1.155 125296 28161
304 1.197 132257 29729
320 1.205 139218 31289
336 1.257 146178 32859
352 1.323 153139 34418
368 1.430 160100 35984
384 1.503 167061 37552
400 1.632 174022 39112

Información de producto y prueba

Qumulo – Referencia de nube pública
Probado por Qumulo, Inc.
Hardware disponible Noviembre 2023
Software disponible Noviembre 2023
Fecha de prueba Noviembre 2023
Número de licencia 6738
Ubicaciones del licenciatario Seattle, WA EE. UU.

Qumulo es una solución híbrida de almacenamiento de archivos en la nube que cuenta con una escalabilidad superior a exabytes en un único espacio de nombres, características idénticas ya sea localmente o en la nube y soporte multiprotocolo completo, lo que garantiza flexibilidad y compatibilidad entre diversas aplicaciones. Al integrarse perfectamente con la infraestructura de la nube pública, Qumulo ofrece almacenamiento de datos no estructurados a cualquier escala, con visibilidad en tiempo real del rendimiento del almacenamiento y el uso de datos.

El sistema de archivos nativo de la nube de Qumulo permite a las organizaciones migrar sin problemas aplicaciones y cargas de trabajo basadas en archivos al entorno de la nube pública. Con Qumulo, las empresas pueden gestionar de manera eficiente exabytes de datos, ya sea localmente o en la nube. Los siguientes hallazgos demuestran claramente que el sistema de archivos Qumulo destaca por ofrecer un rendimiento excepcional cuando se implementa en AWS.

Solución bajo prueba Lista de materiales

Artículo No Cantidad Tipo de Propiedad Proveedor Nombre del modelo Descripción
1 16 Instancias AWS EC2 AWS c5n.18xgrande Nodos Qumulo: instancias Amazon c5n EC2 (las instancias c5n.18xlarge tienen 72 vCPU, 192 GiB de memoria y red de 100 Gbps)
2 16 Instancias AWS EC2 AWS c5n.18xgrande Clientes Ubuntu – Clúster Qumulo – Instancias Amazon c5n EC2 (las instancias c5n.18xlarge tienen 72 vCPU, 192 GiB de memoria, red de 100 Gbps)

Diagramas de configuración

Qumulo en AWS

Qumulo en AWS

software componente

Artículo No Componente Tipo de Propiedad Nombre y versión Descripción
1 Qumulo Core Sistema de archivos 6.2.2 El sistema de archivos nativo de la nube de Qumulo permite a las organizaciones mover sin esfuerzo aplicaciones y cargas de trabajo basadas en archivos a la nube pública.
2 Ubuntu Sistema operativo 22.04 El sistema operativo Ubuntu se implementa en los dieciséis nodos informáticos c5n.18xlarge. Se utilizan como clientes que ejecutan los puntos de referencia de SPEC Storage 2020.

Configuración y ajuste de hardware: físico

Nombre del componente
Nombre del parámetro Valor Descripción
SR-IOV implante Habilita la tecnología de virtualización de CPU.
Velocidad del puerto 100 GbE Cada nodo tiene conectividad de 100 GbE

Notas de configuración y ajuste de hardware

Ninguna

Configuración y ajuste del software: virtual

Networking
Nombre del parámetro Valor Descripción
Tramas gigantes 9001 Permite tramas gigantes Ethernet de hasta 9001 bytes
Parámetros de montaje NFS de clientes Ubuntu
Nombre del parámetro Valor Descripción
a 3 Utilice NFSv3
desconectar 16 Aumentar el número de conexiones de clientes NFS hasta 16
tcp Protocolo de transporte de red TCP para comunicarse con el clúster Qumulo
bloqueo_local todos El cliente asume que tanto los bloqueos Flock como POSIX son locales.
Parámetro de volumen de EBS
Nombre del parámetro Valor Descripción
IOPS 16000 IOPS máx. para volumen de EBS
rendimiento 1000 Rendimiento máximo para el volumen de EBS

Notas de configuración y ajuste del software

Ninguna

Notas del SLA de servicio

AWS realiza esfuerzos comercialmente razonables para que los Productos y Servicios incluidos estén disponibles con un porcentaje de tiempo de actividad mensual de al menos el 99.99 %, en cada caso durante cualquier ciclo de facturación mensual. El Porcentaje de Tiempo de Actividad Mensual se calcula restando del 100% el porcentaje de minutos durante el mes en el que cualquiera de los Productos y Servicios Incluidos, según corresponda, estuvo en el estado de “Región No Disponible”.

Almacenamiento y sistemas de archivos

Artículo No Descripción Protección de Datos Almacenamiento estable Cantidad
1 Volumen de Elastic Block Storage, capacidad de 1TB gp3. Cada nodo Qumulo tiene 6 volúmenes EBS. Protección de 2 unidades o 1 nodo con codificación de borrado EBS de AWS 96
Número de sistemas de archivos 1
Capacidad total 78.54 TB
Tipo de sistema de archivos Qumulo

Notas de creación del sistema de archivos

El sistema de archivos Qumulo Core se implementa en AWS a través de una plantilla de formación de nubes o Terraform. Se implementa la AMI de Qumulo Core y el sistema de archivos se configura como parte del proceso automatizado de formación de la nube o mediante Terraform. No se requieren pasos adicionales para la creación del sistema de archivos.

Notas sobre almacenamiento y sistema de archivos

Ninguna

Configuración de transporte – Virtual

Artículo No Tipo de transporte Número de puertos utilizados Notas
1 NIC virtual Ethernet de 100 Gbps 16 Utilizado por máquinas cliente
2 NIC virtual Ethernet de 100 Gbps 16 Utilizado por Qumulo Core para comunicaciones entre nodos, así como para comunicaciones con cualquier cliente.

Notas de configuración de transporte

Ninguna

Conmutadores – Virtuales

Artículo No Cambiar nombre Tipo de interruptor Recuento total de puertos Recuento de puertos usados Notas
1 AWS Ethernet de 100 Gbps con redes mejoradas 16 16 Utilizado por máquinas cliente
2 AWS Ethernet de 100 Gbps con redes mejoradas 16 16 Utilizado por los nodos de Qumulo Core

Elementos de procesamiento – Virtuales

Artículo No Cantidad Tipo de Propiedad Ubicación Descripción Función de procesamiento
1 1152 CPU virtual c5n.18xlarge Núcleo Qumulo Procesadores Intel Xeon Platinum de 3.5 GHz Qumulo Core, Comunicación de red, Funciones de almacenamiento
2 1152 CPU virtual c5n.18xlarge Núcleo Qumulo Procesadores Intel Xeon Platinum de 3.5 GHz Procesadores de referencia de cliente de almacenamiento de especificaciones

Notas sobre elementos de procesamiento

Ninguna

Memoria – Virtual

Descripción Tamaño en GiB Numero de instancias No volátil GB totales
Memoria de instancia AWS EC2 c5n.18xlarge 192 16 V 3072
Memoria de instancia AWS EC2 c5n.18xlarge 192 16 V 3072
Gran total de gibibytes de memoria 6144

Notas de memoria

Ninguna

Almacenamiento estable

Qumulo Core utiliza dispositivos Elastic Block Storage (EBS); que proporcionan un almacenamiento estable.

Notas de configuración de la solución en prueba

La solución bajo prueba fue un clúster distribuido estándar creado utilizando Qumulo Core. Los clústeres de Qumulo Core pueden manejar E/S de archivos grandes y pequeños junto con aplicaciones con uso intensivo de metadatos. No se requiere ningún ajuste especializado para cargas de trabajo diferentes o de uso mixto.

Artículos Relacionados

Ir al Inicio