Qumulo: la solución de archivos basada en la nube más rápida de la industria para cargas de trabajo de IA

24 de Octubre de 2023

Escrito por:

ryan farris

El mundo de la inteligencia artificial (IA) ha experimentado un crecimiento exponencial y tiene un hambre insaciable de consumir datos. Desde vehículos autónomos hasta chatbots que imitan la conversación humana, la IA está revolucionando las industrias a un ritmo vertiginoso. El poder de la IA se deriva de su columna vertebral de datos. El acceso a los datos, la velocidad de su procesamiento y el rendimiento del almacenamiento escalable son factores fundamentales que determinan la eficiencia de un canal de IA. Aquí es donde Qumulo ha demostrado ser la mejor solución de almacenamiento de datos del planeta para cargas de trabajo de IA, como la solución de datos de archivos en la nube de mayor rendimiento y más rentable de la industria.

Por qué Qumulo es ideal para cargas de trabajo de IA basadas en archivos

Las aplicaciones de IA, ya sean modelos de aprendizaje profundo o redes neuronales, requieren un conjunto único de características de almacenamiento, todas las cuales son satisfechas por Qumulo:

Escalabilidad: Los conjuntos de datos de IA son dinámicos. Crecen con el tiempo a medida que se recopilan y procesan más datos. La capacidad de Qumulo para escalar con un alto rendimiento predecible garantiza que a medida que crezcan las cargas de trabajo de IA, Qumulo pueda satisfacer sus demandas a cualquier escala.
Rentabilidad: Financiar iniciativas de IA puede ser una inversión importante. Ahorrar en costos de almacenamiento sin comprometer el rendimiento puede liberar recursos para otras áreas críticas, ya sea investigación, desarrollo o implementaciones de producción.
Capacidad de escalar en cualquier lugar^TM: Los propietarios de infraestructuras y los científicos de datos se benefician de la flexibilidad de la capacitación en un lugar, pero la implementación en otro, con una infraestructura altamente segura. El sistema de almacenamiento definido por software de Qumulo se puede implementar y ejecutar en cualquier lugar. Esto facilita entrenar un modelo de IA en el centro de datos central, pero llevarlo a producción en cualquier lugar.
Actuación: Los modelos de IA, especialmente aquellos utilizados en escenarios como vehículos autónomos o transacciones financieras, necesitan acceso a datos en tiempo real para el entrenamiento previo y posterior al modelo. La recuperación de datos de alta velocidad de Qumulo garantiza que los datos estén disponibles en el momento en que se requiere.

Profundicemos en el punto 4 y subrayemos la importancia de una recuperación de datos/metadatos fluida y ultrarrápida. Esto es vital para las aplicaciones de IA que requieren almacenamiento de archivos escalable, ya sea local o en la nube.

Al probar cargas de trabajo de IA sintética, descubrimos que, de hecho, somos la solución en la nube basada en archivos más rápida del mercado para IA, donde los científicos de datos pueden usar Qumulo para la recopilación de datos, la capacitación previa, la capacitación en producción y la inferencia continua, sin importar la escala. .

Leyendo.

Punto de referencia de IA ampliamente aplicable

Para poner en perspectiva las capacidades de rendimiento de Qumulo, profundicemos en el último resultado logrado con Qumulo ejecutándose en la nube en la infraestructura de AWS. Usamos SPECstorage para caracterizar el rendimiento de la IA en Qumulo. Este punto de referencia (acertadamente llamado AI_Image) aprovecha los tamaños de archivos y los patrones de E/S que ejercitan de forma sintética y precisa cargas de trabajo comunes de IA:

Basado en Tensorflow y las mejores prácticas – el marco de IA/ML más implementado del mundo
Trazado a partir de 3 modelos diferentes: Resnet, VGG (Visual Geometry Group) y SSD (detector de disparo único)
Uso de conjuntos de datos de código abierto de CityScape, ImageNet y COCO

Debido a la ubicuidad de Tensorflow en el espacio de la IA, el punto de referencia se aplica a una amplia gama de cargas de trabajo de modelos de IA que producen resultados de IA para:

Clasificación de imágenes y detección de objetos
Procesamiento del lenguaje natural (PNL)
Reconocimiento de voz
Sistemas de recomendación
Modelos generativos
Salud y ciencias de la vida

…y muchos más

Descripción del punto de referencia y resultados obtenidos

El objetivo del punto de referencia es entregar datos rápidamente desde el almacenamiento Qumulo a la capa de aplicación (usando GPU) que ejecuta los trabajos de IA. El punto de referencia prueba el rendimiento del almacenamiento y la latencia a partir de un conjunto realista de patrones de E/S de un lote de clientes. Los clientes aumentan progresivamente su número de trabajos de IA hasta alcanzar el objetivo, que en el caso de esta prueba es un total de 480 trabajos. Hay cuatro operaciones principales en el punto de referencia, con 4 subcargas de trabajo simultáneas e independientes:

AI_SF – Lecturas de archivos de imágenes pequeños
AI_TF: escribe archivos más grandes (idealmente archivos de más de 100 MB)
AI_TR: lee en TFRecords grandes
AI_CP: realiza puntos de control ocasionales

Resultados

La figura 1 a continuación muestra los siguientes resultados:

El eje X muestra la cantidad de trabajos que ejecutan el punto de referencia de IA a lo largo del tiempo
El eje Y muestra la latencia general durante la duración de la prueba.
¡La latencia muestra que el rendimiento del almacenamiento es rápido y predecible a medida que aumenta la cantidad de trabajos de IA!

Qumulo es el almacenamiento más rápido para IA en la nube

** Comparación basada en sistemas de mejor rendimiento en nubes públicas publicada en www.spec.org a octubre de 2023. SPEC® y el nombre de referencia SPECgeneric® son marcas comerciales registradas de Standard Performance Assessment Corporation. Para obtener más información sobre SPECstorage2020, consulte https://www.spec.org/storage2020/.

Aplicabilidad local

Si bien las pruebas comparativas de SPECstorage utilizaron un entorno basado en la nube, estos resultados se pueden extrapolar fácilmente para estimar resultados utilizando hardware local similar. Cuando Qumulo publique este punto de referencia en el sitio web de SPEC (ETA diciembre/2023), se podrán encontrar los detalles y el costo del entorno, observando los tipos de instancias EC2 (número de núcleos, memoria disponible, etc.) utilizados y el ancho de banda disponible en la red. ambiente. Mientras tanto, incluimos detalles adicionales en el apéndice de este blog para lectores curiosos.

Científicos de datos e ingenieros de datos, he aquí. ¡Inténtalo tú mismo!

En el mundo de la IA, que avanza rápidamente, tener una solución de almacenamiento sólida, rápida y escalable no es un lujo sino una necesidad. Qumulo, con su rendimiento y rentabilidad líderes en la industria, se destaca como la solución de archivos basada en la nube para cargas de trabajo de IA. El punto de referencia no solo subraya la destreza de Qumulo, sino que también consolida su posición como la solución de almacenamiento para IA más rápida y de mayor aplicación.

See resultados completos publicado en Spec.org

Apéndice

Rendimiento

Tiempo de respuesta total = 1.22 ms

Empresa Métricos (AI_Trabajos)	Normal Estado latente (mseg)	AI_Trabajos Operaciones/Seg.	AI_Trabajos MB/seg
16	1.360	6960	1565
32	1.281	13921	3127
48	1.313	20882	4691
64	1.213	27843	6255
80	1.201	34804	7822
96	1.147	41765	9385
112	1.158	48726	10950
128	1.123	55687	12514
144	1.122	62648	14082
160	1.109	69609	15644
176	1.144	76570	17208
192	1.117	83530	18774
208	1.112	90491	20340
224	1.112	97452	21899
240	1.121	104413	23470
256	1.271	111374	25037
272	1.143	118335	26598
288	1.155	125296	28161
304	1.197	132257	29729
320	1.205	139218	31289
336	1.257	146178	32859
352	1.323	153139	34418
368	1.430	160100	35984
384	1.503	167061	37552
400	1.632	174022	39112

Información de producto y prueba

Qumulo – Referencia de nube pública
Probado por	Qumulo, Inc.
Hardware disponible	Noviembre 2023
Software disponible	Noviembre 2023
Fecha de prueba	Noviembre 2023
Número de licencia	6738
Ubicaciones del licenciatario	Seattle, WA EE. UU.

Qumulo es una solución híbrida de almacenamiento de archivos en la nube que cuenta con una escalabilidad superior a exabytes en un único espacio de nombres, características idénticas ya sea localmente o en la nube y soporte multiprotocolo completo, lo que garantiza flexibilidad y compatibilidad entre diversas aplicaciones. Al integrarse perfectamente con la infraestructura de la nube pública, Qumulo ofrece almacenamiento de datos no estructurados a cualquier escala, con visibilidad en tiempo real del rendimiento del almacenamiento y el uso de datos.

El sistema de archivos nativo de la nube de Qumulo permite a las organizaciones migrar sin problemas aplicaciones y cargas de trabajo basadas en archivos al entorno de la nube pública. Con Qumulo, las empresas pueden gestionar de manera eficiente exabytes de datos, ya sea localmente o en la nube. Los siguientes hallazgos demuestran claramente que el sistema de archivos Qumulo destaca por ofrecer un rendimiento excepcional cuando se implementa en AWS.

Solución bajo prueba Lista de materiales

Artículo No	Cantidad	Tipo de Propiedad	Proveedor	Nombre del modelo	Descripción
1	16	Instancias AWS EC2	AWS	c5n.18xgrande	Nodos Qumulo: instancias Amazon c5n EC2 (las instancias c5n.18xlarge tienen 72 vCPU, 192 GiB de memoria y red de 100 Gbps)
2	16	Instancias AWS EC2	AWS	c5n.18xgrande	Clientes Ubuntu – Clúster Qumulo – Instancias Amazon c5n EC2 (las instancias c5n.18xlarge tienen 72 vCPU, 192 GiB de memoria, red de 100 Gbps)

Diagramas de configuración

Qumulo en AWS

software componente

Artículo No	Componente	Tipo de Propiedad	Nombre y versión	Descripción
1	Qumulo Core	Sistema de archivos	6.2.2	El sistema de archivos nativo de la nube de Qumulo permite a las organizaciones mover sin esfuerzo aplicaciones y cargas de trabajo basadas en archivos a la nube pública.
2	Ubuntu	Sistema operativo	22.04	El sistema operativo Ubuntu se implementa en los dieciséis nodos informáticos c5n.18xlarge. Se utilizan como clientes que ejecutan los puntos de referencia de SPEC Storage 2020.

Configuración y ajuste de hardware: físico

Nombre del componente
Nombre del parámetro	Valor	Descripción
SR-IOV	implante	Habilita la tecnología de virtualización de CPU.
Velocidad del puerto	100 GbE	Cada nodo tiene conectividad de 100 GbE

Notas de configuración y ajuste de hardware

Ninguna

Configuración y ajuste del software: virtual

Networking
Nombre del parámetro	Valor	Descripción
Tramas gigantes	9001	Permite tramas gigantes Ethernet de hasta 9001 bytes
Parámetros de montaje NFS de clientes Ubuntu
Nombre del parámetro	Valor	Descripción
a	3	Utilice NFSv3
desconectar	16	Aumentar el número de conexiones de clientes NFS hasta 16
tcp		Protocolo de transporte de red TCP para comunicarse con el clúster Qumulo
bloqueo_local	todos	El cliente asume que tanto los bloqueos Flock como POSIX son locales.
Parámetro de volumen de EBS
Nombre del parámetro	Valor	Descripción
IOPS	16000	IOPS máx. para volumen de EBS
rendimiento	1000	Rendimiento máximo para el volumen de EBS

Notas de configuración y ajuste del software

Ninguna

Notas del SLA de servicio

AWS realiza esfuerzos comercialmente razonables para que los Productos y Servicios incluidos estén disponibles con un porcentaje de tiempo de actividad mensual de al menos el 99.99 %, en cada caso durante cualquier ciclo de facturación mensual. El Porcentaje de Tiempo de Actividad Mensual se calcula restando del 100% el porcentaje de minutos durante el mes en el que cualquiera de los Productos y Servicios Incluidos, según corresponda, estuvo en el estado de “Región No Disponible”.

Almacenamiento y sistemas de archivos

Artículo No	Descripción	Protección de Datos	Almacenamiento estable	Cantidad
1	Volumen de Elastic Block Storage, capacidad de 1TB gp3. Cada nodo Qumulo tiene 6 volúmenes EBS.	Protección de 2 unidades o 1 nodo con codificación de borrado	EBS de AWS	96

Número de sistemas de archivos	1
Capacidad total	78.54 TB
Tipo de sistema de archivos	Qumulo

Notas de creación del sistema de archivos

El sistema de archivos Qumulo Core se implementa en AWS a través de una plantilla de formación de nubes o Terraform. Se implementa la AMI de Qumulo Core y el sistema de archivos se configura como parte del proceso automatizado de formación de la nube o mediante Terraform. No se requieren pasos adicionales para la creación del sistema de archivos.

Notas sobre almacenamiento y sistema de archivos

Ninguna

Configuración de transporte – Virtual

Artículo No	Tipo de transporte	Número de puertos utilizados	Notas
1	NIC virtual Ethernet de 100 Gbps	16	Utilizado por máquinas cliente
2	NIC virtual Ethernet de 100 Gbps	16	Utilizado por Qumulo Core para comunicaciones entre nodos, así como para comunicaciones con cualquier cliente.

Notas de configuración de transporte

Ninguna

Conmutadores – Virtuales

Artículo No	Cambiar nombre	Tipo de interruptor	Recuento total de puertos	Recuento de puertos usados	Notas
1	AWS	Ethernet de 100 Gbps con redes mejoradas	16	16	Utilizado por máquinas cliente
2	AWS	Ethernet de 100 Gbps con redes mejoradas	16	16	Utilizado por los nodos de Qumulo Core

Elementos de procesamiento – Virtuales

Artículo No	Cantidad	Tipo de Propiedad	Destino	Descripción	Función de procesamiento
1	1152	CPU virtual	c5n.18xlarge Núcleo Qumulo	Procesadores Intel Xeon Platinum de 3.5 GHz	Qumulo Core, Comunicación de red, Funciones de almacenamiento
2	1152	CPU virtual	c5n.18xlarge Núcleo Qumulo	Procesadores Intel Xeon Platinum de 3.5 GHz	Procesadores de referencia de cliente de almacenamiento de especificaciones

Notas sobre elementos de procesamiento

Ninguna

Memoria – Virtual

Descripción	Tamaño en GiB	Numero de instancias	No volátil	GB totales
Memoria de instancia AWS EC2 c5n.18xlarge	192	16	V	3072
Memoria de instancia AWS EC2 c5n.18xlarge	192	16	V	3072
Gran total de gibibytes de memoria				6144

Notas de memoria

Ninguna

Almacenamiento estable

Qumulo Core utiliza dispositivos Elastic Block Storage (EBS); que proporcionan un almacenamiento estable.

Notas de configuración de la solución en prueba

La solución bajo prueba fue un clúster distribuido estándar creado utilizando Qumulo Core. Los clústeres de Qumulo Core pueden manejar E/S de archivos grandes y pequeños junto con aplicaciones con uso intensivo de metadatos. No se requiere ningún ajuste especializado para cargas de trabajo diferentes o de uso mixto.

Qumulo: la solución de archivos basada en la nube más rápida de la industria para cargas de trabajo de IA

Escrito por:

Por qué Qumulo es ideal para cargas de trabajo de IA basadas en archivos

Punto de referencia de IA ampliamente aplicable

Descripción del punto de referencia y resultados obtenidos

Resultados

Aplicabilidad local

Científicos de datos e ingenieros de datos, he aquí. ¡Inténtalo tú mismo!

Apéndice

Rendimiento

Información de producto y prueba

Solución bajo prueba Lista de materiales

Diagramas de configuración

software componente

Configuración y ajuste de hardware: físico

Notas de configuración y ajuste de hardware

Configuración y ajuste del software: virtual

Notas de configuración y ajuste del software

Notas del SLA de servicio

Almacenamiento y sistemas de archivos

Notas de creación del sistema de archivos

Notas sobre almacenamiento y sistema de archivos

Configuración de transporte – Virtual

Notas de configuración de transporte

Conmutadores – Virtuales

Elementos de procesamiento – Virtuales

Notas sobre elementos de procesamiento

Memoria – Virtual

Notas de memoria

Almacenamiento estable

Notas de configuración de la solución en prueba

Artículos Relacionados

Productos

Síguenos en: