En Qumulo, hemos dedicado años a crear sistemas de almacenamiento primarios de escala empresarial en cualquier lugar y a evolucionarlos hasta convertirlos en una verdadera plataforma de datos en la nube: para satisfacer las necesidades de los sectores de computación de alto rendimiento, supercomputación, inteligencia artificial, creación de contenido, atención médica, ciencias biológicas, defensa/inteligencia e investigación. Uno de los casos de uso más impactantes de nuestra tecnología ha sido respaldar Clústeres de conducción autónoma, también conocido como Sistemas avanzados de asistencia al conductor (ADAS)Estos clústeres de IA, fundamentales para el desarrollo de vehículos autónomos, aprovechan las fortalezas únicas de Qumulo en la gestión de conjuntos de datos masivos con una combinación de archivos grandes y pequeños, lo que ofrece durabilidad, consistencia y escalabilidad inigualables en entornos de nube públicos, híbridos y privados.
Aunque la modelos de lenguaje grande (LLM) Al igual que GPT-4, han dominado los titulares por su capacidad para escribir historias, refinar el lenguaje o incluso contar chistes decentes. Los clústeres ADAS cumplen una función más crítica: mejorar la seguridad del conductor, optimizar el uso del combustible y, en última instancia, salvar vidas. Cada uno de estos dominios de uso intensivo de recursos computacionales (ADAS y LLM) tiene diferencias matizadas que generan desafíos y oportunidades. Si bien los LLM pueden capturar la imaginación del público, en Qumulo estamos orgullosos de potenciar los sistemas de datos detrás de muchos de los clústeres ADAS más grandes del mundo, una aplicación transformadora que afecta la vida de todos en la carretera, mejorando la seguridad y la eficiencia.
Finalidad y naturaleza de los datos
Modelos de lenguajes grandes (LLM):
Los LLM están diseñados para procesar y generar texto similar al de los humanos. Sus conjuntos de datos consisten en fichas Derivados de fuentes de lenguaje natural, como libros, artículos, sitios web y repositorios de código. Estos conjuntos de datos enfatizan generalización lingüística, lo que requiere que los datos sean diversos y representativos de los idiomas a los que se va a aplicar el modelo. La tokenización (un proceso en el que el texto se divide en unidades de subpalabras o palabras) permite una representación eficiente de los datos.
Conducción autónoma / Sistemas avanzados de asistencia al conductor (ADAS):
Los vehículos autónomos dependen de los datos de los sensores para navegar en entornos del mundo real. Estos conjuntos de datos incluyen: salidas sin procesar y sin comprimir de cámaras, lidar, radar, GPS y unidades de medición inercial (IMU). El objetivo es entrenar modelos para comprender entornos espaciales, reconocer objetos y tomar decisiones en tiempo real. Los conjuntos de datos ADAS deben capturar no solo escenarios de conducción comunes, sino también casos extremos poco frecuentes, como condiciones climáticas adversas o comportamiento inusual de los peatones.
Tamaños de conjuntos de datos: una perspectiva cuantitativa
LLM:
La escala de los conjuntos de datos LLM normalmente se mide en fichas. Por ejemplo:
- GPT-3 fue entrenado aproximadamente 300 mil millones de tokens, equivalente a ~570 GB de datos comprimidos o varios terabytes sin comprimir (Brown et al., 2020).
- Los LLM modernos como GPT-4 probablemente utilizan conjuntos de datos que exceden 1–2 petabytes, especialmente cuando se incorporan fuentes multimodales y multilingües. Esto equivale aproximadamente a cien Largometrajes en formato RAW 8K.
ADA:
Los conjuntos de datos ADAS se miden en almacenamiento de datos sin procesar Debido a la naturaleza sin comprimir de las salidas del sensor:
- Un solo vehículo autónomo genera 1–10 terabytes de datos por día (Waymo, 2023).
- Los conjuntos de datos de toda la flota, utilizados por empresas como Tesla y Waymo, superan 100-500 petabytes al añoPara contextualizar, la flota de Tesla acumula más de 1 millón de millas de datos de conducción al día (Tesla AI Day, 2021). En comparación con los conjuntos de datos de entrenamiento LLM, esto es aproximadamente 25,000 largometrajes en formato RAW 8K cada año, o 32 años de realización cinematográfica moderna.
Diversidad y estructura de los datos
LLM:
- Datos altamente comprimidos debido a los procesos de tokenización y deduplicación.
- Prioriza la diversidad en todos los dominios (por ejemplo, artículos científicos, ficción, código) para garantizar la generalización.
- Se realiza un preprocesamiento significativo para filtrar texto de baja calidad o sesgado (OpenAI, 2020).
ADA:
- Video:Grabaciones de alta resolución (1080p o 4K) a 30–60 cuadros por segundo.
- LiDAR:Millones de puntos 3D por segundo.
Una parte importante de los datos se utiliza para Simulación y validación, especialmente para casos extremos raros.
Desafíos computacionales
LLM:
- El entrenamiento involucra miles de millones a billones de parámetros, lo que requiere un procesamiento de alto rendimiento de conjuntos de datos tokenizados.
- Se requiere aproximadamente la capacitación GPT-3 3640 petaflop-días de cómputo (Brown et al., 2020).
- Las canalizaciones de datos optimizadas (por ejemplo, tokenización, procesamiento por lotes) reducen el tamaño efectivo del conjunto de datos durante el entrenamiento.
ADA:
- El procesamiento implica datos de series temporales y modelado espacial, lo que a menudo requiere un rendimiento en tiempo real.
- Se utilizan entornos de simulación (por ejemplo, CARLA, NVIDIA DRIVE) para aumentar el entrenamiento, lo que aumenta la complejidad computacional.
- El hardware especializado, como las GPU o las TPU dedicadas, y las CPU CISC de un solo socket con gran ancho de núcleo procesan grandes conjuntos de datos sin procesar para el entrenamiento y la inferencia.
Longevidad y crecimiento de los datos
LLM:
- El tamaño del conjunto de datos aumenta gradualmente con la complejidad del modelo. Sin embargo, el crecimiento se desacelera debido a la disminución de los rendimientos a escala (Kaplan et al., 2020).
- Los conjuntos de datos más antiguos siguen siendo relevantes, ya que los fundamentos lingüísticos no cambian rápidamente.
ADA:
- El crecimiento del conjunto de datos es exponencial debido a:
- Aumento del tamaño de las flotas y mayores tasas de adopción.
- Avances en la tecnología de sensores (mayor resolución y frecuencia de muestreo).
- Ampliación de la cobertura de casos extremos para una generalización robusta.
- Los conjuntos de datos más antiguos pueden quedar obsoletos a medida que evolucionan las tecnologías de vehículos y sensores.
Comparaciones de conjuntos de datos
Aspecto | LLM | ADAS/Conducción Autónoma |
---|---|---|
Tamaño del conjunto de datos | De terabytes a petabytes bajos | Cientos de petabytes |
Tipo de datos | Texto (tokens) | Vídeo, LiDAR, Radar, GPS, SIG, Imágenes satelitales |
Compresión | Altamente comprimido (tokenización) | Compresión mínima (datos sin procesar) |
Propósito | Comprensión lingüística | Toma de decisiones espaciales en tiempo real: salvando vidas y mejorando la seguridad del transporte |
Incremento XNUMX | Escalamiento más lento con rendimientos decrecientes | Crecimiento exponencial (flota, sensores) |
Conclusión
Libertad de elección
Esto nos lleva a una decisión estratégica más amplia: ¿debería construirse una infraestructura informática acelerada en las instalaciones o es más eficiente utilizar la escalabilidad y la capacidad de los entornos de nube pública, conectando conjuntos de datos sin problemas en infraestructuras híbridas? En Qumulo, nuestro objetivo es capacitar a nuestros clientes para que se destaquen en ambos escenarios, derribando las barreras tecnológicas para que puedan tomar las mejores decisiones comerciales, de ingeniería y operativas para sus necesidades únicas. Para obtener más información sobre el rendimiento innovador que Qumulo ha brindado en el entorno de nube pública utilizando nuestra Plataforma de datos en la nube, consulte este video.
Referencias
Brown, T., et al. (2020). Los modelos lingüísticos son aprendices de pocas oportunidades. NeurIPS. Enlace
Kaplan, J., et al. (2020). Leyes de escala para modelos de lenguaje neuronal. OpenAI. Enlace
Waymo (2023). Descripción general del conjunto de datos de conducción autónoma. Waymo Research. Página web
Día de la IA de Tesla (2021). Recopilación de datos de la flota de Tesla. Tesla. Enlace