Comparación de conjuntos de datos para la inferencia y el ajuste de la IA: modelos de lenguaje de gran tamaño frente a sistemas de conducción autónoma

Escrito por: 

Ajuste e inferencia de la IA: modelos de lenguaje de gran tamaño frente a sistemas de conducción autónoma

En Qumulo, hemos dedicado años a crear sistemas de almacenamiento primarios de escala empresarial en cualquier lugar y a evolucionarlos hasta convertirlos en una verdadera plataforma de datos en la nube: para satisfacer las necesidades de los sectores de computación de alto rendimiento, supercomputación, inteligencia artificial, creación de contenido, atención médica, ciencias biológicas, defensa/inteligencia e investigación. Uno de los casos de uso más impactantes de nuestra tecnología ha sido respaldar Clústeres de conducción autónoma, también conocido como Sistemas avanzados de asistencia al conductor (ADAS)Estos clústeres de IA, fundamentales para el desarrollo de vehículos autónomos, aprovechan las fortalezas únicas de Qumulo en la gestión de conjuntos de datos masivos con una combinación de archivos grandes y pequeños, lo que ofrece durabilidad, consistencia y escalabilidad inigualables en entornos de nube públicos, híbridos y privados.

Aunque la modelos de lenguaje grande (LLM) Al igual que GPT-4, han dominado los titulares por su capacidad para escribir historias, refinar el lenguaje o incluso contar chistes decentes. Los clústeres ADAS cumplen una función más crítica: mejorar la seguridad del conductor, optimizar el uso del combustible y, en última instancia, salvar vidas. Cada uno de estos dominios de uso intensivo de recursos computacionales (ADAS y LLM) tiene diferencias matizadas que generan desafíos y oportunidades. Si bien los LLM pueden capturar la imaginación del público, en Qumulo estamos orgullosos de potenciar los sistemas de datos detrás de muchos de los clústeres ADAS más grandes del mundo, una aplicación transformadora que afecta la vida de todos en la carretera, mejorando la seguridad y la eficiencia.

En los últimos años, los avances en inteligencia artificial han impulsado los LLM, como la serie GPT de OpenAI, así como los ADAS. Si bien ambos dependen de conjuntos de datos considerables para la capacitación, la naturaleza, la escala y la estructura de estos conjuntos de datos difieren significativamente. Examinemos estos contrastes a nivel técnico, arrojando luz sobre sus respectivos desafíos y oportunidades.

Finalidad y naturaleza de los datos

La diferencia fundamental entre los conjuntos de datos LLM y ADAS radica en su propósito y el tipo de datos que ingieren.

Modelos de lenguajes grandes (LLM):

Los LLM están diseñados para procesar y generar texto similar al de los humanos. Sus conjuntos de datos consisten en fichas Derivados de fuentes de lenguaje natural, como libros, artículos, sitios web y repositorios de código. Estos conjuntos de datos enfatizan generalización lingüística, lo que requiere que los datos sean diversos y representativos de los idiomas a los que se va a aplicar el modelo. La tokenización (un proceso en el que el texto se divide en unidades de subpalabras o palabras) permite una representación eficiente de los datos.

Conducción autónoma / Sistemas avanzados de asistencia al conductor (ADAS):

Los vehículos autónomos dependen de los datos de los sensores para navegar en entornos del mundo real. Estos conjuntos de datos incluyen: salidas sin procesar y sin comprimir de cámaras, lidar, radar, GPS y unidades de medición inercial (IMU). El objetivo es entrenar modelos para comprender entornos espaciales, reconocer objetos y tomar decisiones en tiempo real. Los conjuntos de datos ADAS deben capturar no solo escenarios de conducción comunes, sino también casos extremos poco frecuentes, como condiciones climáticas adversas o comportamiento inusual de los peatones.

Tamaños de conjuntos de datos: una perspectiva cuantitativa

Los tamaños de los conjuntos de datos difieren tanto en términos absolutos como en cómo se miden:

LLM:

La escala de los conjuntos de datos LLM normalmente se mide en fichas. Por ejemplo:

  • GPT-3 fue entrenado aproximadamente 300 mil millones de tokens, equivalente a ~570 GB de datos comprimidos o varios terabytes sin comprimir (Brown et al., 2020).
  • Los LLM modernos como GPT-4 probablemente utilizan conjuntos de datos que exceden 1–2 petabytes, especialmente cuando se incorporan fuentes multimodales y multilingües. Esto equivale aproximadamente a cien Largometrajes en formato RAW 8K.

ADA:

Los conjuntos de datos ADAS se miden en almacenamiento de datos sin procesar Debido a la naturaleza sin comprimir de las salidas del sensor:

  • Un solo vehículo autónomo genera 1–10 terabytes de datos por día (Waymo, 2023).
  • Los conjuntos de datos de toda la flota, utilizados por empresas como Tesla y Waymo, superan 100-500 petabytes al añoPara contextualizar, la flota de Tesla acumula más de 1 millón de millas de datos de conducción al día (Tesla AI Day, 2021). En comparación con los conjuntos de datos de entrenamiento LLM, esto es aproximadamente 25,000 largometrajes en formato RAW 8K cada año, o 32 años de realización cinematográfica moderna.

Diversidad y estructura de los datos

La estructura y diversidad de los datos también ponen de relieve marcados contrastes:

LLM:

  • Datos altamente comprimidos debido a los procesos de tokenización y deduplicación.
  • Prioriza la diversidad en todos los dominios (por ejemplo, artículos científicos, ficción, código) para garantizar la generalización.
  • Se realiza un preprocesamiento significativo para filtrar texto de baja calidad o sesgado (OpenAI, 2020).

ADA:

Los datos son inherentemente de alta dimensión y espaciales, e incluyen:
  • Video:Grabaciones de alta resolución (1080p o 4K) a 30–60 cuadros por segundo.
  • LiDAR:Millones de puntos 3D por segundo.

Una parte importante de los datos se utiliza para Simulación y validación, especialmente para casos extremos raros.

Desafíos computacionales

Si bien los conjuntos de datos LLM son más pequeños en términos de almacenamiento sin procesar, su complejidad de entrenamiento y sus demandas de cómputo rivalizan con las de ADAS:

LLM:

  • El entrenamiento involucra miles de millones a billones de parámetros, lo que requiere un procesamiento de alto rendimiento de conjuntos de datos tokenizados.
  • Se requiere aproximadamente la capacitación GPT-3 3640 petaflop-días de cómputo (Brown et al., 2020).
  • Las canalizaciones de datos optimizadas (por ejemplo, tokenización, procesamiento por lotes) reducen el tamaño efectivo del conjunto de datos durante el entrenamiento.

ADA:

  • El procesamiento implica datos de series temporales y modelado espacial, lo que a menudo requiere un rendimiento en tiempo real.
  • Se utilizan entornos de simulación (por ejemplo, CARLA, NVIDIA DRIVE) para aumentar el entrenamiento, lo que aumenta la complejidad computacional.
  • El hardware especializado, como las GPU o las TPU dedicadas, y las CPU CISC de un solo socket con gran ancho de núcleo procesan grandes conjuntos de datos sin procesar para el entrenamiento y la inferencia.

Longevidad y crecimiento de los datos

LLM:

  • El tamaño del conjunto de datos aumenta gradualmente con la complejidad del modelo. Sin embargo, el crecimiento se desacelera debido a la disminución de los rendimientos a escala (Kaplan et al., 2020).
  • Los conjuntos de datos más antiguos siguen siendo relevantes, ya que los fundamentos lingüísticos no cambian rápidamente.

ADA:

  • El crecimiento del conjunto de datos es exponencial debido a:
    • Aumento del tamaño de las flotas y mayores tasas de adopción.
    • Avances en la tecnología de sensores (mayor resolución y frecuencia de muestreo).
    • Ampliación de la cobertura de casos extremos para una generalización robusta.
  • Los conjuntos de datos más antiguos pueden quedar obsoletos a medida que evolucionan las tecnologías de vehículos y sensores.

Comparaciones de conjuntos de datos

Aspecto LLM ADAS/Conducción Autónoma
Tamaño del conjunto de datos De terabytes a petabytes bajos Cientos de petabytes
Tipo de datos Texto (tokens) Vídeo, LiDAR, Radar, GPS, SIG, Imágenes satelitales
Compresión Altamente comprimido (tokenización) Compresión mínima (datos sin procesar)
Propósito Comprensión lingüística Toma de decisiones espaciales en tiempo real: salvando vidas y mejorando la seguridad del transporte
Incremento XNUMX Escalamiento más lento con rendimientos decrecientes Crecimiento exponencial (flota, sensores)

Conclusión

Los conjuntos de datos utilizados para entrenar los sistemas LLM y ADAS están diseñados para los desafíos únicos de sus respectivos dominios. Mientras que los LLM se basan en datos altamente comprimidos y seleccionados, principalmente textuales, los sistemas ADAS procesan datos de sensores sin comprimir y sin procesar que requieren mucho más almacenamiento. Sin embargo, la complejidad computacional del entrenamiento de los LLM a menudo rivaliza con la de los ADAS, lo que refleja el vasto espacio de parámetros de los modelos de lenguaje modernos.
A medida que estos campos continúan evolucionando, las innovaciones en el procesamiento de datos y las arquitecturas de modelos seguirán siendo fundamentales para abordar sus respectivos desafíos. Mientras que los sistemas ADAS enfrentan los obstáculos logísticos de escalar los datos sin procesar, los LLM deben encontrar el equilibrio entre el tamaño del conjunto de datos, la calidad y los rendimientos decrecientes.

Libertad de elección

Al considerar los desafíos modernos que implica procesar modelos de lenguaje de gran tamaño o sistemas ADAS, surge una pregunta clave: ¿mi centro de datos tiene la capacidad (espacio, energía y refrigeración) para soportar las tecnologías de computación acelerada necesarias para el entrenamiento? Igualmente importante es determinar si el entrenamiento y el ajuste continuos en hardware especializado son esenciales o si es suficiente aprovechar estos recursos temporalmente para lograr un resultado específico antes de realizar la transición a la inferencia.

Esto nos lleva a una decisión estratégica más amplia: ¿debería construirse una infraestructura informática acelerada en las instalaciones o es más eficiente utilizar la escalabilidad y la capacidad de los entornos de nube pública, conectando conjuntos de datos sin problemas en infraestructuras híbridas? En Qumulo, nuestro objetivo es capacitar a nuestros clientes para que se destaquen en ambos escenarios, derribando las barreras tecnológicas para que puedan tomar las mejores decisiones comerciales, de ingeniería y operativas para sus necesidades únicas. Para obtener más información sobre el rendimiento innovador que Qumulo ha brindado en el entorno de nube pública utilizando nuestra Plataforma de datos en la nube, consulte este video.

Referencias

Brown, T., et al. (2020). Los modelos lingüísticos son aprendices de pocas oportunidades. NeurIPS. Enlace

Kaplan, J., et al. (2020). Leyes de escala para modelos de lenguaje neuronal. OpenAI. Enlace

Waymo (2023). Descripción general del conjunto de datos de conducción autónoma. Waymo Research. Página web

Día de la IA de Tesla (2021). Recopilación de datos de la flota de Tesla. Tesla. Enlace

0 0 votos
Valoración del artículo
Suscríbete
Notificarme sobre
invitado
0 Comentarios
Más antiguo
Más Nuevos Más votados
Comentarios en línea
Ver todos los comentarios

Artículos Relacionados

0
Me encantaría tus pensamientos, por favor comenta.x
Ir al Inicio