La visión de Qumulo para el lago de datos en la nube

Preparando el escenario: la aparición del lago de datos en la nube

Programas de nube pública ha cambiado fundamentalmente la economía y la dinámica competitiva de casi todas las industrias. Los CIO y CEO, desde las nuevas empresas más pequeñas hasta las multinacionales más grandes, están luchando con las ramificaciones de la infraestructura y los servicios ilimitados disponibles para ellos y sus competidores, con solo unos pocos comandos y una tarjeta de crédito. Las barreras para ingresar a nuevos mercados están cayendo y el tiempo de comercialización de nuevos productos se está reduciendo, lo que hace que los líderes estén tanto emocionados como aterrorizados.

Los datos no estructurados están en el centro de estos cambios fundamentales. Imágenes, videos, archivos de registro, genomas, mapas y archivos de texto son la materia prima que utilizan estas empresas para crear nuevas innovaciones. Piense en un centro informático de investigación en una de las universidades más grandes del mundo. Este grupo sirve a científicos de todo el mundo que buscan comprender los orígenes de nuestro sol y las mutaciones de un gen. Para este centro de investigación, el éxito se define por atraer a los científicos más talentosos para abordar los problemas más grandes. La elasticidad de la nube pública lo hace posible, al permitir que el centro cree nuevos recursos informáticos y de almacenamiento para sus mejores investigadores con unas pocas líneas de código y comparta sus resultados finales en todo el mundo.

Pero para que esa elasticidad funcione, el centro de investigación necesita una capa de datos accesible, lo suficientemente abierta como para fomentar la colaboración pero lo suficientemente controlada como para proteger la propiedad intelectual. Las nubes públicas han resuelto este problema con una arquitectura bien conocida conocida como "lago de datos". Estos grandes repositorios de datos no estructurados combinan múltiples fuentes de datos en un grupo, monitoreados y gobernados por sistemas de administración compartidos. Con los permisos correctos, cualquier investigador puede acceder a esos datos desde cualquier lugar para ejecutar sus experimentos. 

El desafío: datos basados ​​en archivos

El lago de datos en la nube funciona bien para muchos tipos de datos. Si la mayoría de los datos están terminados (es decir, no cambiarán mucho), son independientes de la aplicación y tienen un patrón de IO poco frecuente o solo de transmisión, entonces el lago de datos en la nube funciona bien. Sin embargo, no todos los datos no estructurados se ajustan a ese molde. Algunos datos son creados y procesados ​​por una aplicación basada en archivos, cambian con frecuencia a medida que se procesan y tienen un patrón de E / S de "pequeña actualización" (donde el archivo se cambia repetidamente a lo largo de un flujo de trabajo). El lago de datos de nube heredado falla en estos tipos de datos.

Tomemos, por ejemplo, los videos y las imágenes que los estudios modernos usan para crear una película. Al igual que el ejemplo del centro de investigación discutido anteriormente, el estudio moderno compite por los artistas más talentosos y utiliza la elasticidad de la nube para hacer que esos magos profesionales sean productivos a cualquier hora del día y sin demora. Sin embargo, las aplicaciones que editan y transforman imágenes y videos en bruto en una película se basan en archivos, y el flujo de trabajo del artista se compone de muchos cambios en muchos archivos a medida que la película avanza a través de la línea de producción digital. Un lago de datos en la nube heredado creado únicamente en Amazon S3 (por ejemplo), no funcionará bien con esta carga de trabajo.

El desglose es tanto técnico como económico. El desafío técnico se encuentra en el corazón del enfoque actual de los lagos de datos. La mayoría de los proveedores de la nube construyen sus lagos de datos en torno a sistemas de objetos (por ejemplo, Amazon S3). Si bien son poderosamente escalables y altamente personalizables, estos sistemas asumen fundamentalmente que los objetos individuales son "inmutables". Esa suposición se encuentra en el corazón de todos los sistemas de objetos. Cuando se realizan cambios en un objeto, no actualizan el objeto, lo destruyen y lo vuelven a crear. Para un flujo de trabajo basado en archivos, este es un problema real, porque las aplicaciones basadas en archivos asumen que los datos subyacentes se cambiarán repetidamente. Sin poder hacer esa suposición, nuestro centro de investigación y estudio de cine deben volver a trabajar en sus aplicaciones o pedir a sus usuarios finales que cambien sus flujos de trabajo. Ambos factores dificultan que esas organizaciones atraigan a los mejores talentos en sus industrias.

El quiebre económico tiene que ver con los modelos de precios de la nube almacenamiento de objetos servicios. Los principales servicios de almacenamiento de objetos cobran a los clientes por operaciones individuales contra sus datos. Tomemos como ejemplo un conjunto de datos de objeto relativamente pequeño de 20 TB. En Amazon S3, el costo de almacenar estos datos es de solo ~$420/mes, y si se accede a los datos con poca frecuencia, esa será la única factura que verá el estudio de investigación o de cine. Sin embargo, tan pronto como se realiza un pequeño IO aleatorio contra los datos, esa factura puede dispararse a más de $ 100,000 / mes. La razón es simple: cambios por IO. Siempre que el conjunto de datos esté en el centro de una carga de trabajo pesada de IOPS, el modelo económico del lago de datos en la nube actual se desmorona.

Un camino a seguir: el lago de archivos en la nube

Las aplicaciones basadas en archivos son mejor atendidas por el almacenamiento basado en archivos. Estas aplicaciones son habilitadores de misión crítica para la innovación y la infraestructura de demanda que está construida para que tengan éxito. Es por eso que los sistemas de archivos han existido durante décadas y por qué se están desarrollando nuevos sistemas de archivos (y servicios de archivos) todo el tiempo. Creemos que el lago de datos moderno debe incluir un sistema de archivos escalable, eficiente y nativo de la nube como parte de su arquitectura fundamental.

Estos "lagos de archivos en la nube" ofrecerían a los clientes la capacidad de almacenar datos de archivos como se pretendía almacenar: como archivos. Este nuevo enfoque del lago de datos crea un único espacio de nombres de archivos escalable en una nube pública, con las características y capacidades de un sistema de archivos moderno como Qumulo Core. Esto permitirá a los clientes:

  • Utilice las aplicaciones que sus usuarios finales talentosos esperan (y conocen) y no reconstruya sus aplicaciones para objetos
  • Proteja la propiedad intelectual utilizando metodologías estándar de acceso a la identidad probadas en todas las empresas modernas (por ejemplo, Active Directory)
  • Comparta datos a través de los límites de la organización utilizando el alcance de la nube, mientras mantiene la estructura organizativa de sus sistemas de archivos

Finalmente, y quizás lo más importante, un "lago de archivos en la nube" ofrece acceso gratuito. IO para un archivo dado en un lago de archivos en la nube está incluido en el costo del espacio de nombres. Esto hace posible ejecutar altas cargas de trabajo de E / S en la nube pública a una economía razonable, y sin temor a que un usuario activo o una aplicación cree una factura de bajo presupuesto.

Los requisitos: qué buscar en un lago de archivos

Un verdadero lago de archivos en la nube debe, en esencia, ser un sistema de archivos escalable. Para atender cargas de trabajo de archivos a gran escala, el lago de archivos en la nube debe poder crecer en capacidad y rendimiento para satisfacer las necesidades del flujo de trabajo. Al mismo tiempo, debe ofrecer las características principales de un solución de almacenamiento de datos empresariales necesaria para atender múltiples cargas de trabajo. Algunas capacidades clave que creemos que son fundamentales para cualquier lago de archivos en la nube:

  • Escale a petabytes, cientos de GB/s y cientos de miles de IOPS en un solo espacio de nombres
  • Servir a clientes (y aplicaciones) de Windows, Linux y Mac sin ninguna personalización y desde el mismo espacio de nombres
  • Ofrezca herramientas estándar de administración de archivos empresariales como cuotas e instantáneas para que los administradores puedan proteger los datos y evitar sobrecostos
  • Integre con Active Directory y LDAP, y ofrezca control de permisos granular (en Windows / Mac / Linux) para controlar el riesgo de propiedad intelectual
  • Se puede administrar por completo desde una API o una línea de comandos para que el lago de archivos se pueda crear, informar y administrar desde herramientas de orquestación estándar como CFT

Finalmente, un lago de archivos de nubes no debería vivir en una isla. Ya sea a través de funciones nativas o una integración simple con las funciones de Lambda, un lago de archivos en la nube debería permitir a los clientes importar datos de S3 u otros almacenes de objetos en la nube para procesar y exportar datos a lagos de datos de objetos cuando se realiza el trabajo basado en archivos.

Qumulo: el primer lago de archivos en la nube

Qumulo ha pasado los últimos años construyendo un sistema de archivos escalable nativo de la nube. Nuestro producto combina los controles empresariales enriquecidos de un producto de archivo moderno con la escala de una arquitectura distribuida de nada compartido en un paquete nativo de la nube. Nuestros clientes usan nuestro producto para hacer películas, secuenciar genomas y mapear fondos submarinos.

Qumulo ofrece un único sistema de archivos con los siguientes beneficios:

Por supuesto, eso es solo el comienzo; aún no hemos terminado. Trabajamos arduamente para continuar creando más capacidades que hagan que el lago de archivos sea aún más poderoso y libere el poder de sus cargas de trabajo de archivos en la nube. Por supuesto, como suscriptor de la nube de Qumulo, obtiene acceso a todas esas funciones de forma gratuita, simplemente registrándose. 

Conclusión

Las organizaciones impulsadas por la innovación de todo el mundo están recurriendo a la nube pública para crear nuevos productos, hacer nuevos descubrimientos y cumplir sus misiones. En el centro de ese trabajo se encuentran los datos basados ​​en archivos. En Qumulo, creemos que esas cargas de trabajo se atienden mejor con un lago de datos basado en tecnología que libera el potencial de los datos de ese archivo.

El nuevo manual de estrategias de almacenamiento de datos empresariales

El nuevo manual de estrategias de almacenamiento de datos empresariales

Los datos no estructurados están en todas partes y están creciendo a un ritmo incontrolable. Los CIO y los líderes de TI están recurriendo a soluciones de almacenamiento escalables para administrar estos datos y seguir siendo competitivos. El almacenamiento de bloques, el almacenamiento de objetos y el almacenamiento de archivos tienen capacidades y limitaciones únicas, lo que significa que los sistemas de almacenamiento de nivel empresarial no son soluciones de "talla única".

Descubra por qué son importantes los datos no estructurados y qué solución de almacenamiento es la adecuada para usted.

Descarga el Playbook

Comparta este artículo