¿Qué hace que el sistema de archivos de escalamiento horizontal de Qumulo sea único en AWS? (Parte 1)

Sistema de archivos para la migración a la nube de AWS

Esta serie de dos partes explora lo que hace que el sistema de archivos escalable y distribuido de Qumulo sea único en AWS. En la parte 1 a continuación, aprenderá cómo el Qumulo Cloud Q La arquitectura de software está diseñada para el rendimiento y la escalabilidad dinámica, lo que admite el acceso a archivos multiprotocolo para cargas de trabajo de alto rendimiento que se ejecutan en la nube o en entornos de nube híbrida. En la parte 2, nos centramos en cómo copiar objetos entre depósitos y clústeres de S3.

Por qué se necesitan servicios de archivos empresariales en la nube

Entre el rápido crecimiento de los datos no estructurados, los requisitos de capacidad de almacenamiento cada vez mayores y los presupuestos estrictos, los departamentos de TI se enfrentan a un problema de centro de datos: los gastos de capital y la falta de escalabilidad son un obstáculo para la innovación y cada vez son más difíciles de justificar. La migración a la nube es la solución obvia para un rendimiento ilimitado y escalabilidad de almacenamiento, y para controlar los costos para una estrategia de datos de alto rendimiento.

Migración a la nube mediante elevación y cambio

Las empresas de todo el mundo están eligiendo mover sus datos y aplicaciones a la nube, pero para muchos, la pregunta es cómo llegar allí rápidamente y con un riesgo mínimo. uno de los mas rapidos migración en la nube métodos es "lift and shift", lo que significa mover aplicaciones existentes sin rediseños importantes de las cargas de trabajo. Y, debido a que la mayoría de las aplicaciones locales funcionan con sistemas de archivos para Unix/Linux y/o Windows, se necesitan sistemas de archivos de clase empresarial en la nube.

Los desafíos de migrar datos empresariales a la nube

A medida que las organizaciones migran escala de petabytes, alto cómputo cargas de trabajo a la nube, se enfrentan a desafíos únicos, incluida la elección de una escalable solución de almacenamiento de datos empresariales capaz de almacenar, administrar y crear aplicaciones y flujos de trabajo de computación de alto rendimiento (HPC) con datos en su forma nativa.

Al migrar cargas de trabajo dependientes del sistema de archivos a la nube, los CIO y los administradores de sistemas requieren una solución que aborde los siguientes desafíos de migración:

  • El acceso a los datos debe ser posible desde cualquier protocolo al mismo tiempo
  • Permissions y las ACL deben "traducirse" de forma transparente entre POSIX y Windows y potencialmente otros protocolos como FTP o HTTP
  • La solución debe tener funciones empresariales que los administradores de almacenamiento utilicen en las instalaciones, como instantáneas, cuotas, integración de Kerberos y asignación de UID/SID.
  • Al mismo tiempo, la solución debe estar definida por software con integración nativa en la nube; por ejemplo, implementación automatizada a través de plantillas de formación de nubes o Terraform así como la integración con Amazon CloudWatch
  • La solución debe ser escalable y permitir la expansión de la capacidad y el rendimiento en tiempo real sin interrupción del servicio
  • El sistema debe ser capaz de hacer frente a miles de millones de archivos sin el requisito de realizar caminatas en el árbol para ciertas operaciones, como copias de seguridad, análisis o la creación de estadísticas de usabilidad
  • La solución debe admitir SMB, NFS y, a veces, FTP.
  • Las empresas con una estrategia de múltiples nubes quieren una solución de archivos similar en todas las nubes con las mismas API, administración, integración en la nube, niveles de rendimiento, métodos de copia de seguridad, protocolos de acceso, etc.
  • Idealmente, la solución permite mover datos entre el sistema de archivos y Amazon Simple Storage Service (S3) porque en muchos casos, su repositorio de datos central vive en S3.
  • Alternativamente, pueden tener datos en el sistema de archivos que desean procesar con un servicio nativo de Amazon que opera con datos de archivos en S3.
  • El sistema de archivos debe ser compatible con un entorno de nube híbrida para mover fácilmente los datos locales a la nube.
    Idealmente, la solución incluye análisis de rendimiento y capacidad en tiempo real para obtener información sobre los patrones de uso, la utilización y la optimización de costos

Qumulo reconoció que las soluciones heredadas de escalamiento horizontal y vertical no estaban diseñadas para manejar los volúmenes de datos, los tipos de archivos, las aplicaciones y las cargas de trabajo actuales. Los sistemas de almacenamiento de datos heredados simplemente no pueden proporcionar un camino hacia la nube, por lo que creamos uno mejor.

A continuación, describiremos cómo el Qumulo Core El software aborda estos requisitos en las instalaciones y en la nube. Exploramos en detalle cómo nuestro exclusivo enfoque de nube híbrida simplifica significativamente las migraciones de datos no estructurados a AWS y aplicaciones relacionadas, lo que le permite administrar datos sin problemas entre su centro de datos y entornos de nube.

Una solución de almacenamiento de archivos nativa de la nube basada en EC2, EBS y S3

Qumulo Cloud Q para AWS es una solución de almacenamiento de archivos nativa de la nube que se basa en los volúmenes de Amazon Elastic Compute Cloud (EC2), Amazon Elastic Block Store (EBS) y Amazon Simple Storage Service (S3). Ofrece muchas características interesantes que van más allá de otras soluciones de almacenamiento de datos empresariales, que incluyen:

  • Puesto avanzado de AWS SOPORTE
  • Disponible en AWS GovCloud (US)
  • Arquitectura de escalamiento horizontal: se escala a 100 instancias, actualmente alrededor de 30+ PB en un solo espacio de nombres
  • Rendimiento agregado ultra alto con latencias bajas de alrededor de 1 ms en promedio
  • Multiprotocolo: se puede acceder a los archivos a través de NFS/SMB/FTP/HTTP simultáneamente
  • Copia nativa y basada en directorios de datos de archivos en un depósito S3 y viceversa
  • API totalmente programable
  • CFT avanzado para implementaciones automatizadas
  • Integración Kerberos/Directorio Activo
  • Integración de instantáneas
  • Cuotas en tiempo real
  • Replicación de múltiples nubes y replicación local a AWS

¿Cómo se construye el sistema de archivos Qumulo Core?

El núcleo de Qumulo sistema de archivos de nube híbrida está construido como una aplicación de espacio de usuario que se ejecuta sobre una versión simplificada de Ubuntu LTS, que se actualiza con frecuencia. Es un sistema en clúster que comienza con 4 nodos y escala hasta 100 nodos hasta la fecha. El clúster más pequeño puede ser tan pequeño como 1 TB, mientras que la implementación más grande puede albergar actualmente 30.5 PB de datos. El despliegue se realiza a través de proporcionado Plantillas de AWS CloudFormation y el Inicio rápido de AWS para Qumulo Cloud Q.

Historia relacionada: La arquitectura central de Qumulo se construye teniendo en cuenta la flexibilidad del hardware

La siguiente imagen ilustra una pila mínima que se implementa a través de un CFT que cumple con los principios del marco de buena arquitectura de AWS.

Clúster Qumulo mínimo implementado en una subred privada

Figura 1: clúster mínimo de Qumulo implementado en una subred privada.

Vamos a descomponerlo: Como práctica recomendada, se implementará un clúster de Qumulo en una subred privada. Los tipos de instancia admitidos de m5 y c5n se admiten actualmente y el tipo de instancia determina el rendimiento en gran medida (más información sobre el rendimiento más adelante). El espacio de almacenamiento se compone de volúmenes de EBS. Según el tipo de nodo, los volúmenes son volúmenes GP2 (nodos all-flash) o una combinación de GP2 y SC1 o ST1 (nodos híbridos). Cada nodo obtiene una dirección IP interna estática y, por lo general, 3 direcciones IP flotantes que conmutan por error a los nodos restantes si falla un nodo. Opcionalmente, el clúster también podría configurarse con una IP elástica por nodo si se necesitan direcciones IP públicas.

Se implementará una función Lambda para verificar el estado de todos los volúmenes de EBS y el reemplazo automático si uno o más volúmenes de EBS fallan. Otra función de Lambda recopila métricas de metadatos detalladas del clúster y las almacena en los registros de Amazon CloudWatch.

Un sistema de archivos para AWS creado para el rendimiento y la escalabilidad

Rendimiento de flujo único, lectura o escritura, se limita a 600 MB/s o menos si un tipo de instancia y la configuración de EBS no admiten ese límite superior. Este número equivale al límite de tasa de flujo de TCP único de 5 Gbps de AWS aplicado fuera de un grupo de ubicación de EC2. Este valor podría superarse solo si los nodos de clúster y los nodos de cómputo se implementan en el mismo grupo de ubicación (de manera predeterminada, Qumulo se implementa en un grupo de ubicación de clúster para minimizar la latencia entre los nodos de clúster).

Rendimiento de transmisión múltiple varía según la configuración del volumen de EBS y el tipo de instancia EC2. Los tipos de instancias más pequeñas tienen menos ancho de banda de red y menos ancho de banda de EBS, lo que los somete a créditos de ráfaga. Las configuraciones de EBS más pequeñas también están sujetas a créditos de ráfaga. Para un rendimiento garantizado, respectivo de la línea de base IOPS, elija al menos un tipo de instancia c5n.4xlarge. Luego, ajuste el tipo de instancia para aumentar el rendimiento. Las arquitecturas all-flash deben elegirse para cargas de trabajo de alto rendimiento, especialmente en clústeres de menor capacidad utilizable o cargas de trabajo muy aleatorias. IOPS es otro factor a considerar para cargas de trabajo de archivos pequeños o clústeres de capacidad útil pequeña.

Obtenga más información en GitHub: Qumulo Cloud Q QuickStart: dimensionamiento y rendimiento en AWS (PDF)

El siguiente gráfico muestra el rendimiento de transmisión múltiple para una configuración all-flash donde cada nodo aloja 8 TiB de datos (tenga en cuenta que el eje Y muestra el rendimiento en MB/s en una escala logarítmica):

Rendimiento máximo de lectura de Qumulo Cloud Q All-Flash por clúster y recuento de nodos para diferentes tipos de instancias.

Figura 2: Rendimiento máximo de lectura de Qumulo Cloud Q All-Flash por clúster y recuento de nodos para diferentes tipos de instancias.

Las siguientes estadísticas muestran la latencia de lectura agregada en la base de instalación global de Qumulo. Esta base de instalación global contiene aproximadamente el 70 % de los nodos híbridos (HDD y SSD) de clústeres en la nube y locales. Incluso con la mayoría de los nodos alojando datos en HDD, el 90 % de todas las solicitudes de lectura se atienden con latencias inferiores a 1 ms. Este es el resultado del algoritmo de almacenamiento en caché predictivo inteligente de Qumulo. Permite lecturas rápidas, identifica patrones de E/S y obtiene datos relacionados posteriores del disco en SSD o memoria.

Latencia de lectura agregada en la base de instalación global de Qumulo

Figura 3: latencia de lectura agregada en la base de instalación global de Qumulo.

Acceso a archivos multiprotocolo

Qumulo Permisos de protocolo cruzado (XPP) administra automáticamente los permisos de acceso a archivos en todos los protocolos. XPP permite flujos de trabajo mixtos de protocolo SMB y NFS al preservar las listas de control de acceso (ACL) de SMB, mantener la herencia de permisos y reducir la incompatibilidad de aplicaciones relacionada con la configuración de permisos.

XPP está diseñado para funcionar como tal:

  • Donde no hay interacción entre protocolos, Qumulo opera precisamente según las especificaciones del protocolo.
  • Cuando surgen conflictos entre protocolos, XPP trabaja para minimizar la probabilidad de incompatibilidades de aplicaciones.
  • Habilitar XPP no cambiará los derechos sobre los archivos existentes en un sistema de archivos. Los cambios solo pueden ocurrir si los archivos se modifican mientras el modo está habilitado.

Qumulo XPP mantiene un conjunto interno de ACLS para cada archivo y directorio que puede contener muchas entradas de control de acceso (ACES) y, por lo tanto, construye una estructura de derechos compleja, al igual que Windows o NFSv4.1. (Estos ACLS internos se denominan QACLS). Una vez que se accede a un archivo a través de SMB o NFS, los permisos se traducen o aplican en tiempo real a los permisos de protocolo apropiados.

Para obtener más información, consulte nuestro artículo de la base de conocimientos de Qumulo sobre cómo utilizar permisos de protocolo cruzado (XPP) en Qumulo Core.

Cumplimiento de la traducción para permisos QACLS a NTFS ACLS o POSIX

Figura 4: Traducción/aplicación de permisos QACLS a NTFS ACLS o POSIX.

Qumulo proporciona un conjunto de herramientas que trabajan juntas para consultar la estructura QACL interna. Por ejemplo, el comando de CLI qq fs_get_acl proporcionará una lista de QACL reales de un archivo o directorio determinado:

# qq fs_get_acl --path /
Control: Present
Posix Special Permissions: None

Permissions:
Position Trustee Type Flags Rights
======== =========== ======= ===== ================================================
1 local:admin Allowed Delete child, Execute/Traverse, Read, Write file
2 local:Users Allowed Delete child, Execute/Traverse, Read, Write file
3 Everyone Allowed Delete child, Execute/Traverse, Read, Write file

Another interesting command is:

#qq fs_acl_explain_posix_mode --path /

The output will explain in detail how Qumulo produced the displayed POSIX mode from a file's ACL. Please refer to Cross-Protocol (XPP) Explain Permissions Tools to study an output example.

Next up: The Importance of Data Mobility Between Clusters and Amazon S3 

Now that we've shown you what makes Qumulo Cloud Q a unique file system on AWS and how it solves some of the most common challenges of migrating enterprise data to the cloud, in part 2 you'll learn how to copy objects between S3 buckets and clusters using Qumulo Shift. We take a high-level look at the importance of replication and data movement between data center clusters and Amazon S3; and, we reveal three deployment automation options you can take to simplify cloud migration.

The Definitive Guide to Qumulo on AWS

The Definitive Guide to Qumulo on AWS

Qumulo simplifies migrations to the Cloud where unstructured data is being stored in file systems, making Cloud Q for AWS an attractive choice for many workflows.

Download Now

Written by Dr. Stefan Radtke, CTO, Qumulo, and Jason Westra, Solution Architect, AWS.

Share this post