Sistema de archivos distribuido de Qumulo
ANALÍTICA
Contenido de esta guía (tabla de contenido antigua)
- Visión general del sistema de archivos Qumulo
- ¿Qué incluye la suscripción a Qumulo?
- Tu elección de ambientes.
- Escalabilidad
- ANALÍTICA
- Cuotas en tiempo real
- Snapshots
- Replicación continua
- Instantánea de replicación
- Tienda de bloques escalables (SBS)
- Protección de datos con codificación de borrado.
- Soporte de protocolo
- REST API
Visibilidad y control en tiempo real
El sistema de archivos de Qumulo está diseñado para hacer mucho más que almacenar datos de archivos. También le permite administrar sus datos y usuarios en tiempo real. Los administradores de dispositivos de almacenamiento heredados a menudo pueden verse obstaculizados por la "ceguera de los datos", lo que significa que no pueden obtener una imagen precisa de lo que sucede en su sistema de archivos. El sistema de archivos de Qumulo está diseñado para brindar exactamente ese tipo de visibilidad, sin importar cuántos archivos y directorios haya. Puede, por ejemplo, obtener información inmediata sobre tendencias de rendimiento y hotspots. También puede establecer cuotas de capacidad en tiempo real, que evitan la sobrecarga de aprovisionamiento de cuotas que conlleva el almacenamiento heredado. La información es accesible a través de una interfaz gráfica de usuario y también hay una REST API que le permite acceder a la información programáticamente.
Las características analíticas integradas del sistema de archivos Qumulo son proporcionadas por un componente llamado QumuloDB.
Como es posible
Cuando las personas son introducidas a los análisis en tiempo real de Qumulo y los ven actuar a escala, su primera pregunta suele ser: "¿Cómo puede ser tan rápido?" El rendimiento revolucionario del análisis en tiempo real de Qumulo es posible por tres razones:
- Los análisis de QumuloDB están integrados y totalmente integrados con el sistema de archivos en sí. En los sistemas heredados, las consultas de metadatos se responden fuera del sistema de archivos principal mediante un componente de software no relacionado.
- Debido a que el sistema de archivos se basa en árboles B, QumuloDB analytics puede utilizar un sistema innovador de agregados en tiempo real (más sobre esto más adelante).
- El análisis de QumuloDB es posible debido al diseño optimizado del sistema de archivos, que se debe al uso de los índices del árbol B y los bloques y transacciones protegidos virtualizados del Tienda de bloques escalables de Qumulo (SBS).
Agregación en tiempo real de metadatos.
En el sistema de archivos Qumulo, los metadatos, como los bytes utilizados y los recuentos de archivos, se agregan como archivos y los directorios se crean o modifican. Esto significa que la información está disponible para su procesamiento oportuno sin costosas caminatas en el árbol de sistemas de archivos.
QumuloDB mantiene resúmenes de metadatos actualizados. Utiliza los árboles B del sistema de archivos para recopilar información sobre el sistema de archivos a medida que ocurren los cambios. Varios campos de metadatos se resumen dentro del sistema de archivos para crear un índice virtual.
Los análisis de rendimiento que ve en la GUI y que puede extraer con la API REST se basan en mecanismos de muestreo integrados en el sistema de archivos. Las técnicas de muestreo válidas estadísticamente son posibles debido a la disponibilidad de resúmenes de metadatos actualizados que permiten que los algoritmos de muestreo den más peso a directorios y archivos más grandes. La agregación de metadatos en el sistema de archivos de Qumulo utiliza un enfoque ascendente y descendente.
A medida que cada archivo (o directorio) se actualiza con nuevos metadatos agregados, su directorio principal se marca como "sucio" y se pone en cola otro evento de actualización para el directorio principal. De esta manera, la información del sistema de archivos se recopila y agrega mientras se pasa al árbol. Los metadatos se propagan desde el nodo individual, en el nivel más bajo, hasta la raíz del sistema de archivos a medida que se accede a los datos en tiempo real. Se tiene en cuenta cada operación de archivo y directorio, y esta información finalmente se propaga hasta el núcleo mismo del sistema de archivos. Aquí hay un ejemplo.
El árbol de la izquierda está agregando información de archivos y directorios y la incorpora a los metadatos. Luego, se pone en cola una actualización para el directorio principal. La información sube, desde las hojas hasta la raíz. En paralelo a la propagación ascendente de los eventos de metadatos, un recorrido periódico comienza en la parte superior del sistema de archivos y lee la información agregada presente en los metadatos. Cuando el recorrido encuentra información agregada actualizada recientemente, poda su búsqueda y pasa a la siguiente rama. Asume que la información agregada está actualizada en el árbol del sistema de archivos desde este punto hacia las hojas (incluidos todos los archivos y directorios contenidos) y no tiene que profundizar más para obtener análisis adicionales. La mayor parte del resumen de metadatos ya se ha calculado e, idealmente, el recorrido solo necesita resumir un pequeño subconjunto de metadatos para todo el sistema de archivos. En efecto, las dos partes del proceso de agregación se encuentran en el medio sin tener que explorar el árbol completo del sistema de archivos de arriba a abajo.
Muestreo y consultas de metadatos.
Un ejemplo de la analítica en tiempo real de Qumulo son sus informes de puntos calientes de rendimiento. Aquí hay un ejemplo de la GUI:
Representar cada operación de rendimiento e IOPS dentro de la GUI sería inviable en sistemas de archivos grandes. En su lugar, las consultas QumuloDB utilizan un muestreo probabilístico para proporcionar una aproximación estadísticamente válida de esta información. Los totales de las operaciones de lectura y escritura de IOPS, así como las operaciones de lectura y escritura del rendimiento de E / S, se generan a partir de muestras recopiladas de un búfer en memoria de más de 4,000 entradas que se actualizan cada pocos segundos.
El informe que se muestra arriba muestra las operaciones que tienen el mayor impacto en el clúster. Estos se representan como puntos de acceso en la GUI.
La capacidad de Qumulo para usar un muestreo probabilístico estadísticamente válido solo es posible debido a los metadatos resumidos para cada directorio (bytes usados, recuentos de archivos) que QumuloDB mantiene continuamente actualizado. Es un beneficio único de las técnicas de software avanzadas de Qumulo que no se encuentran en ningún otro sistema de almacenamiento de archivos.