Una pesadilla de almacenamiento: ¡el taxista de "archivo pequeño" llega a tocar!

Era una noche oscura y tormentosa.

El teléfono suena. Es la oficina.

Tu corazón cae con sorpresa y horror.

Sus sistemas están completamente sin almacenamiento ...

Este es un escenario de pesadilla para muchos administradores de sistemas de almacenamiento. Hace todo lo posible para comprender sus requisitos de almacenamiento, compra el almacenamiento que cree que necesita, incluso un poco más (o mucho más) para que pueda tener algo de margen para situaciones imprevistas, pero aún así se sorprende y se queda sin almacenamiento .

Gestionar archivos pequeños

Una cosa que a menudo toma por sorpresa a los administradores de sistemas es lo que llamamos el "impuesto de archivos pequeños". Resulta que los sistemas de almacenamiento de escalamiento horizontal heredados no hacen un muy buen trabajo cuando se trata de administrar archivos pequeños. Por pequeño, nos referimos a cualquier cosa por debajo de 128 KB. Los archivos pequeños consumen de dos a tres veces el almacenamiento que cabría esperar; es un impuesto bastante elevado si hay muchos.

Esto se debe a que estos sistemas se basan en un diseño de hace décadas que los obliga a duplicar (o duplicar, a veces incluso duplicar archivos) bajo un umbral 128KB. La duplicación de archivos pequeños no solo utiliza una codificación extremadamente ineficiente, sino que el espacio necesario para ello se deduce de lo que el proveedor a menudo informa como capacidad utilizable. Una publicación de blog anterior proporciona más detalles sobre esto ("¿Realmente puedo usar 100% de mi capacidad? ¡Con Qumulo la respuesta es sí!").

La duplicación es extremadamente ineficiente porque simplemente crea dos o tres copias completas de los datos que se protegen que residen en diferentes discos. Si bien esto es efectivo en términos de garantizar la protección de datos, reduce el almacenamiento disponible a la mitad en el caso de duplicación doble y en dos tercios en el caso de duplicación triple. A escala terabyte, esto es increíblemente ineficiente; a escala de petabytes, es alucinante que un proveedor requiera que use entre la mitad y las dos terceras partes de su almacenamiento para la protección de datos.

Hay una manera de terminar con esta pesadilla.

Protección de datos a nivel de bloque frente a nivel de archivo

A escala, es ineficiente proteger archivos pequeños simplemente creando copias. Qumulo entendió esto desde el principio. Desarrollamos un enfoque fundamentalmente diferente para la protección de datos, protegiendo a nivel de bloque frente a nivel de archivo. Trabajando a nivel de bloque en lugar de a nivel de archivo usando nuestro personalizado codificación de borrado permite proteger los datos de manera efectiva sin tener que crear una copia uno a uno de todo el volumen de datos.

Operar en el bloque en lugar del nivel de archivo significa que no tiene que proteger cada archivo individualmente. En cambio, los datos de bloque se codifican en segmentos parcialmente redundantes que se almacenan en medios físicos separados.

Al administrar archivos pequeños, la protección a nivel de bloque brinda una eficiencia de almacenamiento de hasta un 40% más que la protección basada en archivos. Incluso obtiene un aumento del 20% en la eficiencia en archivos grandes. De hecho, puede almacenar miles de millones de archivos pequeños con la misma eficacia que los grandes.

Impuesto de archivo pequeño (ejemplo antes y después de la migración)

Aquí hay un ejemplo del impuesto de archivo pequeño, tomado de un sitio de cliente real de Qumulo.

Migración de almacenamiento en la nube antes y después

Sistema de la competencia heredado antes de la migración | Almacenamiento de archivos en la nube híbrida de Qumulo después de la migración

Este cliente migró alrededor de 30 millones de archivos pequeños a un clúster de Qumulo desde un clúster de almacenamiento heredado. El cuadro de diálogo de la izquierda (Legacy Competitor System - Before Migration) muestra la cantidad de espacio que ocuparon esos archivos en el sistema del proveedor heredado, que refleja los archivos pequeños. El cuadro de diálogo de la derecha (Qumulo Hybrid Cloud File Storage - After Migration) muestra la cantidad de espacio que ocupan los archivos en el clúster de Qumulo.

En este ejemplo del mundo real, puede ver el resultado del impuesto a los archivos pequeños del proveedor heredado: ¡el almacenamiento de estos archivos consume espacio utilizable en más de tres veces los bytes de archivos de usuario almacenados! Se necesitó 33.2TB de capacidad utilizable para almacenar 9.33TB de datos de archivo. En el clúster Qumulo, solo tomó 9.49TB. Qumulo elimina el impuesto a los archivos pequeños y almacena archivos pequeños de manera tan eficiente como los archivos grandes.

¿Qué impacto tienen los archivos pequeños en el almacenamiento de datos?

Tal vez se pregunte, "¿qué impacto tiene este impuesto de archivo pequeño en mi almacenamiento?"

Con los sistemas heredados, es imposible decir cuánto almacenamiento usará a menos que sepa de antemano el tamaño exacto de cada archivo que planea escribir, vea cuántos caen por debajo del umbral 129KB y luego haga los cálculos en cada archivo. ¡Hable de una pesadilla, especialmente cuando se trata de miles de millones de archivos!

Como resultado, es imposible saber cuánta capacidad utilizable tiene realmente o cuándo se agotará. En su lugar, tendrá que aprovisionar en exceso para asegurarse de estar cubierto. Eso significa que en realidad está desperdiciando dinero de dos maneras: una, por la capacidad "utilizable" que está perdiendo debido al impuesto de archivo pequeño, y dos, por la capacidad adicional que está comprando.

Qumulo simplifica mucho la estimación de la cantidad de almacenamiento que necesitará. En lugar de esperar lo mejor, o luchar con estimaciones complejas de la combinación de archivos grandes y pequeños en sus cargas de trabajo y esperar que no estén demasiado lejos de la marca, puede simplemente mirar la interfaz de usuario web para ver cuánto espacio hay disponible. . Sus archivos almacenados ocuparán la misma cantidad de espacio, independientemente de cuántos sean grandes o pequeños. Sin "impuestos de archivo pequeño". No hay sorpresas. Sin compras excesivas. Sin sobreaprovisionamiento.

Qumulo también proporciona la capacidad de monitorear el rendimiento, la capacidad y el uso en tiempo real, incluso para la numeración de recuentos de archivos en miles de millones. Con nuestro análisis en tiempo real, puede obtener información y evitar problemas antes de que ocurran. Además, puede planificar eficientemente el crecimiento futuro. El análisis actualizado permite a los administradores identificar rápidamente los problemas y controlar de manera efectiva cómo se utiliza el almacenamiento.

Evaluación de soluciones de almacenamiento

Cuándo evaluar soluciones de almacenamiento de datos, asegúrese de comprender las implicaciones de protección de datos (también conocido como el impuesto sobre archivos pequeños) en archivos pequeños. Pregunte si reflejan archivos pequeños y, de ser así, cuántas veces. Comprenda si comprará el doble, o incluso el triple, de almacenamiento de lo que realmente necesita.

Termina tu pesadilla de almacenamiento ahora. Busque una solución de almacenamiento de archivos que administre eficientemente sus datos sin importar el tamaño de los archivos que tenga. Qumulo ofrece la transparencia, la previsibilidad y el rendimiento que necesita para el almacenamiento de datos moderno de la era digital.

Comparta este artículo