Explicación de la codificación de borrado frente a RAID: métodos de protección de datos

Escrito por:

La codificación de borrado (EC) es uno de los métodos más conocidos para la protección de datos, debido en parte a su eficiencia, ya que hay más disco disponible para datos en comparación con RAID y estrategias de duplicación.

¿Qué es la codificación de borrado y cómo se compara con los esquemas de protección de datos RAID y duplicación? ¿Cuáles son las ventajas y desventajas de la codificación de borrado en comparación con otros métodos de protección de datos, como la creación de bandas RAID y la duplicación? Esta publicación de blog responderá estas preguntas y explicará cómo Qumulo aprovecha la codificación de borrado en sus instancias de almacenamiento locales para maximizar el rendimiento y la eficiencia mientras protege contra fallas de hardware.

¿Qué es la codificación de borrado?

Erasure Coding es un método de protección de datos de almacenamiento que aprovecha las matemáticas avanzadas para permitir que un sistema de almacenamiento regenere bloques de datos perdidos comparando los bloques de datos supervivientes con los bloques de paridad que los acompañan. norte.

Borrado de codificación frente a RAID: pros y contras

Para ayudar a explicar cómo la codificación de borrado es superior a otros métodos de protección de datos, es útil comprender las diversas formas de protección de datos que existen, así como sus ventajas y desventajas.

Matriz redundante de discos económicos (RAID)

RAID existe desde hace mucho tiempo. La configuración de protección de datos más básica es RAID1, también llamada Mirroring. Como sugiere su nombre, la duplicación implica escribir todos los datos simultáneamente en dos (o más) unidades, haciendo dos copias idénticas.

Si uno de los discos en una configuración de duplicación RAID1 falla, los datos perdidos se pueden recuperar de la 'imagen duplicada' ya que cada copia reside en su propio disco independiente. La duplicación es sencilla de implementar, pero tiene algunas desventajas. Dado que la duplicación requiere al menos una copia redundante de todo el conjunto de datos, es un desperdicio en términos del espacio necesario para la protección de datos. Además, la duplicación solo puede manejar una falla de una sola unidad a la vez, lo que generalmente no es suficiente protección para la mayoría de los escenarios de falla, particularmente a medida que aumentan los tamaños de los clústeres.

Más allá de la opción de duplicación de RAID1, el estándar RAID ofrece otras configuraciones para optimizar el rendimiento, la protección o ambos. Las opciones incluyen RAID5, en el que un grupo de discos duros (normalmente entre 5 y 10) se unen en una única matriz, y un disco del conjunto se utiliza para datos de paridad. Otro enfoque, llamado RAID6, utiliza el mismo enfoque básico, pero dedica dos discos separados en el conjunto para almacenar datos de paridad. Otra configuración, RAID10, refleja todo el conjunto de discos en un conjunto de discos idéntico.

Cada una de estas opciones tiene sus propias compensaciones. Tanto RAID5 como RAID6 proporcionan un excelente rendimiento de lectura, pero el rendimiento de escritura es más lento porque cada operación de escritura requiere el cálculo de uno o dos bloques de paridad. Además, estas configuraciones RAID más avanzadas pueden volverse extremadamente complejas y difíciles de administrar y mantener. Y, en caso de falla de un componente, los tiempos de reconstrucción con RAID pueden ser inaceptablemente lentos, lo que afecta significativamente el rendimiento de los usuarios.

Codificación de borrado

La pila de almacenamiento local de Qumulo incluye Qumulo Tienda de bloques escalables (SBS), que es la capa base que permite una protección eficiente de datos basada en bloques mediante codificación de borrado en lugar de RAID.

A diferencia de la creación de bandas RAID o la duplicación, la codificación de borrado proporciona protección escalable para el almacenamiento masivo de datos. La codificación de borrado ofrece mejor rendimiento, más flexibilidad y mayor eficiencia, lo que permite un crecimiento ilimitado y al mismo tiempo mantiene la protección total de los datos y la capacidad de respuesta en un clúster Qumulo local.

El algoritmo de codificación de borrado de Qumulo se basa en Reed-Salomón principios de corrección de errores, maximizando el rendimiento y la eficiencia utilizando las mejores prácticas establecidas. Además, Qumulo Protección de datos adaptable El soporte significa que el marco de codificación de borrado de su clúster Qumulo puede ajustarse para lograr una mayor eficiencia a medida que su clúster crece.

Explicación de la codificación de borrado (ejemplos)

La codificación de borrado es más fácil de entender con ejemplos. Aquí hay un ejemplo de nuestro algoritmo de codificación 3,2:

En una codificación 3,2, tres bloques (m = 3) se distribuyen en tres dispositivos físicos distintos. Los bloques 1 y 2 contienen los datos del usuario que queremos proteger (n = 2) y el tercer bloque contiene datos de paridad. El contenido del bloque de paridad se calcula utilizando el algoritmo de codificación de borrado.

Dado que cada bloque se escribe en una unidad separada, cualquiera de las tres unidades podría fallar y la información almacenada en los bloques 1 y 2 aún está segura porque se puede volver a crear a partir del bloque de paridad.

Cómo funciona la codificación de borrado

Así es como funciona. Si el bloque de datos 1 está disponible, el sistema simplemente lo lee. Lo mismo ocurre con el bloque de datos 2. Sin embargo, si falta el bloque de datos 1, el sistema de codificación de borrado lee el bloque de datos 2, más el bloque de paridad, y reconstruye el valor del bloque de datos 1.

De manera similar, si el bloque de datos 2 reside en el disco averiado, el sistema lee el bloque de datos 1 y el bloque de paridad. SBS siempre se asegura de que los bloques estén en diferentes ejes para que el sistema pueda leer de los bloques simultáneamente.

Una codificación 3,2 tiene una eficiencia de 2/3 (n / m) o 67%. Si bien es mejor que la eficiencia del 50% de la duplicación, la codificación 3,2 todavía solo puede proteger contra una falla de un solo disco.

La codificación de borrado proporciona protección de datos configurable

La codificación de borrado se puede configurar para optimizar el rendimiento, optimizar el tiempo de recuperación en el caso de medios fallidos u optimizarse para una mayor resistencia, hasta cuatro discos fallidos o cuatro nodos fallidos a la vez. Generalmente, el aumento de la protección se realiza a costa de la capacidad utilizable.

Como mínimo, Qumulo utiliza la codificación 6,4, que almacena un tercio más de datos de usuario en la misma cantidad de espacio que la duplicación, y tiene la capacidad de tolerar dos fallas de disco en lugar de solo una como la duplicación o 3,2. En una configuración 6,4, incluso si dos bloques que contienen datos de usuario no están disponibles, el sistema solo necesita leer los dos bloques de datos restantes y los dos bloques de paridad para recuperar los datos faltantes.

Entonces, ¿qué significa todo ésto?

Al trabajar a nivel de bloque en lugar de a nivel de archivo como otras plataformas de archivos, el uso exclusivo de codificación de borrado de Qumulo no solo hace posible proteger los datos de manera efectiva sin tener que crear una copia 1:1 de todo el volumen de datos, sino que también significa el tamaño de archivos no tiene ningún impacto en los tiempos de codificación y recuperación. Ya sea que los archivos sean de tamaño gigantesco o pequeño, el rendimiento de codificación y recuperación es más que rápido, también es confiable.

Otros sistemas pueden tardar de horas a días, o más en recuperarse de un evento, según la combinación de tamaños de archivos almacenados en el clúster. Qumulo se recupera de forma rápida y confiable sin afectar el rendimiento, independientemente de la combinación de datos de archivos almacenados. Esto también permite a los clientes de Qumulo la capacidad de aprovechar las unidades más grandes y económicas del mercado sin riesgo.

¡Protección de datos en las instancias nativas de la nube de Qumulo!

Scalable Block Store gestiona la codificación de borrado en clústeres físicos (locales) de Qumulo únicamente. Instancias de Qumulo nativas de la nube, como Qumulo nativo de Azure (ANQ), se basan en los propios servicios de datos persistentes del proveedor de la nube, por ejemplo, Azure Blob Storage.

Nota del editor: Publicada originalmente el 3 de noviembre de 2021, esta publicación de blog se ha actualizado desde entonces para garantizar su precisión y exhaustividad.

0 0 votos
Valoración del artículo
Suscríbete
Notificarme sobre
invitado
0 Comentarios
Más antiguo
Más Nuevos Más votados
Comentarios en línea
Ver todos los comentarios

Artículos Relacionados

0
Me encantaría tus pensamientos, por favor comenta.x
Ir al Inicio