Azure Native Qumulo ahora disponible en la UE, el Reino Unido y Canadá: Más información

4 formas prácticas de hacer que la gestión de la capacidad de almacenamiento sea menos dolorosa

Escrito por:

A nadie le gusta tirar cosas, especialmente cuando esa "cosa" son datos, que es cómo los sistemas de archivos se llenan. A veces, los sistemas de archivos se quedan sin capacidad debido a un error de ingeniería o de usuario, pero a menudo es algo que sucede durante un día normal. Por lo general, los administradores no conocen el valor detallado de los datos como lo hacen sus usuarios, por lo que no pueden limpiar las cosas de forma segura en nombre del usuario. Pero, en algún momento, algo tiene que irse.

El primer reto para recuperar capacidad es determinar qué eliminar. Para hacer eso, también necesitarás descubrir dónde buscar para encontrar qué limpiar. Si no está familiarizado con la actividad reciente en cada estructura de directorio (¿y quién está?), Puede intentar analizar el sistema de archivos con herramientas estándar. Esto funciona muy bien si el sistema solo tiene diez mil archivos. Pero, ¿y si tiene diez o cien millones o incluso mil millones de archivos? Suponiendo un proceso de un solo subproceso, si cada llamada a estadísticas toma un milisegundo, cien millones de archivos tardan aproximadamente un día en visitar y generan una carga constante de 1000 IOPS. Por lo tanto, no solo su información es un poco antigua, sino que demora mucho tiempo en recibirla, ¡y eso se encuentra en el nivel superior de su búsqueda! Deberá enjuagar y repetir mientras desciende al sistema de archivos.

Descargue la Descripción técnica general de Qumulo para obtener más información sobre cómo hacer que la administración de la capacidad sea menos dolorosa.

Evidentemente, necesitas una solución con mejor rendimiento. Por ejemplo, puede realizar varios subprocesos en el proceso. Con veinte trabajadores realizando llamadas estadísticas, todos actuando en paralelo, puede reducir su operación de un día a un poco más de una hora. El problema con este enfoque es que ahora tiene una carga de estado estable en su sistema de 1000 veces 20 trabajadores, lo que equivale a 20000 IOPS. Esa es una carga de trabajo significativa, y lo importante aquí es que son 20000 IOPS que los sistemas de producción no pueden usar. Todo en nombre de saber dónde está su capacidad en tiempo real.

Cómo solucionar el problema de la gestión de la capacidad de almacenamiento

Cuando se trata de analizar su capacidad, existen algunas técnicas estándar.

1.Haga una copia completa de los datos.

Una técnica es hacer una copia completa de los datos en cuestión como una copia de seguridad y ejecutar llamadas stat en esos metadatos. Este no es un enfoque terrible, ya que utiliza la copia de seguridad en lugar del sistema de producción. Si bien la línea de base de la copia de seguridad es costosa en términos de rendimiento, retirar los cambios del sistema de archivos de producción sería un compromiso razonable. Tenga en cuenta que esta técnica aumenta el costo de su nivel de respaldo porque el software que realiza el análisis tiene valor. Si hace su propio rollo, puede mantener bajo el costo de esta opción.

2. Sea más agresivo al escanear su sistema de almacenamiento

Una opción diferente es ser más agresivo con el escaneo y construir esa funcionalidad en su sistema de almacenamiento, lo que significa que permite que los sistemas externos consulten esos datos o emitan solicitudes para recopilarlos. Este enfoque tampoco es malo. La ejecución de un trabajo local para recopilar metadatos reduce el tiempo de ida y vuelta para todas esas llamadas estadísticas. Usará algunas IOPS porque aún son necesarias las llamadas a pie de árbol y estadísticas, pero la interfaz es más eficiente que algo como SMB o NFS.

3. Utilice un sistema externo de terceros para los análisis de almacenamiento.

Otro enfoque es utilizar un sistema externo de terceros que analice todo lo que tiene y le brinde respuestas en todo el entorno de almacenamiento, incluidos los proveedores de almacenamiento múltiple. Si tiene una gran cantidad de almacenamiento, una herramienta como esta podría ayudarlo a obtener una imagen completa y eso es muy valioso. Una gran cantidad de herramientas que hacen esto también tienen algún tipo de gestión de datos / capacidad de movimiento. Podría usar lo que aprendió sobre su entorno de almacenamiento para configurar el movimiento de datos basado en políticas entre niveles o pasos de flujo de trabajo. La desventaja de este enfoque es que esas herramientas aún tienen que escanearse para encontrar cambios, por lo que realmente no eliminó la carga de IOPS de metadatos de los sistemas de almacenamiento y aún estará un poco atrasado en cuanto a las actualizaciones.

4. Almacenar datos en la base de datos de metadatos existente.

Finalmente, puede eliminar el escaneo y las llamadas de estadísticas con archivos y directorios que actualizan regularmente sus directorios principales y almacenar esos datos en la base de datos de metadatos ya existente. Este enfoque es en realidad una mejora significativa porque la actualización puede ocurrir casi en tiempo real. Si cada objeto con cambios nuevos informa a su elemento primario cada 15 segundos, y si, por ejemplo, hay un árbol de directorios con ocho niveles de profundidad, serán dos minutos para que la raíz descubra acerca de agregar o eliminar en el nivel más profundo . ¡Mucho mejor que una hora o un día! Este es el enfoque que Qumulo utiliza para su análisis en tiempo real.

Otra ventaja para el enfoque de Qumulo. es que, no importa cuánto escanee y no cuantas llamadas de estadísticas realice, aún no puede responder fácilmente la pregunta más importante: "¿Qué datos son importantes?" Todos piensan que sus datos son críticos, pero, con Qumulo, Si alguien discute la importancia de un proyecto que se debe archivar, puede usar los datos analíticos a lo largo del tiempo para demostrar que no se ha tocado en meses o años. Eso agrega claridad a una decisión de almacenamiento por lo demás turbia. A la inversa, estos datos analíticos también le permiten mostrar que, a veces, aunque un archivo sea antiguo, representa un conjunto de datos que todavía se usa con regularidad.

Información sobre la gestión de la capacidad de almacenamiento.

Al igual que con cualquier tarea de ingeniería, depende de usted y su equipo determinar qué enfoque funciona mejor para su entorno. Si experimenta dolor en torno a su capacidad de almacenamiento, aquí hay algunas cosas de alto nivel en las que pensar:

  • No tenga miedo de los vendedores nuevos. Los nuevos participantes en el mercado probablemente tendrán formas más modernas de lidiar con el análisis de capacidad que los proveedores más antiguos y establecidos.
  • Busque optimizaciones de almacenamiento. Todos escanean, así que busque un sistema de almacenamiento con optimizaciones como el almacenamiento en caché de metadatos, métodos inteligentes de podar la búsqueda y escaneo local.
  • Busque una API. Si valora la estrecha integración del flujo de trabajo, asegúrese de tener acceso programático a los datos escaneados, de alguna manera. Una API es mejor, incluso si solo puede consultar una base de datos alojada en el sistema de almacenamiento. Es posible que desee integrar los datos de capacidad en su sistema de gestión de producción o en su administrador de activos de medios, y desea que los datos analíticos sean fáciles de consumir y manipular.
  • Utilice cuotas o volúmenes. Utilice cuotas o volúmenes para administrar el comportamiento de los usuarios y evitar que los usuarios llenen su almacenamiento con sus datos. Por ejemplo, Qumluo tiene cuotas basadas en directorios que se pueden aplicar en tiempo real.

Artículos Relacionados

Ir al Inicio