Azure Native Qumulo ahora disponible en la UE, el Reino Unido y Canadá: Más información

Creando el éxito del cliente con el monitoreo basado en la nube

Escrito por:

Una de las cosas de las que estamos más orgullosos en Qumulo es la relación que tenemos con nuestros clientes. Los apoyamos con un equipo de Éxito del cliente dedicado que se comunica a través de Slack y por teléfono, y utiliza el monitoreo basado en la nube para resolver cualquier problema que los clientes tengan de manera eficiente y tan rápida como sea posible. Los clientes son nuestro campo magnético, en el corazón de todo lo que hacemos.

En Qumulo, crear, almacenar y construir con datos es nuestro superpoder, y eso significa que medimos todo, incluida nuestra capacidad para satisfacer las necesidades de nuestros clientes para resolver sus problemas con facilidad. Esa métrica en nuestra industria se conoce como Net Promoter Score (NPS) de satisfacción del cliente, y el NPS de Qumulo alcanzado 91 en el último trimestre de nuestro año fiscal. ¡Quizás aún más impresionante es que nuestro índice de satisfacción del cliente sigue aumentando a medida que crece nuestra base de clientes!

Ahora, soy ingeniero y no reconocí el término "Éxito del cliente" cuando me uní a la empresa hace unos años. Hoy en día, entiendo que es como "Atención al cliente" con esteroides: proactivo, orientado a soluciones y dedicado a asegurando el el cliente es realmente exitoso en el uso de nuestra plataforma de datos de archivos para lograr sus objetivos.

Investigación de problemas con el monitoreo basado en la nube 

¿Cómo Qumulo's Equipo de éxito del cliente (CS) resolver problemas espinosos en el campo con tanta rapidez? Bueno, muchos de nuestros clientes han habilitado el monitoreo basado en la nube o "Mission Qontrol" (tenemos algo para la letra Q aquí), que es una función de teléfono a casa que envía una gran cantidad de métricas de salud del sistema a nuestro sistema de análisis de datos. . Internamente, nuestro equipo de CS puede extraer y visualizar gráficos de métricas de salud contra sus datos para obtener una visión realmente detallada del comportamiento de nuestro sistema, que está diseñado para administrar una gran cantidad de complejidad para nuestros clientes. 

Para visualizar los datos de las métricas de salud, utilizamos una aplicación de código abierto llamada Grafana, que puede extraerse de una variedad de fuentes de datos. De manera interna, diseñamos la canalización de datos que obtiene todos los datos de métricas de salud de nuestros clústeres de clientes, se almacenan de forma segura en una base de datos y realiza las transformaciones adecuadas a lo largo del camino. 

Caso en cuestión: ver el problema

Recientemente, un cliente de investigación biomédica actualizó su clúster de Qumulo y, unos días después, los administradores de datos notaron que habían alcanzado un límite en las instantáneas de sistemas de archivos existentes. Tenemos un límite alto en la cantidad de instantáneas, solo para asegurarnos de que algún proceso no se salga de control, y de hecho, aquí estaba. Pero, ¿por qué fue eso? Después de todo, el cliente estaba usando instantáneas de forma rutinaria, como parte de nuestra función de replicación, que crea y elimina instantáneas automáticamente, con una cadencia de 1 minuto. Claramente, esto era algo que necesitaba más investigación.

Usando nuestro panel de monitoreo basado en la nube de Mission Qontrol, los investigadores de CS pudieron confirmar rápidamente que el producto estaba en su límite de instantáneas y luego identificar que el uso de la CPU era realmente alto en un solo nodo. En este caso, una cantidad extraordinaria de "permisos establecidos" (setattr) las operaciones estaban entrando en ese nodo. El cliente también pudo ver que las operaciones de limpieza de instantáneas estaban tardando más de lo habitual. 

Con todo eso en mente, entendieron que las operaciones de setattr estaban creando rápidamente una gran cantidad de trabajo atrasado para la limpieza de instantáneas y haciendo que las instantáneas se acumularan lentamente. El sistema de monitoreo contiene miles de métricas de salud para cada nodo, sin embargo, los investigadores pudieron navegar a través de todo fácilmente, a través de la visualización de datos como se muestra en las Figuras 1 a 4.

¿Cómo recopilamos todos estos datos sobre las métricas de salud del sistema?

Cuando lanzamos con nuestros primeros clientes en 2013, sabíamos que la capacidad de respuesta a los problemas de los clientes sería clave para nuestro éxito, por lo que construimos un sistema básico y listo con estadísticas y alertas clave de los clientes. Desde entonces, nuestra capacidad de monitoreo en la nube se ha vuelto mucho más inteligente. Hemos ampliado la cantidad de métricas de salud que se informan a más de 10,000 métricas diferentes rastreadas por nodo, a veces incluso por disco.

En el último año, continuamos invirtiendo en esta arquitectura al dividir el servicio en varios componentes con su propio enfoque: un servidor web para capturar las métricas entrantes, un sistema de cola distribuida para almacenarlas en búfer y administrar la distribución a muchos consumidores internos. y una buena base de datos analítica para albergar los datos y facilitar la consulta por parte de los investigadores.

La actual arquitectura de monitoreo basada en la nube de Mission Qontrol respalda el análisis de datos de manera eficiente con colas distribuidas al separar los consumidores de datos entre sí y los sistemas de producción del cliente.

Para el sistema de cola, elegimos RabbitMQ porque era fácil de usar, tenía la funcionalidad que necesitábamos con una API amigable y parecía tener una comunidad de usuarios amplia y satisfecha. Lo hemos estado ejecutando durante aproximadamente un año y lo hemos encontrado muy confiable.

Con este volante en el medio, distribuyendo los datos a todos los consumidores de datos, podemos hacer muchas cosas. Podemos analizar los problemas específicos de los clientes, como el de la institución de investigación de la que hablamos antes; podemos hacer análisis agregados con los miles de millones de archivos almacenados en nuestros clústeres; podemos evaluar qué tan bien se están desempeñando las nuevas funciones para nuestros clientes e identificar las mejoras adicionales que deberíamos ofrecer; y podemos estudiar cómo ha cambiado el uso de diferentes funciones del producto a lo largo del tiempo.

¿Y dónde se almacenan todos estos datos? En Qumulo, por supuesto. De hecho, tenemos dos clústeres de Qumulo, uno en nuestro centro de datos y un espacio de nombres en la nube, por lo que estamos aprovechando al máximo el poder de Plataforma de datos de archivos Qumuloy, por supuesto, "comer nuestra propia comida para perros".

Más información
Contacto

Haz una prueba de manejo. Haga una demostración de Qumulo en nuestros laboratorios prácticos interactivos.

Suscríbete al blog de Qumulo para historias de clientes, conocimientos técnicos, tendencias de la industria y noticias de productos.

Artículos Relacionados

Ir al Inicio