Prácticas analíticas para racionalizar las operaciones de investigación e infraestructura

El Instituto para la Evaluación de la Salud y la Métrica muestra cómo los análisis nativos de Qumulo proporcionan información sobre sus datos de investigación. También van un paso más allá y muestran cómo utilizan la API de Qumulo para crear su propio panel de control integral para informar sobre toda su flota de Qumulo.

Transcripción de webinar

Hola. Mi nombre es Felix Russell. Estoy con el Instituto de Métricas y Evaluación de la Salud en la Universidad de Washington en Seattle. Y estoy aquí para informarle sobre las prácticas analíticas para optimizar las operaciones de investigación y de infraestructura que he encontrado al trabajar en grandes HPC junto con Qumulo. Entonces, un pequeño manual sobre nuestra organización, estamos financiados a través de una combinación de subvenciones públicas y privadas. La mayor parte de nuestro dinero se proporciona realmente a través de Fundación Bill y Melinda Gates que han sido de gran ayuda en nuestros inicios y crecimiento continuo.

Nuestros objetivos son evaluar las métricas de mortalidad y factores de riesgo para una variedad de enfermedades y causas de ajuste del año de vida, por lo que descubrir qué restará más de su vida si contrae es una forma rápida de pensar al respecto, agregando métricas de salud de una variedad de fuentes académicas. Y también realizamos evaluaciones de la eficacia de los servicios de salud. Y averiguamos si, por ejemplo, el servicio de salud nacionalizado de un país es eficaz en hacer su trabajo por la cantidad de dinero que paga para brindar atención médica a sus ciudadanos. Entonces, eso encaja muy bien con nuestros clientes. Nuestros clientes también son grandes organizaciones filantrópicas que utilizan los datos que proporcionamos y grandes ministerios de salud gubernamentales e instituciones académicas. Escribimos artículos académicos y somos muy, muy citados, de lo cual estamos orgullosos.

Al final del día, nuestros productos son visualizaciones y trabajos académicos. Entonces, en IHME, usamos una variedad de herramientas de software para modelar, ese no será el enfoque de mi presentación en este momento. Estoy en el equipo de infraestructura y me estoy enfocando en el back-end, cómo conseguir los investigadores, las herramientas que necesitan para tener éxito en su modelado y las actividades geoespaciales que hacen estos bonitos gráficos y visualizaciones que ven aquí en la derecha. Las tuberías de compilación que utilizan otros equipos y nosotros son Luigi, Jenkins y GoCD. Usamos una variedad de productos de bases de datos para respaldar nuestras visualizaciones y nuestros procesos de transformación dentro de HPC. Usamos productos Percona y MariaDB, así como algunos SQL y Postgres realmente estándar.

Para la web, nuestros productos se visualizan utilizando marcos HTML que son una combinación de código abierto y de cosecha propia. Entonces, en el Institute for Health Metrics, tenemos un gran grupo de hardware que se divide en varios grupos para ayudarnos a lograr nuestros objetivos de modelado en todos nuestros grupos. Tenemos 500 nodos de cómputo x86 heterogéneos que tienen alrededor de 25,000 núcleos que abarcan generaciones y arquitecturas de AMD e Intel, y aproximadamente 150 terabytes de memoria a nuestra disposición.

Entonces, Qumulo tiene una gran historia con nuestra organización. Nos han proporcionado cuatro clústeres que hemos implementado en dos centros de datos. Tenemos un nivel de velocidad que consta de 158 terabytes en nuestro Plataforma QC24, esa es la única plataforma nueva de Qumulo que consta de 11 nodos. Y para el nivel cero, tenemos unos tres petabytes de Nodos QC208. Hay 21 de ellos, y están proporcionando la mayor parte de las necesidades de almacenamiento temporal. Hemos tenido una buena experiencia con Qumulo. Tienen una gran historia de tolerancia a fallas probada frente a fallas y grandes cargas. Las actualizaciones son frecuentes e indoloras. La aplicación de la política de instantáneas es sólida y fácil de hacer incluso para un usuario final, y eso nos gusta porque nos permite darle la tarea de recuperar datos instantáneos al usuario final y no tener que lidiar con ellos en nuestra infraestructura o equipo de DevOps. .

Programas de El servicio al cliente ha sido excelente.. Tenemos una gran relación con el equipo. El cliente se enfrenta a un equipo de ingenieros en Qumulo que ha sido amable con su tiempo y esfuerzo incluso en horas no estándar. Y, por supuesto, proporcionan excelentes métricas y API para interactuar con el clúster y ver lo que está haciendo. Entonces, las métricas nativas de Qumulo serán el foco de esta diapositiva, porque voy a comparar lo que hacen con lo que puedes hacer con la API. Los paneles de control de Native Cluster, que son la dirección web principal para que inicie sesión y administre la agrupación, la GUI web muestra información básica de áreas de tiempo con rendimiento e IOPS obviamente, además de encontrar datos de puntos de acceso actuales para ver qué archivos se están escribiendo actualmente. para leer o leer más.

Los laboratorios DataViz, que no se muestran aquí a la derecha, son una función conveniente en la que Qumulo está trabajando actualmente y que le mostrará información agregada de clústeres, así como información histórica más profunda sobre tendencias. Entonces, el Instituto de Métricas de Salud, tenemos herramientas de registro y monitoreo muy dispares y todas tienen diferentes roles y estamos intentando converger en una solución. Hemos decidido que el Elasticsearch, ELK Stack, es deseable y es genial porque es un desarrollo interactivo. Es bueno para alertar y es rápido en la búsqueda debido a que pierde el back-end, y es fácil orquestar su creación y escalado usando Rancher, que es lo que ves aquí arriba a la derecha. Los cuadros de mando que se muestran en Kibana están justo debajo de él y ese es el panel, por ejemplo, que muestra la suite de administración de configuración, Salt y sus aires en nuestro entorno para que podamos mejorar nuestra administración de configuración. Es una herramienta poderosa para graficar y agregar muchos y muchos datos.

ELK Stack es muy bueno en su tolerancia a fallas, su rendimiento y volumen de documentos. Los tiempos de consulta son muy rápidos. Puede envejecer sus documentos antiguos y puede confiar muy bien en ellos. Y para Decoy, incluí la desventaja, que es demasiado bueno y eso es adictivo. En nuestro entorno, Elastic Search proporciona Agregación Syslog y Búsqueda que es muy conveniente para detectar patrones y para encontrar entradas de registro muy rápidamente. Las métricas del host y del grupo de hosts para los datos principales, así como los datos ácidos, y para ver nuestro programador HPC a través del tiempo con ranuras libres. Y ahora, estamos apoyando la ingestión de métricas de nuestros clusters de scratch.

Entonces, este deseo de convergencia y toda la información en un solo lugar genera un proyecto llamado Qumulo-analytics-elasticsearch. Y nos permite tomar los datos de los clústeres de Qumulo a nuestra disposición y agregar todos esos datos en un solo lugar. Y nos brinda métricas de agregación entre clústeres por cliente y rendimiento por ruta, puntos de acceso, seguimiento de tendencias de capacidad y nos da nuestra propia definición sobre cuánto tiempo queremos retener los datos y qué tan precisos o cuál es el intervalo de los datos. queremos retener a medida que envejece. Nos da mucha flexibilidad en nuestro seguimiento. Es muy bueno porque este proyecto aquí está disponible, está en GitHub. Es de código abierto. Es una pequeña aplicación de Python, y es muy fácil de activar y monitorear incluso sin un clúster de búsqueda elástica a escala de producción.

Puede usar una pequeña implementación acoplada del punto final de ELK Stack, su Qumulos, sus clústeres de Qumulo, los datos registrados por API en su computadora portátil, por ejemplo, para probar el sitio web que se encuentra en la parte inferior aquí. Y en el espíritu de eso, les mostraré una breve demostración de cómo se ve eso en acción. Aquí arriba, tenemos las rutas más grandes en un grupo determinado separadas por un grupo. Y aquí, los caminos más grandes son visibles a través de los grupos. Para que pueda ver los datos integrados aquí, los investigadores, por ejemplo, son los mayores infractores sobre quién almacena más archivos o quién almacena más datos. Es fácil detectar tendencias en los clústeres como este para clústeres específicos. Las métricas de rendimiento de lectura y escritura también se pueden rastrear aquí y el archivo y metadatos más detallados en IOPS, puede vigilarlo históricamente aquí. La serie temporal de los datos se puede definir fácilmente allí mismo. Si desea profundizar en un momento más específico, simplemente haga clic y arrastre y los datos coincidentes se volverán a representar en consecuencia.

Aquí abajo, tenemos el rendimiento para los hosts correctos, el hecho de que este nombre de host esté en la parte superior es una buena señal. Tenemos una gran cantidad de datos que se están migrando, lo que significa que este host está utilizando la mayor parte del tráfico en todos nuestros clústeres de Qumulo, consume la mayor cantidad de datos y está leyendo y escribiendo con mayor intensidad en el rendimiento. Existe esa métrica para escribir y para leer, y aquí tenemos el rendimiento máximo para archivos. Esto es para ver puntos de acceso, el tiempo de la serie de tiempo definido actual para ver en qué archivos se escriben o leen los más activos. Y este es solo un ejemplo de lo que puede hacer con los datos del proyecto Qumulo-analytics-elasticsearch.

La metodología para este proyecto fue bastante simple, usando colecciones de Python y bibliotecas de sockets debajo de Python y el cliente Qumulo_api, el cliente REST que está incrustado dentro de Python. Y elasticsearch-py, que es otro contenedor de cliente REST para Python, y los datos que el punto final Qumulo_api encaja en bruto son fácilmente visibles aquí desde la parte superior derecha. Es una especie de datos sin clasificar muy crudos. El script es bueno para leer eso y enviarlo a la búsqueda elástica, ya sabes, de una manera más útil. Y eso concluye mi presentación, y quiero agradecer especialmente a mis gerentes y a Qumulo por darme el tiempo y los recursos necesarios para que esto suceda. Y gracias por tomarse el tiempo de ver la presentación.

Habilidades

Publicado el

31 de julio de 2018