Datos genómicos y secuenciación
Almacene y administre miles de millones de archivos pequeños de manera eficiente. Programe una DemostraciónResumen de la soluciónLas soluciones de datos heredados no son suficientes
La secuenciación de próxima generación (NGS) ha aumentado dramáticamente los requisitos de almacenamiento de datos genómicos.
A medida que los secuenciadores se vuelven más avanzados, producen más datos. Además, la eficiencia ha reducido los costos, lo que significa que más organizaciones pueden hacer más secuencias.
Los secuenciadores producen tantos datos que no es raro que un solo laboratorio genere más de mil millones de archivos en un año. A nivel mundial, los datos de secuencia se duplican aproximadamente cada siete meses y están superando a YouTube, Twitter y astronomía en términos de crecimiento de almacenamiento.
Qumulo puede ayudar
Los administradores de TI están bajo presión para encontrar formas de expandir y administrar la infraestructura de almacenamiento. Los sistemas de almacenamiento heredados, que se basan en diseños de hace 15 o 20 años, no pueden satisfacer las demandas de los flujos de trabajo de NGS modernos. Las organizaciones de TI ahora se ven obligadas a utilizar diferentes soluciones para diferentes partes de sus flujos de trabajo de NGS para compensar las ineficiencias en sus sistemas heredados. Múltiples sistemas agregan complejidad, lo que se traduce en mayores costos de mantenimiento.
Varios sistemas también pueden generar silos de datos, por lo que es posible que un grupo de investigadores no pueda acceder a los datos que otro equipo está utilizando. La falta de colaboración puede ralentizar el tiempo que se tarda en obtener resultados, lo que puede retrasar el tiempo que tarda un producto en llegar al mercado.
CATEGORIAS
Qumulo Storage para secuenciación genómica
El sistema de archivos de Qumulo es una solución ideal para almacenar, administrar y acceder a datos de secuenciación genómica.
Rendimiento
El sistema de archivos de Qumulo maneja archivos pequeños, como TIFF y BCL, tan eficientemente como los grandes. Con Qumulo, los investigadores pueden realizar sus análisis en tiempo real, lo que se traduce en eficiencia de costos y tiempo de comercialización más rápido.
Escalabilidad
Cada vez que los clientes agregan un nodo a un clúster de Qumulo, se escalan de forma lineal, tanto en términos de capacidad como de rendimiento. No hay un límite práctico para la cantidad de archivos que Qumulo puede almacenar.
Costo
Qumulo hace que 100% de la capacidad provista por el usuario esté disponible para el almacenamiento de archivos, en contraste con el NAS de ampliación y ampliación heredado que solo recomienda utilizar 70% a 80% de la capacidad utilizable.
Visibilidad en tiempo real
La visibilidad y el control en tiempo real de Qumulo proporcionan información sobre lo que sucede en el sistema de almacenamiento, hasta el nivel de archivo. Los administradores del sistema pueden aplicar cuotas en tiempo real.
Cloud y on-prem
La replicación continua significa que puede transferir fácilmente datos desde su clúster Qumulo local a su clúster Qumulo en AWS, realizar sus cálculos y luego transferir los resultados al almacenamiento local.
Soporte de protocolo mixto
La compatibilidad con SMB, NFS, FTP y REST significa que todas las fases de la tubería de análisis genómico pueden usar el mismo clúster Qumulo.
¿Cómo funciona?
Almacenamiento genómico de datos: flujo de trabajo NGS
Aquí hay un flujo de trabajo de ejemplo para hacer NGS en premisa:
En este ejemplo, los secuenciadores de ADN están generando muchos archivos BCL pequeños o llamadas de base, que son fragmentos de secuencia de ADN no ordenados. Un proceso de demultiplexación ensambla archivos BCL en un archivo FASTQ, que es un archivo de texto que almacena los resultados de salida combinados de los archivos BCL junto con los puntajes de calidad correspondientes.
La granja de servidores realiza la alineación y la llamada de variante. En alineación, los fragmentos de secuencia se verifican la calidad, se preprocesan y se alinean con un genoma de referencia. Un archivo BAM es un archivo binario que almacena estos datos de alineación. La llamada de variantes busca diferencias entre los datos y el genoma de referencia. Los resultados se almacenan en un archivo VCF.
Una vez que estos almacenes de datos estén listos, se pueden usar para el análisis específico de la aplicación, que los investigadores realizan para sus propios proyectos. Por ejemplo, un investigador podría estar trabajando en una terapia dirigida para pacientes cuyo tumor tiene una mutación genética específica. Los investigadores pueden usar todos los datos que se generan en los archivos BAM y VCF.
Qumulo proporciona un sistema de almacenamiento de archivos central, que es adecuado para todos los tipos de datos genómicos. Qumulo tiene eficiencia de archivos pequeños líder en la industria y tiene el rendimiento para manejar todas las fases del flujo de trabajo.
Almacenamiento genómico de datos: flujo de trabajo NGS en AWS
Aquí hay un ejemplo de flujo de trabajo que muestra cómo realizar análisis en la nube con Qumulo para las instancias de AWS y EC2.
Qumulo permite flujos de trabajo que abarcan centros de datos locales y la nube. En este ejemplo, el clúster de nube de Qumulo en AWS y el clúster de Qumulo local son parte del mismo tejido de almacenamiento debido a la replicación continua, que mantiene ambos clústeres sincronizados. Una organización puede aprovechar las instancias puntuales de EC2 para mantener los costos bajos.