Cómo las organizaciones biotecnológicas pueden gestionar los datos de archivo en crecimiento para la secuenciación genómica de próxima generación

Secuenciación genómica ha experimentado una transformación dramática en la última década. Se han desarrollado nuevas técnicas que se denominan colectivamente "secuenciación de próxima generación" o NGS. A medida que NGS continúa evolucionando, los sistemas de gestión de datos y almacenamiento que respaldan estas capacidades crecientes también deben evolucionar rápidamente.

Los administradores de TI están bajo presión para encontrar formas de aumentar la eficiencia dentro de sus infraestructuras de almacenamiento.

Los fragmentos de ADN de muestras biológicas se extraen mediante máquinas llamadas secuenciadores. La secuenciación de próxima generación tiene un rendimiento mucho mayor de secuencias genéticas, producción automatizada y un costo drásticamente menor que la secuenciación de primera generación. Con NGS, se puede secuenciar un genoma humano completo en un solo día.

A medida que los secuenciadores se han vuelto más avanzados y rentables, el número de estudios sigue creciendo y se producen más datos. Estos secuenciadores pueden producir miles de millones de archivos pequeños, por lo que el sistema de archivos utilizado para administrar estas capacidades masivas de archivos pequeños debe ser rápido, fácilmente escalable y eficiente en lo que respecta al almacenamiento y la protección de datos, para cumplir con los presupuestos de investigación y respaldar nuevos proyectos de investigación. .

Ayudando a la progenie a acelerar las pruebas de diagnóstico y la información

Progenity, Inc. es una empresa de biotecnología que proporciona a los médicos pruebas de diagnóstico especializadas y moleculares complejas para la salud de la mujer, la medicina reproductiva y la oncología.

A lo largo de los años, el trabajo de la empresa en secuenciación genética ha generado más de mil millones de archivos. Según David Meiser, arquitecto de soluciones para aplicaciones Linux y Windows en Progenity, “Ese ritmo se está acelerando. En dos años, podríamos tener otros mil millones de archivos ".

"Un problema que siempre estuvo presente fue que hubo una sobrecarga de archivos significativa", dijo Meiser, "los archivos que escribimos son muy pequeños y el tamaño de bloque de nuestro antiguo sistema de almacenamiento era muy grande". Además, Meiser explicó: "Descubrimos que no podíamos hacer análisis en el lugar porque los tiempos de acceso eran muy altos".

Los sistemas de archivos heredados, que se basan en diseños de hace 15 o 20 años, no pueden satisfacer las demandas de los flujos de trabajo NGS modernos.

Con demasiada frecuencia, las organizaciones de TI ahora se ven obligadas a utilizar diferentes soluciones para diferentes partes de sus flujos de trabajo NGS para compensar las ineficiencias de sus sistemas heredados. Esto es problemático por varias razones:

  • Múltiples sistemas agregan complejidad, lo que se traduce en mayores costos operativos generales.
  • Varios sistemas también pueden generar silos de datos, por lo que es posible que un grupo de investigadores no pueda acceder a los datos que otro equipo está utilizando.
  • La falta de colaboración puede ralentizar el tiempo que se tarda en obtener resultados, lo que puede retrasar el tiempo que lleva completar proyectos o llevar un producto al mercado.

Con su rápido crecimiento y flujos de trabajo intensivos en datos, Progenity sabía que su proveedor de sistemas heredados no podría satisfacer sus necesidades futuras. “Después de algunos años con nuestro sistema de almacenamiento original, nos dimos cuenta de que la forma en que trabajaba la empresa no era un buen modelo para nosotros”, dijo Meiser, refiriéndose tanto a los altos costos como a la eficiencia del almacenamiento.

Configuraciones de flujo de trabajo de NGS local y basado en la nube

De qumulo plataforma de datos de archivo cumple con las demandas de rendimiento y capacidad para almacenar, administrar y acceder a datos de secuenciación genómica, en las instalaciones o en la nube. Gestiona miles de millones de archivos pequeños y grandes, y admite una variedad de protocolos, incluidos SMB, NFS, FTP y REST, lo que significa que todas las fases del flujo de trabajo de análisis genómico pueden utilizar el mismo grupo de Qumulo.

A continuación, se muestra un ejemplo de una configuración de flujo de trabajo de NGS local.

Este ejemplo muestra los secuenciadores de ADN que generan muchos archivos BCL pequeños o llamadas de bases, que son fragmentos de secuencias de ADN desordenados. Un proceso de demultiplexación ensambla archivos BCL en un archivo FASTQ, que es un archivo de texto que almacena los resultados de salida combinados de los archivos BCL junto con las puntuaciones de calidad correspondientes.

La granja de servidores realiza la alineación y la llamada de variante. En alineación, los fragmentos de secuencia se verifican la calidad, se preprocesan y se alinean con un genoma de referencia. Un archivo BAM es un archivo binario que almacena estos datos de alineación. La llamada de variantes busca diferencias entre los datos y el genoma de referencia. Los resultados se almacenan en un archivo VCF.

Una vez que estos almacenes de datos están listos, se pueden utilizar para el análisis específico de la aplicación, que realizan los investigadores para sus propios proyectos. Por ejemplo, un investigador podría estar trabajando en una terapia dirigida para pacientes con un tumor que tiene una mutación genética específica. Los investigadores pueden utilizar todos los datos que se generan contenidos en los archivos BAM y VCF.

Aquí hay un ejemplo de flujo de trabajo que muestra cómo realizar análisis en la nube con Qumulo para las instancias de AWS y EC2.

En este ejemplo, a través de la replicación continua, el clúster de nube de Qumulo en AWS y el clúster de Qumulo local están siempre sincronizados. Una organización puede aprovechar las instancias puntuales de EC2 para mantener bajos los costos.

Más información

Qumulo tiene varios recursos útiles para aprender más sobre datos genómicos y secuenciación y cómo nuestra plataforma de datos de archivos ayuda a las organizaciones a almacenar, administrar y acceder a datos de secuenciación genómica en las instalaciones y en la nube. Lea nuestro resumen de la solución aquíy consulte nuestro seminario web a pedido "Acelerando la investigación genómica con soluciones de nube híbrida."

Contáctenos aquí si desea programar una reunión o solicite una demo.

Comparta este artículo