Azure Native Qumulo ahora disponible en la UE, el Reino Unido y Canadá: Más información

Almacenamiento de datos para secuenciación genómica

Escrito por:

Un genoma es el conjunto completo de instrucciones hereditarias para construir, hacer funcionar y mantener un organismo y transmitir la vida a la siguiente generación. La secuenciación genómica determina el orden de los nucleótidos o bases del ADN en un genoma (el orden de sus bases (As, Cs, Gs y Ts) que componen el ADN de un organismo. El genoma humano está formado por más de 3 mil millones de estas letras genéticas.

Aprende más: Almacenamiento de datos de Qumulo para secuenciación genómica

La secuenciación genómica ha experimentado una transformación dramática en la última década. Se han desarrollado nuevas técnicas que se denominan colectivamente "secuenciación de próxima generación" o NGS. En comparación con la secuenciación de primera generación ("secuenciación de Sanger"), NGS tiene un rendimiento mucho mayor de secuencias genéticas, producción automatizada y un costo drásticamente más bajo. Usando NGS, se puede secuenciar un genoma humano completo en un solo día. En contraste, las técnicas de primera generación requirieron más de una década para entregar el borrador final de un solo genoma humano. Las estimaciones de cuánto cuesta mapear ese primer genoma llegan a los 3 millones de dólares. Hoy, costaría alrededor de $ 1,000.

¿Por qué importa la secuenciación genómica?

Una secuenciación genómica mejor, más rápida y más barata significa que su impacto en nuestras vidas es mucho mayor. Los investigadores ahora pueden comparar grandes extensiones de ADN de diferentes individuos de forma rápida y económica. Tales comparaciones pueden proporcionar una enorme cantidad de información sobre el papel de la herencia en la susceptibilidad a las enfermedades y en respuesta a las influencias ambientales. Además, la capacidad de secuenciar el genoma de forma más rápida y rentable crea un gran potencial para el diagnóstico y las terapias.

Ejemplos más concretos son los tipos de pruebas genéticas que se están convirtiendo en rutina. Muchas personas se someten a pruebas genéticas de portadores para detectar trastornos que pueden transmitir a sus hijos. Otras pruebas pueden determinar los riesgos hereditarios de ciertos tipos de cáncer.

¿Qué significa esto para el almacenamiento de datos para la secuenciación genómica?

Aparte del factor "Esto es tan genial, tengo que decírtelo", ¿por qué estoy blogueando sobre la secuenciación genómica?

Los fragmentos de ADN de muestras biológicas se extraen mediante máquinas llamadas secuenciadores. No se puede secuenciar todo el genoma de una sola vez porque los métodos que tenemos hoy solo pueden manejar tramos cortos de ADN a la vez. En consecuencia, esos secuenciadores producen montones y montones de archivos pequeños. Los archivos de imagen sin procesar suelen ser archivos TIFF, de aproximadamente 1 KB cada uno, con un total de 2-5 TB por muestra.

El almacenamiento de datos debe ser rápido y eficiente

Cualquier máquina que produzca tantos archivos pequeños necesitará un sistema de almacenamiento que tenga un gran rendimiento y que almacene y proteja archivos pequeños de manera eficiente. Técnicas como la duplicación pueden desperdiciar una gran cantidad de espacio en disco. El espacio de disco desperdiciado significa que las empresas tienen que comprar más almacenamiento, usar más espacio de rack y pagar más por los costos de infraestructura, como energía y refrigeración.

Qumulo es mucho más eficiente en la representación y protección de archivos pequeños que el NAS de escalamiento heredado, que generalmente requiere un tercio de la capacidad de almacenamiento y la mitad de la sobrecarga de protección.

I / O siempre importa

El proceso de refinación de los datos sin procesar (la transformación del borrador fragmentado en un producto final largo y continuo sin interrupciones ni errores) se denomina finalización. El acabado involucra diferentes tipos de análisis, que incluyen enganchar todas las lecturas individuales en el orden correcto, buscar errores y vacíos, y buscar diferencias entre el resultado final y un genoma de referencia. Todos estos pasos producen diferentes tipos de archivos y todos estos pasos requieren un excelente rendimiento de E / S para un análisis rápido.

La E / S rápida importa si hay muchos investigadores en el otro extremo del flujo de trabajo que están utilizando los datos terminados para sus propios proyectos. Los investigadores intermedios quieren hacer su trabajo en tiempo real, no esperar, porque sus propios recursos informáticos están privados de datos.

Qumulo proporciona dos veces el rendimiento de precio en comparación con los sistemas de almacenamiento heredados.

El almacenamiento debe escalar a miles de millones de archivos.

Muy pocas organizaciones tienen un solo secuenciador. Tienen filas de ellos, todos producen TB de datos por día. Incluso unos pocos secuenciadores pueden producir más de mil millones de archivos al año, ocupando 1-2PB de almacenamiento. Las diferentes etapas de los análisis también se almacenan durante diferentes períodos de tiempo. Si bien los archivos TIFF sin procesar solo pueden almacenarse durante unas pocas semanas, los otros tipos de archivos pueden almacenarse durante años. Los enormes volúmenes de datos significan que el almacenamiento de archivos debe escalarse fácilmente y, aún mejor, agregar un nodo no solo debe agregar capacidad sino también rendimiento.

Con Qumulo, puede usar cualquier combinación de archivos grandes y pequeños y almacenar tantos archivos como necesite. No hay límite práctico con la tecnología avanzada de sistema de archivos de Qumulo. Muchos clientes de Qumulo tienen huellas de datos que superan los mil millones de archivos.

La visibilidad y el control son cruciales.

Cuando tiene miles de millones de archivos en un sistema de almacenamiento, necesita una forma de administrarlos. Las técnicas secuenciales, como los paseos por los árboles, ya no funcionan. Obtener información sobre los datos puede llevar días o incluso semanas, lo que significa que es inútil.

Qumulo ofrece visibilidad en tiempo real de los datos y facilita a los administradores encontrar respuestas a preguntas como dónde están los puntos de acceso de E / S y tomar medidas al instante.

Soporte multiprotocolo

Muchos secuenciadores envían sus datos al almacenamiento a través de SMB, pero muchos investigadores acceden a los datos a través de NFS. Un sistema de almacenamiento necesita soportar múltiples protocolos. Qumulo soporta SMB, NFS, FTP y REST.

Moviéndose a la nube

Las organizaciones están buscando en la nube para darles más recursos de cómputo para sus análisis. Se ven obstaculizados porque muchas de las opciones para el almacenamiento de archivos en la nube tienen escalabilidad y rendimiento deficientes.

Qumulo Cloud Q para AWS tiene el mayor rendimiento de cualquier almacenamiento de archivos en la nube, además de ser el más escalable. A diferencia de otras opciones, el rendimiento y la capacidad se pueden escalar de forma independiente.

Qumulo utiliza la replicación continua para mover los datos donde se necesitan, cuando se necesitan. Qumluo toma sus últimos cambios y los replica sin que tenga que preocuparse por ello. La replicación continua significa que puede transferir fácilmente los datos desde su clúster Qumulo local a su clúster Qumulo en AWS, realizar sus análisis y luego transferir los resultados al almacenamiento local.

Prueba hoy el mejor almacenamiento de datos para la secuenciación genómica.

Si está en un grupo de investigación o compañía que está realizando una secuenciación genómica, asegúrese de hacer las preguntas correctas antes de comprar un sistema de almacenamiento de archivos.

Si está interesado en aprender más acerca de cómo la arquitectura Qumulo puede ahorrarle dinero al mismo tiempo que le brinda capacidad y escalabilidad, lea la Guía técnica de arquitectura de datos de archivos de Qumulo.

Artículos Relacionados

Ir al Inicio