Azure Native Qumulo ahora disponible en la UE, el Reino Unido y Canadá: Más información

El camino hacia todo flash

Escrito por:

La misión: comienzos tempranos.

Hace mucho, mucho tiempo, en una tarde fría y lúgubre a finales de otoño de 2016, Jason Sturgeon, nuestro propietario de productos de hardware aquí en Qumulo, comunicó al equipo de ingeniería de hardware que nuestros clientes actuales y potenciales querían un producto flash.

Querían que Qumulo tuviera un nuevo nivel de plataformas de almacenamiento en nuestra cartera, un producto más rápido y llamativo.

Consideraciones de hardware

Nuestra competencia encierra a sus clientes en su solución de hardware personalizada; Si bien nuestra misión como compañía es no hacerlo. Al analizar otras soluciones de almacenamiento totalmente flash como punto de partida, exploramos varias plataformas basadas en blade. Al analizar más a fondo las ofertas de nuestros socios, encontramos algunas soluciones que tenían los atributos de densidad, costo y factor de forma que buscábamos.

La decisión principal para esta plataforma fue si usar SSD SATA / SAS o SSD NVMe. Los vendedores tenían plataformas en formas interesantes que podían tomar ambas. Siguiendo el patrón de nuestros competidores, observamos sistemas enfocados en la nube que tenían múltiples servidores en un solo chasis físico. Consideramos opciones como un chasis 1U que podría utilizar SSD 12 SATA 2.5 ”o SSD 12 NVMe, con dos nodos de cómputo dentro de ese chasis. O un chasis 2U que podría usar SSD SATA 24 o SSD NVMe 24 con cuatro nodos de cómputo dentro de un solo chasis. Un solo 2U que contiene cuatro servidores!

Entrada de clientes y socios proveedores

Mientras observamos estos servidores, cuando los proveedores se detienen en nuestra sede central y traen muestras para su inspección, también hablamos con nuestros clientes. Los clientes son nuestro campo magnético, por lo que dejamos que sean nuestra estrella guía para construir la solución correcta. Tomando en cuenta la creación de una nueva plataforma, especialmente una nueva clase de plataformas, consultamos a nuestros clientes, tanto actuales como potenciales.

Teniendo cuidado de no tomar decisiones en una burbuja, también consultamos a nuestros proveedores, ya que son socios clave para que una plataforma sea exitosa. Trabajar con clientes y proveedores por igual resulta en la creación, entrega y uso de un producto que mejora la experiencia del usuario final.

NVMe o busto!

Un mensaje muy claro surgió de estas discusiones: NVMe o busto. ¡NVMe es el futuro del flash!

Dados los SSD de NVMe pronto estarían en paridad de precios con los SSD de SATA y proporcionarían enormes beneficios de rendimiento sobre los discos SATA / SAS. NVMe fue la elección para los proveedores y nuestros clientes. Trabajando para construir una plataforma con visión de futuro con años de margen, Qumulo siempre está buscando dónde estarán las necesidades de datos en los próximos años. Como tal, Qumulo optó por dar el salto hacia el glorioso futuro y construir su primera plataforma totalmente flash en la tecnología NVMe SSD.

Sin embargo, durante nuestra investigación de utilizar NVMe con lo que estaba disponible, encontramos una deficiencia dolorosa.

Las plataformas disponibles no se basaron en la arquitectura SkyLake, que no se implementaría a través de los distintos proveedores de servidores y chasis durante algún tiempo. Junto con la arquitectura SkyLake, se estaba desarrollando y lanzando un estándar, denominado Dispositivo de gestión de volumen, para gestionar el intercambio en caliente de dispositivos NVMe. Todas las implementaciones de NVMe hasta el lanzamiento de esta tecnología se basaban en software propietario para administrar el intercambio de conexiones de un dispositivo NVMe.

Como startup de software, Qumulo. Pasa ciclos entregando valor.. Como resultado, tomar el alcance de desarrollar una función de software o modificar el kernel para manejar la repentina desaparición y reaparición de un dispositivo PCIe no fue algo para lo que estuvimos dispuestos a registrarnos; especialmente cuando un lanzamiento de tecnología en el horizonte entregaría la función que necesitábamos, sin costo alguno para nosotros.

Una oportunidad diferente para el equipo de hardware se presentó a sí misma, mientras que la tecnología en torno al intercambio en caliente de NVMe no fue totalmente desarrollada, archivamos esta plataforma para revisarla más adelante cuando pudiéramos ofrecer valor al cliente, y no al costo de otras características vitales.

El tren sale de la estación.

Pasaron seis meses, y ahora la tecnología tenía las características que necesitábamos. Consideramos una serie de arquitecturas. Intel acababa de lanzar el Xeon escalable (también conocido como SkyLake) y las CPU AMD EPYC estaban a punto de ser lanzadas. Elegimos Intel SkyLake debido a la mayor Nodo NUMA contar en las CPU AMD EPYC. (NUMA significa Acceso a memoria no uniforme.) El esfuerzo de desarrollo de software necesario para manejar el mayor número de dominios NUMA no habría proporcionado el valor adecuado para que nuestros clientes lo llevaran a cabo.

Para determinar la CPU específica a usar, trajimos dos modelos para probar. Al seleccionar esta CPU, consideramos la potencia de diseño térmico (TDP) de los procesadores, ya que sabíamos que nuestro producto todo flash sería rápido, ¡pero también estaría caliente! La capacidad de enfriar un servidor 2U utilizando 24 dispositivos NVMe U.2, cada uno capaz de disipar 25W de energía, es un poco abrumadora. Para 24 unidades, cada una con una disipación de energía de 25 W, sería de 600 W; de manera realista, cada unidad con una carga de trabajo de escritura máxima solo consumirá la mitad de su disipación de potencia potencial. Aún así, debe diseñar un margen de seguridad para manejar picos inesperados en el consumo de energía y para las especificaciones de los componentes que utiliza.

De manera realista, esas unidades nunca dibujarán 600W, pero debes estar seguro y tener el margen de seguridad para manejar picos inesperados en el consumo de energía. Ya que este sería nuestro sistema más rápido, usted podría asumir que simplemente elegiríamos la CPU más rápida disponible. Lo que hicimos fue elegir una CPU que ofrece la mejor relación calidad-precio para nuestros clientes. Esto nos llevó al procesador Intel Xeon Gold 6126, que tiene un recuento de núcleos más pequeño y una frecuencia más rápida que nuestro software puede aprovechar y, por lo tanto, ofrecer el mejor valor a nuestros clientes.

En la primavera de 2017, volvimos a tener conversaciones con los proveedores, analizando las diversas plataformas que podríamos convertir en NVMe todo flash solución deseada por nuestros clientes. En ese momento, la solución de la cuchilla todavía era una idea, así que echamos un vistazo a lo que estaba disponible.

Identificamos restricciones concretas del producto. Flash es caro y el costo fue un factor importante. Mientras hacíamos un Bugatti Veyron de productos de almacenamiento, todavía tenía que ser vendible a un precio de Dodge Viper.

Necesitaba ser rápido, pero ¿qué tan rápido es lo suficientemente rápido para deleitar a nuestros clientes?

El objetivo fue crear una caja de hardware que fuera más que capaz de 4 GB / s por nodo para lectura de múltiples transmisiones y tener mucho espacio para crecer a medida que lo ajustamos. Elegimos apuntar a 125K IOPS por nodo. Necesitábamos alrededor de 40TB por rack U para entregar un producto atractivo que nuestros clientes amarían. Nos enfocamos en las opciones de plataforma óptimas y decidimos utilizar un prototipo 1U y 2U para que realicemos el trabajo de prueba de concepto.

¡Probamos el software Qumulo en las cajas de prototipos y listo! ¡Teníamos un producto de flash completo, pero aún no vendible!

Debido a nuestra capa de abstracción de hardware, podríamos alterar esta capa de código con cambios mínimos para ejecutarse en hardware externo en poco tiempo. Otra victoria para hacer que nuestro software sea agnóstico.

¡Mantente atento a la segunda parte de la emocionante serie!

Artículos Relacionados

Ir al Inicio