Cómo copiar objetos entre depósitos y clústeres de S3 (parte 2)

Cómo copiar objetos entre depósitos y clústeres de S3

Esta serie de dos partes explora qué hace que el sistema de archivos de escalamiento horizontal de Qumulo sea único en AWS. En la parte 1, describimos cómo la arquitectura del software Qumulo Cloud Q está diseñada para el rendimiento y la escalabilidad dinámica, y el acceso a archivos multiprotocolo. Todos estos son atributos que Qumulo aporta a las cargas de trabajo de alto rendimiento que se ejecutan en la nube. A continuación, en la parte 2 a continuación, continuaremos con lo que hace que Qumulo sea único en AWS, centrándonos en cómo copiar objetos a (y desde) Amazon S3 usar Cambio de Qumulo; y, cómo automatizar el despliegue de Qumulo Cloud Q en AWS para simplificar la migración a la nube. 

Descripción de la replicación y el movimiento de datos entre clústeres de centros de datos y Amazon S3

Hay un número creciente de flujos de trabajo en los que los datos deben moverse entre el sistema de archivos y un depósito S3. Por ejemplo, como artista o editor de contenido multimedia, normalmente utiliza un sistema de archivos compartidos para fusionar efectos especiales o colaborar con otros artistas. Luego, puede usar otros servicios de AWS para transcodificar archivos que se encuentran en un depósito S3. Otro ejemplo es la secuenciación del genoma, donde los secuenciadores escriben en SMB, los procesos analíticos leen los datos a través de NFS y el archivado se realiza en S3.

Dado lo anterior, la movilidad de datos entre clústeres y Amazon S3 se vuelve aún más importante.

Almacenamiento de objetos frente a almacenamiento de archivos

Históricamente, las soluciones de almacenamiento de objetos no se diseñaron para permitir el fácil movimiento de datos basados ​​en archivos a un almacén de objetos en la nube (depósito de Amazon S3) para que se pueda usar con servicios en la nube. (Relacionado: Almacenamiento de bloques, almacenamiento de objetos y almacenamiento de archivos: ¿cuál es la diferencia?) Tome cargas de trabajo activas de alto rendimiento, por ejemplo: edición de video, efectos especiales, secuenciación genómica: estos flujos de trabajo necesitan servicios especializados para realizarse completamente, como transcodificación o procesamiento de medios, aprendizaje automático y análisis de datos, todos los cuales están disponibles como Servicios AWS.

La tecnología de almacenamiento basada en archivos de Qumulo tiene una característica integrada, llamada cambio de qumulo, que permite a los administradores de datos crear una relación entre un directorio y un depósito S3. Donde y cuando sea necesario, los datos se pueden copiar desde el directorio al depósito S3.

Copiar relaciones entre datos en directorios y datos en depósitos de Amazon S3

Figura 1: relaciones de copia entre directorios y depósitos de Amazon S3

Como se esperaba de un moderno solución de almacenamiento de datos empresariales, Qumulo puede replicar datos entre diferentes clústeres, y Qumulo Shift lo hace posible. La ubicación del clúster de Qumulo es irrelevante en este caso. Los clústeres de origen y de destino pueden residir en las instalaciones, en diferentes zonas de disponibilidad (p. ej., una para el clúster de Qumulo y otra que podría usar para un Clúster Qumulo de recuperación ante desastres), diferentes nubes privadas virtuales (VPC) e incluso diferentes nubes.

¿Qué es Qumulo Shift para Amazon S3?

Qumulo Shift para Amazon S3 es un servicio en la nube gratuito que se ofrece como parte de Qumulo Cloud Q para AWS y le permite copiar archivos nativos desde un directorio en un clúster a una carpeta en un depósito de Amazon S3 en su formato de objeto nativo. Qumulo Shift permite a las empresas basadas en datos controlar los costos para una estrategia de datos de alto rendimiento, mejorando así su ROI.

Qumulo Shift es un componente integral de cualquier implementación de Qumulo y le brinda una canalización de datos perfecta hacia y desde el almacenamiento S3. Con Qumulo Shift para Amazon S3, las empresas pueden copiar objetos de cualquier clúster de Qumulo, ya sea en las instalaciones o que ya se esté ejecutando en una variedad de nubes, al almacén de objetos en la nube de Simple Storage Service de Amazon (Amazon S3).

Ya sea que esté creando datos con aplicaciones basadas en archivos o necesite un repositorio de respaldo/archivo o un punto de preparación para cualquiera de los cientos de análisis de datos nativos en la nube y herramientas de transformación que ofrece AWS, Qumulo Shift le permite mover archivos fácilmente entre sus Almacenamiento Qumulo y Amazon S3.

Copie archivos nativos de un directorio en un clúster a una carpeta en un depósito de Amazon S3 en su formato de objeto nativo

Esta característica le permite poner su archivo nativo datos de su clúster de Qumulo, ya sea en las instalaciones o en la nube, en un depósito S3 en su AWS S3 objeto nativo formato. Y eso nativo Esta parte es importante porque eso significa que no se aplica ningún formato propietario, por lo que puede aprovechar e innovar con potentes servicios de AWS y aplicaciones de mercado en su conjunto de datos de S3.

Cómo funciona el turno de Qumulo

La creación de una relación de replicación entre un clúster de Qumulo local y otro en Amazon S3 es posible con Qumulo Shift. Para verlo en acción, vea una breve demostración Video debajo. El gerente de productos de Qumulo, Scott Gentry, muestra cómo hacer que los datos creados en un clúster de centro de datos estén disponibles para los servicios de AWS mediante el almacenamiento S3.

Cómo copiar objetos entre cubos y clústeres de S3 mediante Qumulo Shift

La replicación de Qumulo Shift le permite copiar objetos de un directorio en un clúster a una carpeta en un depósito de Amazon S3 (almacén de objetos en la nube). Al crear una relación de replicación entre un clúster y un depósito de S3, Qumulo Core realiza los siguientes pasos.

  1. Qumulo verifica que el directorio de origen especificado existe en el sistema de archivos y que el depósito S3 existe, es accesible mediante las credenciales especificadas y contiene objetos descargables.
  2. Una vez que la relación se crea correctamente, se inicia un trabajo utilizando uno de los nodos del clúster.
    Nota: Al realizar varias operaciones de cambio, se utilizarán varios nodos.
  3. Este trabajo toma una instantánea temporal del directorio de origen para garantizar que la copia sea coherente en un momento dado. Por ejemplo, nombrado replication_to_bucket_my_bucket.
  4. Qumulo Shift then recursively traverses the directories and files in that snapshot, copying each file to a corresponding object in S3.
  5. File paths in the source directory are preserved in the keys of replicated objects. For example, the native file /my-dir/my-project/file.txt will be uploaded as the native object https://my-bucket.s3.us-west-2.amazonaws.com/my-folder/my-project/file.txt.

The data is not encoded or transformed in any way, but only data in a regular file's primary stream is replicated (alternate data streams and file system metadata such as ACLs are not included). Any hard links to a file within the replication source directory are also replicated to Amazon S3 as a full copy of the object, with identical contents and metadata—however; this copy is performed using a server-side S3 copy operation to avoid transferring the data across the internet.

When copying objects between S3 buckets and clusters, Qumulo Shift will check to see if a file was previously replicated to S3 using Shift. If the resulting object still exists in the target S3 bucket (and neither the file nor object have been modified since the last successful replication) its data will not be re-transferred to S3. Qumulo Shift will never delete files in the target folder on S3, even if they have been removed from the source directory since the last replication.

How to Copy Objects from a Cluster to an Amazon S3 Bucket

To copy objects from a directory in a cluster to a folder in an Amazon S3 bucket using the Qumulo Shift Web UI. 3.2.5 (and higher), follow these steps:

  1. Log in to Qumulo Core.
  2. Click Cluster > Copy to/from S3.
  3. On the Copy to/from S3 page, click Create Copy.
  4. On the Create Copy to/from S3 page, click Local ⇨ Remote and then enter the following:
    a. The Directory Path on your cluster (/ by default)
    b. The S3 Bucket Name
    c. The Folder in your S3 bucket
    d. The Region for your S3 bucket
    e. Your AWS Region (/ by default)
    f. Your AWS Access Key ID and Secret Access Key.
  5. (Optional) For additional configuration, click Advanced S3 Server Settings.
  6. Click Create Copy.
  7. In the Create Copy to S3? dialog box, review the Shift relationship and then click Yes, Create.

The copy job begins.

For more information about using Qumulo Shift to copy objects from a cluster to an Amazon S3 bucket, visit our Documentation Portal (docs.qumulo.com) for a step-by-step guide to troubleshooting copy job issues and other best practices.

How to Copy Objects from an S3 Bucket to a Cluster

A new feature of Qumulo Shift, called Qumulo Shift-From, was released with Qumulo Web UI 4.2.3. This feature allows data administrators to create relationships where the S3 bucket is the source and a Qumulo directory is the target, allowing users to shift data from S3 to Qumulo as well as from Qumulo to S3.

To copy objects from a folder in an Amazon S3 bucket to a directory in a Qumulo cluster, follow these steps.

  1. Log in to Qumulo Core.
  2. Click Cluster > Copy to/from S3.
  3. On the Copy to/from S3 page, click Create Copy.
  4. On the Create Copy to/from S3 page, click Local ⇦ Remote and then enter the following:
    a. The Directory Path on your cluster (/ by default)
    b. The S3 Bucket Name
    c. The Folder in your S3 bucket
    d. The Region for your S3 bucket
    e. Your AWS Region (/ by default)
    f. Your AWS Access Key ID and Secret Access Key.
  5. (Optional) For additional configuration, click Advanced S3 Server Settings.
  6. Click Create Copy.
  7. In the Create Copy from S3? dialog box, review the Shift relationship and then click Yes, Create.

The copy job begins and Qumulo Core estimates the work to be performed. When the estimation is complete, the Web UI displays a progress bar with a percentage for a relationship on the Replication Relationships page. The page also displays the estimated total work, the remaining bytes and files, and the estimated time to completion for a running copy job.

Note: For work estimates, Qumulo Shift from S3 jobs calculate the total number of files and bytes in a job's bucket prefix. This requires the job to use the ListObjectV2 S3 action once per 5,000 objects (or 200 times per 1 million objects).

For additional information about copying objects from an Amazon S3 bucket to a directory in a Qumulo cluster, visit the Qumulo Documentation Portal, which steps for troubleshooting copy job issues and other best practices.

Deployment Automation to Simplify Cloud Migration

Deploying infrastructure by using code has many advantages: You always have consistent and repeatable deployments. It’s much faster and you can identify drifts in the configuration. Also, it’s less error-prone and scales for large deployments.

How to Deploy a Qumulo Cluster in AWS

There are three options to deploy a Qumulo cluster in AWS in an automated way. These are:

  1. By using the AWS Quick Start for Qumulo Cloud Q. It is an automated reference deployment built by Amazon Web Services (AWS) and Qumulo. The underlying AWS CloudFormation Templates automate all required steps to build a Qumulo Cluster according to best practices so that you can build and start using your environment within minutes.
  2. The CloudFormation Template that is provided by each Cluster type in the AWS Marketplace.
  3. The AWS Terraform Templates provided by Qumulo on GitHub.
Why Deploy Clusters Using the AWS Quick Start for Qumulo Cloud Q

We recommend you deploy Qumulo clusters using the AWS Quick Start for Qumulo Cloud Q. This is primarily because the Quick Start is backed by a couple of AWS CloudFormation Templates, which simplify and speed up the deployment. Using Quick Start to deploy the full capabilities of Qumulo Cloud Q on AWS, the automated deployment process takes about 15 minutes.

However, you can also use the CloudFormation Templates provided in the AWS Marketplace; they deploy just the basic cluster and two Lambda functions. These serverless functions collect telemetry data from the cluster and send them to AWS CloudWatch; and, they monitor the health of all EBS volumes and replace them automatically in case of EBS volume failures.

Automated Deployment Options to Deploy Qumulo Clusters

The following table lists the different automated deployment options currently available to deploy Qumulo clusters.

Automated deployment options currently available to deploy Qumulo clusters

Table 1: Automated Deployment Options

Unique Features Come Standard with Qumulo's File Storage on AWS

Qumulo’s Hybrid Cloud File Storage on AWS simplifies migrations to the cloud where unstructured data is being stored in file systems, regardless whether data access is through SMB, NFS, FTP or HTTP. File locking and access control works across all protocols; thus, redundant data placement for each protocol can be avoided.

Qumulo’s cloud-native software, Qumulo Cloud Q for AWS, can deliver tends of GB/s on throughput with latencies between 0.5-5 ms. It allows easy data movement between the file system and Amazon S3 buckets. It integrates through deployment templates, and users can subscribe through the AWS marketplace.

As shown below, and described in part 1 of this series, a number of unique features that come standard with a Qumulo Cloud Q software subscription make it an attractive choice on AWS for a variety of high-performance use cases and workflows.

Scalable file counts and high performance file operations

We urge you to be curious with AWS and Qumulo file data services. You can find more information on Qumulo Care, here: Qumulo in AWS: Getting Started.

Another option is to use the Qumulo Studio Q Quick Start, which spins up a complete post-production environment in the cloud for remote video editing and it includes a Qumulo cluster and Adobe Creative Cloud for editing. Lastly, Qumulo can also be deployed as an AWS Nimble Studio option for the file system.

The Definitive Guide to Qumulo on AWS

The Definitive Guide to Qumulo on AWS

Qumulo simplifies migrations to the Cloud where unstructured data is being stored in file systems, making Cloud Q for AWS an attractive choice for many workflows.

Download Now

Share this post