Amazon Redshift: o que é e como funciona o data warehouse da AWS

Descubra como o Amazon Redshift pode ajudar sua empresa a analisar grandes volumes de dados de forma rápida e eficiente.

O Amazon Redshift é um poderoso serviço de data warehouse em nuvem da Amazon Web Services (AWS), destinado a transformar a forma como as empresas analisam grandes volumes de dados. Com desempenho otimizado e custos acessíveis, ele permite consultas em dados estruturados e semiestruturados de forma eficiente, utilizando SQL, e conta com integração ao Amazon SageMaker Lakehouse para análises praticamente em tempo real.

Neste post, você irá entender como o Redshift funciona, da arquitetura de clusters às funcionalidades de análise em tempo real e o modelo Serverless. Essas características proporcionam insights valiosos e reduzem a complexidade de gerenciamento de infraestrutura, potencializando a capacidade de tomar decisões baseadas em dados.

O que é o Amazon Redshift?

O Amazon Redshift é um serviço de data warehouse em nuvem oferecido pela Amazon Web Services (AWS), projetado para atender a demandas de análise em larga escala. Com o Amazon Redshift, os usuários podem obter uma relação custo-benefício avaliada como 3 vezes mais vantajosa e uma taxa de transferência 7 vezes melhor em comparação com outras data warehouses em nuvem.

Uma das grandes vantagens do Redshift é sua integração com o Amazon SageMaker Lakehouse, o que permite utilizar análises SQL em dados armazenados tanto no Redshift quanto no Amazon S3. Essa flexibilidade possibilita fazer análises mais abrangentes e profundas.

Além disso, o Amazon Redshift suporta análises em tempo real, permitindo conectividade com dados de serviços de streaming, bancos de dados operacionais e aplicativos empresariais, tudo isso sem precisar construir pipelines de dados (o que pode ser complexo), usando o recurso zero-ETL.

Outra funcionalidade importante é o Amazon Redshift Serverless, que permite que os usuários analisem grandes volumes de dados sem necessidade de gerenciar a infraestrutura subjacente, liberando tempo para foco na extração de insights.

Indo com o Redshift dos dados aos insights, em ilustração da própria Amazon

Como funciona o Amazon Redshift na AWS?

O Amazon Redshift opera na AWS (Amazon Web Services) por meio de uma arquitetura composta por alguns componentes essenciais:

  1. Clusters: O núcleo do Amazon Redshift é formado por clusters, compostos por um ou mais nós de computação. Um cluster pode ter um nó líder, que gerencia a comunicação e coordena os demais nós.

  2. Nó Líder: Gerencia a comunicação com aplicações clientes, analisa consultas, elabora planos de execução e distribui o código compilado para os nós de computação.

  3. Nós de Computação: Recebem o código distribuído pelo nó líder, executam tarefas e enviam resultados intermediários de volta ao nó líder para agregação final. Cada nó possui CPU e memória dedicadas.

  4. Armazenamento Gerenciado pelo Redshift (RMS): Os dados são armazenados em uma camada de armazenamento separada, permitindo escalabilidade para petabytes usando o Amazon S3.

  5. Fatias (Slices): Cada nó de computação é dividido em fatias, que processam partes da carga de trabalho em paralelo. A distribuição de dados e cargas de trabalho entre essas fatias é gerenciada pelo nó líder.

  6. Rede Interna: Utiliza altos padrões de conexão e protocolos de comunicação personalizados para garantir alta velocidade entre o nó líder e os nós de computação.

  7. Banco de Dados: Um cluster pode conter um ou mais bancos de dados, otimizados para análise e relatórios de grandes conjuntos de dados, diferenciando-se de sistemas de gerenciamento de banco de dados tradicionais.

Esses componentes trabalham juntos para fornecer uma solução de data warehouse escalável, rápida e eficiente para a análise de dados em larga escala.

Para que serve o Amazon Redshift?

O Amazon Redshift é destinado a análises de dados modernas em grande escala, permitindo consultas em dados estruturados e semiestruturados de diferentes fontes. Uma das principais vantagens é o custo excepcional considerando seu desempenho, o que possibilita fazer análises mesmo com volumes massivos de dados sem comprometer o orçamento.

A integração com o Amazon SageMaker Lakehouse facilita análises quase em tempo real e acesso a dados unificados, simplificando a construção de modelos de machine learning (ML). Com recursos como escalabilidade automática e integração com serviços de streaming de dados, o Amazon Redshift é uma solução ideal para empresas que precisam tomar decisões rápidas com base em dados.

Como acessar e configurar o Redshift?

Para acessar e configurar o Amazon Redshift, siga estes passos:

  1. Configurar a conta da AWS:

    • Cada administrador deve realizar a configuração inicial do Editor de Consultas v2, escolhendo uma chave AWS KMS para criptografia de recursos.

  2. Criar uma chave AWS KMS:

    • Se optar por uma chave gerenciada pelo cliente, pode criá-la através do console do AWS KMS.

  3. Acessar o Editor de Consultas v2:

    • Para acessar, você precisa das permissões adequadas, podendo anexar políticas gerenciadas pela AWS ao perfil do IAM.

  4. Configuração de etiquetas de entidade principal:

    • Se usar um usuário federado, é necessário configurar o perfil do IAM com etiquetas de entidade.

  5. Permissões para conectar-se ao cluster:

    • A entidade principal deverá ter permissões específicas, incluindo redshift:GetClusterCredentials.

  6. Registrar em log com o CloudTrail:

    • Utilize o AWS CloudTrail para capturar chamadas de API e eventos relacionados à sua conta.

  7. Seguir a documentação:

Seguindo esses passos, você conseguirá acessar e configurar o Amazon Redshift de forma eficiente.

Arquitetura de sistema do Amazon Redshift

Quanto custa utilizar o Amazon Redshift?

Os custos associados ao uso do Amazon Redshift podem variar bastante. Abaixo, listamos os principais componentes de custo:

  1. Preços de Instância:

    • On-Demand Pricing: Você paga pela capacidade provisionada por hora, variando conforme o tipo de nó escolhido.

    • Reserved Instances: Pode obter descontos significativos comprometendo-se com prazos de um ou três anos.

  2. Preços do Amazon Redshift Serverless:

    • Este modelo começa a partir de $3 por hora, pagando apenas pela capacidade consumida quando ativa.

  3. Armazenamento Gerenciado por Redshift (RMS):

    • Os custos de armazenamento são calculados por dados armazenados, cobrados a uma taxa fixa por GB-mês.

  4. Redshift Spectrum:

    • Custo baseado no número de bytes digitalizados ao consultar dados no Amazon S3.

  5. Concurrency Scaling:

    • Custo adicional que depende do uso, mas créditos gratuitos estão disponíveis.

  6. Redshift ML:

    • Criar modelos após o término do nível gratuito gera custos associados.

  7. Armazenamento para Backup:

    • Snapshots manuais são cobrados, enquanto os automáticos são gratuitos até um máximo de 35 dias.

  8. Transferência de Dados:

    • Não há custo entre Redshift e S3 na mesma região para operações de backup e restauração; taxas podem ser aplicadas para outras transferências.

  9. Custos Adicionais:

    • Custos podem ocorrer com integrações que não utilizam ETL, mas não há cobrança adicional por integrações em si.

Para facilitar a estimativa dos custos mensais, a AWS disponibiliza o AWS Pricing Calculator, auxiliando empresas a planejar e orçar melhor os custos ao utilizar o Amazon Redshift.

Qual a capacidade de armazenamento do Amazon Redshift?

A capacidade de armazenamento do Amazon Redshift varia conforme o tipo de nó utilizado e a configuração do cluster. Os nós RA3 oferecem armazenamento que pode variar de 1 TB a 128 TB por nó, com a implementação de até 128 nós permitindo até 16.384 TB.

Os nós DC2 suportam armazenamento de até 2,56 TB por nó, alcançando até 326 TB no total.

No modelo Serverless, a capacidade de armazenamento é de até 128 TB com configurações de 8 ou 16 RPUs. Se o volume ultrapassar esse limite, será necessário utilizar 32 RPUs.

Por fim, o Amazon Redshift utiliza unidades de estado sólido (SSDs) para um armazenamento rápido e integra o armazenamento do Amazon S3 para garantir durabilidade de longo prazo. A escolha entre nós RA3 e DC2, e o número de nós alocados, influenciam diretamente na capacidade de armazenamento, beneficiando empresas de diferentes tamanhos e necessidades.

Considerações Finais

No cenário atual, onde os dados estão cada vez mais presentes e são essenciais para a tomada de decisões, o Amazon Redshift se posiciona como uma solução poderosa e flexível. A capacidade de realizar análises em tempo real e a integração com outras ferramentas da AWS, como o Amazon SageMaker Lakehouse, tornam-no uma opção atraente para empresas que buscam não apenas armazenar, mas também extrair valor significativo de grandes volumes de dados.

Portanto, se você está em busca de uma plataforma que proporcione tanto desempenho quanto escalabilidade, vale a pena considerar as funcionalidades que o Amazon Redshift oferece. Com sua arquitetura eficiente e opções customizáveis, ele se adapta às necessidades de diferentes negócios, potencializando a análise de dados em larga escala e facilitando decisões baseadas em insights valiosos.