Amundsen Catalog: principais recursos e como instalar

Aprenda a configurar o Amundsen Catalog em seu ambiente e aproveite seus recursos para uma gestão eficiente de metadados.

No mundo atual, onde os dados são um ativo valioso, ter controle e visibilidade sobre eles é essencial para qualquer organização. O Amundsen Catalog é uma solução open-source poderosa, projetada para facilitar a descoberta e o gerenciamento de metadados, ajudando equipes a trabalharem de forma mais eficiente e integrada. Com uma interface intuitiva e funcionalidades como pesquisa rápida e visualização de metadados automatizados, o Amundsen transforma a maneira como os profissionais interagem com os dados, promovendo um ambiente colaborativo e informativo.

Neste post, você verá como instalar e configurar o Amundsen Catalog, além de maximizar seu uso, aproveitando seus recursos para fazer uma gestão eficaz de metadados, elevando a produtividade da sua equipe de análise de dados.

O que é o Amundsen Catalog?

O Amundsen Catalog é uma plataforma de código aberto projetada para facilitar a descoberta e o gerenciamento de metadados dentro das organizações. Desenvolvido inicialmente pela Lyft, esse catálogo de dados é amplamente adotado para ajudar data engineers, data analysts e data scientists a se tornarem mais produtivos e a confiarem nos dados que utilizam em suas análises.

Com uma interface intuitiva, o Amundsen permite que os usuários façam buscas rápidas por dados por meio de um simples mecanismo de pesquisa baseado em texto, que utiliza um algoritmo inspirado no PageRank. Isso significa que, ao buscar por tabelas ou colunas, os resultados se baseiam não apenas em nomes e descrições, mas também em atividades de consulta e visualização.

Os principais recursos do Amundsen incluem a capacidade de visualizar metadados automatizados e curados, como descrições detalhadas de tabelas e colunas, dados sobre usuários frequentes, datas da última atualização das tabelas e estatísticas relevantes. Essas funcionalidades são essenciais para que analistas de dados possam confiar nos dados, reduzindo dúvidas sobre sua precisão e atualidade.

Promovendo o Compartilhamento e o Aprendizado

O Amundsen incentiva o compartilhamento de contexto entre colegas de trabalho. Com a possibilidade de atualizar tabelas e colunas com descrições relevantes, torna-se mais fácil evitar mal-entendidos sobre quais dados utilizar e o que cada coluna representa. Além disso, o Amundsen promove o fomento ao aprendizado coletivo, já que os usuários podem descobrir quais dados são frequentemente utilizados por outros, permitindo que aprendam com as práticas de seus colegas.

O impacto do Amundsen na produtividade das equipes não pode ser subestimado; muitos usuários relatam um aumento significativo na eficiência, afirmando que a ferramenta ajudou a tornar suas rotinas de trabalho mais integradas e produtivas.

O Amundsen Catalog permite gerenciar metadados de uma maneira eficaz

Principais recursos do Amundsen para gestão de dados

O Amundsen é uma ferramenta poderosa de catálogo de dados que oferece uma série de recursos essenciais para facilitar a gestão de dados e a descoberta de metadados em organizações. Aqui estão alguns dos principais recursos que tornam o Amundsen indispensável para equipes de dados:

  1. Pesquisa Intuitiva: O Amundsen permite que os usuários realizem pesquisas simples por dados usando termos em linguagem natural. Qualquer membro da equipe pode rapidamente encontrar conjuntos de dados relevantes sem necessidade de treinamento extensivo na plataforma.

  2. Metadados Automatizados: A ferramenta automatiza a coleta de metadados, reduzindo a necessidade de documentação manual. Ela extrai informações sobre tabelas, colunas e suas descrições, incluindo dados sobre a frequência de acesso e última atualização, aumentando a confiança na utilização dos dados.

  3. Indexação de Dados: A arquitetura do Amundsen facilita a indexação e visualização de dados, permitindo que os usuários identifiquem facilmente os dados necessários. Promover uma cultura de auto-serviço e democratização dos dados é um dos principais objetivos.

  4. Integração com Ferramentas Populares: O Amundsen se integra facilmente com diversas ferramentas do ecossistema de dados, como PostgreSQL, MySQL, BigQuery, entre outras, permitindo a coleta de metadados de diferentes fontes e centralizando as informações em um único catálogo acessível.

  5. Análises de Uso e Comportamento: A plataforma permite que os usuários vejam a frequência de uso de cada conjunto de dados e quem são os usuários que frequentemente interagem com essas informações. Isso ajuda a entender quais dados são mais populares e quem pode ser consultado para esclarecimentos.

  6. Governança de Dados: O Amundsen apoia iniciativas de governança de dados, permitindo que informações sobre a origem e a linhagem dos dados sejam integradas ao processo de catalogação, garantindo a conformidade e mantendo a qualidade.

  7. Facilidade de Personalização: A ferramenta é altamente personalizável. As organizações podem adaptar o Amundsen às suas necessidades específicas, garantindo que a interface e as funcionalidades se alinhem com suas práticas e processos internos.

Esses recursos tornam o Amundsen uma solução robusta para organizações que desejam melhorar a gestão de dados e a eficiência de suas equipes de análise.

Como instalar o Amundsen Catalog no seu ambiente

Instalar o Amundsen Catalog em seu ambiente pode ser uma tarefa simples se você seguir as etapas corretas. O Amundsen foi projetado para ser facilmente implementável em diferentes configurações, seja em ambientes locais, em nuvem ou utilizando ferramentas como Docker. Vamos explorar as etapas necessárias para a instalação.

1. Requisitos necessários

Antes de iniciar a instalação, você precisa garantir que possui os seguintes requisitos em seu sistema:

  • Docker e Docker Compose: Essenciais para rodar os serviços do Amundsen em contêineres.

  • Python versão 3.6 ou superior.

  • Node.js (versão 10 ou 12) e npm versão 6.x.x.

  • Elasticsearch versão 6.x (pode ser instalado via Docker).

2. Clonando o repositório do Amundsen

Para obter o código-fonte do Amundsen, comece clonando o repositório do GitHub:

git clone https://github.com/amundsen-io/amundsen.git

Isso traz todos os arquivos necessários para a instalação.

3. Instalando as dependências

Após clonar o repositório, acesse o diretório do Amundsen e execute os seguintes comandos para instalar as dependências necessárias:

cd amundsen/frontend/amundsen_application/static
npm install
npm run build

Isso configura o frontend do Amundsen.

4. Configurando o ambiente Python

Crie um ambiente virtual Python e ative-o para instalar as dependências do backend:

python3 -m venv venv
source venv/bin/activate
pip install -e ".[all]"

5. Iniciando os serviços

Uma vez que todas as dependências estejam instaladas, você pode iniciar o servidor do Amundsen com o seguinte comando:

python3 amundsen_application/wsgi.py

Visite http://localhost:5000 no seu navegador para confirmar que a aplicação está funcionando.

6. Conectando aos serviços de metadata e busca

O Amundsen pode operar de forma standalone, mas para aproveitar ao máximo suas funcionalidades, você deve conectar o Amundsen a um serviço de metadata e a um serviço de busca. Você pode precisar executar instâncias locais desses serviços usando as instruções disponíveis nos repositórios do Amundsen Metadata Library e do Amundsen Search Library.

# Exemplo de comando para iniciar um serviço de metadata (substitua conforme necessário)
# docker-compose -f docker-amundsen-atlas.yml up

7. Verificando a instalação

Após iniciar os serviços, verifique se ambos estão operacionais acessando as URLs correspondentes no seu navegador:

  • Frontend: http://localhost:5000

  • Metadata: http://localhost:21000

  • Search: http://localhost:9200

Se tudo estiver funcionando corretamente, você verá a interface do Amundsen e poderá começar a explorar seus dados.

Como usar o Amundsen na gestão de metadados

O Amundsen é uma ferramenta que facilita a descoberta e o gerenciamento de metadados em uma organização. Usar a plataforma pode aprimorar significativamente a eficiência de analistas de dados, proporcionando acesso rápido e fácil a informações relevantes.

Interface de Usuário Intuitiva

Uma das principais características do Amundsen é sua interface gráfica amigável. Assim que você acessa a plataforma, um campo de busca semelhante ao do Google se destaca, permitindo que os usuários iniciem suas pesquisas digitando palavras-chave relacionadas aos dados que buscam.

Pesquisa e Filtragem Eficiente

O Amundsen utiliza um sistema de indexação baseado no ElasticSearch, resultando em pesquisas rápidas e eficazes. Os usuários podem aplicar diferentes filtros durante as pesquisas para restringir os resultados, como tipo de fonte de dados e tags associadas, tornando o processo de descoberta de dados mais dirigido e pertinente.

Catalogação de Dados

Ao inserir dados no Amundsen, eles são automaticamente catalogados. As informações podem incluir nome do dataset, descrição e dados sobre os responsáveis pelos dados, o que ajuda na governança e assegura que todos na organização saibam onde encontrar as informações necessárias.

Atualizações em Tempo Real

O Amundsen permite atualizar os metadados em tempo real. Quando mudanças ocorrem em datasets existentes, o Amundsen pode ser configurado para refletir as atualizações automaticamente, garantindo que os dados estejam sempre atuais e precisos.

Compartilhamento e Colaboração

A plataforma facilita o compartilhamento de informações entre membros da equipe. Os usuários podem adicionar observações, comentários e realizar edições nas descrições dos datasets, criando um contexto adicional que beneficia tanto analistas quanto engenheiros de dados.

Integração com Ferramentas de ETL

O Amundsen integra-se facilmente com ferramentas de ETL (Extract, Transform, Load), como o Apache Airflow. Isso permite que os dados sejam extraídos de diversas fontes, processados e disponibilizados no Amundsen de forma automatizada, melhorando a eficiência na gestão de metadados.

Esquema representando a arquitetura do Amundsen Catalog

Quais são os benefícios do uso do Amundsen?

O Amundsen oferece diversos benefícios para organizações que buscam gerenciar e utilizar seus dados de maneira eficiente:

  1. Facilidade na descoberta de dados: Os usuários podem localizar dados rapidamente por meio de uma interface de busca intuitiva, centralizando informações sobre tabelas e colunas.

  2. Aumento da produtividade: O acesso mais rápido e eficiente aos metadados reduz o tempo que analistas gastam na busca e compreensão dos dados, permitindo que se concentrem mais na análise.

  3. Integração com várias fontes de dados: O suporte a diversas fontes permite que as organizações unifiquem a visualização de seus dados, independentemente de onde estejam armazenados.

  4. Governança de dados aprimorada: O Amundsen ajuda as organizações a definir quem são os responsáveis pelos dados, estabelecendo políticas de acesso e uso eficazes.

  5. Visualização de linhagem de dados: O suporte à visualização da linhagem dos dados ajuda a entender a origem dos dados, essencial para identificar problemas e garantir qualidade.

  6. Colaboração entre equipes: A plataforma facilita a colaboração entre equipes ao permitir adição de comentários e anotações nas informações.

  7. Customização: A flexibilidade do Amundsen permite que as organizações personalizem a plataforma segundo suas necessidades, criando um ambiente adaptado.

Esses benefícios demonstram como o uso do Amundsen pode transformar a gestão de dados nas organizações, resultando em uma cultura de dados mais forte e na tomada de decisões mais informadas.

Vale a pena usar o Amundsen?

O Amundsen Catalog se posiciona como uma ferramenta essencial para organizações que desejam melhorar a gestão de metadados e a eficiência em suas equipes de dados. Com uma interface amigável e poderosas funcionalidades de pesquisa e catalogação, ele não apenas facilita o acesso aos dados, mas também promove uma cultura de colaboração e compartilhamento de conhecimento entre os profissionais.

Ao adotar o Amundsen, as equipes não só economizam tempo precioso na busca por informações relevantes, mas também ganham maior confiança na precisão e na atualidade dos dados utilizados em suas análises. Em um cenário cada vez mais orientado por dados, investir na implementação do Amundsen pode ser o diferencial que sua organização precisa para se destacar.