Os 10 melhores datasets do UCI Machine Learning Repository para cientistas de dados

Descubra os melhores conjuntos de dados do UCI para aprendizado de máquina e impulsionar seu portfólio

O UCI Machine Learning Repository é um verdadeiro playground para cientistas de dados em busca de conjuntos de dados de alta qualidade para aprimorar suas habilidades e enriquecer seus portfólios. Com uma vasta coleção de datasets abrangendo diversas áreas, desde saúde até finanças, essa plataforma oferece oportunidades muito legais para aplicar técnicas de aprendizado de máquina e obter insights valiosos. Neste artigo, destacamos os 10 melhores datasets do UCI, selecionados por sua relevância, qualidade e potencial para impulsionar projetos de machine learning. Confira!

State of Data Brazil: o maior dataset sobre o mercado de dados brasileiro

Antes de mergulharmos nos datasets do UCI, não podemos deixar de mencionar o State of Data Brazil, o maior levantamento sobre o mercado de dados no Brasil. Com mais de 5.000 respostas, esse dataset abrange informações sobre salários, demografia, tecnologias mais utilizadas, trabalho remoto, inteligência artificial generativa e muito mais.

Embora não seja focado especificamente em machine learning, o State of Data Brazil oferece insights valiosos para cientistas de dados que desejam entender melhor o cenário brasileiro. Para saber mais, acesse o site oficial do projeto: stateofdata.datahackers.com.br.

Por que o UCI Machine Learning Repository é tão popular?

Logo do UCI Machine Learning Repository

Criado em 1987 por David Aha e estudantes de pós-graduação da UC Irvine, o UCI Machine Learning Repository indexa cerca de 500 conjuntos de dados e é amplamente utilizado em pesquisas de ciência da computação. Sua popularidade se deve a diversos fatores:

  1. Diversidade de Conjuntos de Dados: O repositório oferece uma ampla variedade de conjuntos de dados em diferentes domínios (por exemplo, biologia, finanças, reconhecimento de imagem) que atendem a vários interesses de pesquisa e aplicações.

  2. Acessibilidade: Os conjuntos de dados são disponibilizados gratuitamente, tornando-os acessíveis a pesquisadores, estudantes e profissionais que desejam experimentar algoritmos de aprendizado de máquina sem a barreira do custo.

  3. Padronização: Muitos conjuntos de dados no repositório têm sido amplamente utilizados na comunidade de aprendizado de máquina, proporcionando um benchmark padrão para avaliação e comparação de algoritmos.

Como baixar datasets do UCI Machine Learning Repository?

Existem duas formas de baixar dados do UCI: pelo pacote Python oficial, ou diretamente pelo site do repositório:

Baixando diretamente do site da UCI

  1. Acesse o UCI ML Repository.

  2. Clique no link "Data Set Description". Isso abrirá uma página com informações valiosas sobre o conjunto de dados, incluindo material de origem, publicações que utilizam os dados, nomes das colunas e muito mais.

  3. Faça o download do dataset e comece a explorar!

Baixando datasets usando o pacote Python

  1. Instale o pacote oficial da UCI pelo pip, com o comando: pip3 install -U ucimlrepo

  2. Após a instalação, você pode usar a função list_available_datasets para listar todos os datasets disponíveis, ou você pode baixar diretamente pelo código do dataset. Dica: o código do dataset pode ser verificado na URL do dataset. Por exemplo, o código do dataset Iris é 53, como pode ser visto na URL https://archive.ics.uci.edu/dataset/53/iris

Aqui está o código de exemplo para baixar um dataset usando a biblioteca Python:

from ucimlrepo import fetch_ucirepo, list_available_datasets

# check which datasets can be imported
list_available_datasets()

# import dataset
heart_disease = fetch_ucirepo(id=45)
# alternatively: fetch_ucirepo(name='Heart Disease')

# access data
X = heart_disease.data.features
y = heart_disease.data.targets
# train model e.g. sklearn.linear_model.LinearRegression().fit(X, y)

# access metadata
print(heart_disease.metadata.uci_id)
print(heart_disease.metadata.num_instances)
print(heart_disease.metadata.additional_info.summary)

# access variable info in tabular format
print(heart_disease.variables)

Os 10 melhores datasets do UCI Machine Learning Repository

Agora que você já sabe como acessar o repositório, vamos conhecer os 10 melhores datasets para cientistas de dados.

1. Iris

O dataset Iris é um clássico no mundo do aprendizado de máquina. Ele é utilizado para tarefas de classificação e contém três classes de flores de íris com quatro características: comprimento e largura das sépalas e das pétalas. Este dataset é ideal para introduzir conceitos básicos de aprendizado de máquina e visualização de dados.

2. Wine Quality

O dataset Wine Quality é utilizado para prever a qualidade de vinhos com base em diversas características químicas. Ele é útil para tarefas de regressão e classificação e é frequentemente utilizado em competições de aprendizado de máquina.

Propriedades de amostras de vinho verde tinto e branco do norte de Portugal. O objetivo é modelar a qualidade do vinho com base em testes físico-químicos.

3. Dataset de Doenças Cardiacas

O dataset de Heart Disease é um dos mais populares e amplamente utilizados para tarefas de classificação. Ele contém informações sobre pacientes e uma série de atributos médicos que podem ser usados para prever a presença de doenças cardíacas. Este dataset é frequentemente utilizado para estudos de saúde pública e desenvolvimento de modelos preditivos médicos.

4. Renda Adulta

O dataset Adult, também conhecido como "Census Income", é amplamente utilizado para tarefas de classificação. Ele contém informações demográficas e econômicas de indivíduos e é utilizado para prever se uma pessoa ganha mais de 50 mil dólares por ano. Este dataset é ideal para estudos de discriminação de renda e análise socioeconômica.

5. Dataset de Cancer de Mama

Este dataset contém dados diagnósticos do câncer de mama de Wisconsin, com 569 instâncias e 30 características. É amplamente utilizado para modelos de classificação em diagnósticos médicos.

6. Bank Marketing

O dataset Bank Marketing está relacionado a campanhas de marketing direto (ligações telefônicas) de uma instituição bancária portuguesa. O objetivo de classificação é prever se o cliente fará um depósito a prazo.

7. Dataset de Diabetes

O dataset Diabetes contém informações médicas sobre pacientes e é utilizado para prever a presença de diabetes. Este dataset é frequentemente utilizado em estudos de saúde pública e desenvolvimento de modelos preditivos médicos.

8. Mushroom

O dataset Mushroom descreve cogumelos em termos de características físicas e classifica-os como venenosos ou comestíveis. Com 8.12K instâncias e 22 características, é ideal para praticar modelos de classificação.

9. Dataset de Spam

Mais de 4500 emails para serem classificados como Spam ou Não-spam. Um dataset muito interessante, aplicado a um problema real que você poderá ver nas organizações.

10. Credit Card Default

Prever a inadimplência de cartão de crédito é uma aplicação valiosa e comum para o aprendizado de máquina. Este rico conjunto de dados inclui demografia, histórico de pagamentos, crédito e dados de inadimplência.

Inscreva-se na Newsletter do Data Hackers

Se você gostou deste conteúdo e quer se manter atualizado sobre o mundo dos dados, não deixe de se inscrever na Newsletter do Data Hackers, a maior comunidade de dados do Brasil.

Conclusão

O UCI Machine Learning Repository é uma ferramenta essencial para cientistas de dados, oferecendo uma riqueza de conjuntos de dados gratuitos e bem documentados que podem ser usados para testar uma variedade de técnicas de aprendizado de máquina. Embora não sejam datasets massivos que poderiam ser usados em um âmbito de produção em empresas, os datasets da UCI são ótimas opções para aprender e aplicar técnicsa de ML em diferentes contextos.