Data Hackers Newsletter
Posts
Os 10 melhores datasets do UCI Machine Learning Repository para cientistas de dados

Os 10 melhores datasets do UCI Machine Learning Repository para cientistas de dados

Descubra os melhores conjuntos de dados do UCI para aprendizado de máquina e impulsionar seu portfólio

Data Hackers
23 de setembro de 2024 • Tempo de leitura estimado: 9 minutos

O UCI Machine Learning Repository é um verdadeiro playground para cientistas de dados em busca de conjuntos de dados de alta qualidade para aprimorar suas habilidades e enriquecer seus portfólios. Com uma vasta coleção de datasets abrangendo diversas áreas, desde saúde até finanças, essa plataforma oferece oportunidades muito legais para aplicar técnicas de aprendizado de máquina e obter insights valiosos. Neste artigo, destacamos os 10 melhores datasets do UCI, selecionados por sua relevância, qualidade e potencial para impulsionar projetos de machine learning. Confira!

State of Data Brazil: o maior dataset sobre o mercado de dados brasileiro

Antes de mergulharmos nos datasets do UCI, não podemos deixar de mencionar o State of Data Brazil, o maior levantamento sobre o mercado de dados no Brasil. Com mais de 5.000 respostas, esse dataset abrange informações sobre salários, demografia, tecnologias mais utilizadas, trabalho remoto, inteligência artificial generativa e muito mais.

Embora não seja focado especificamente em machine learning, o State of Data Brazil oferece insights valiosos para cientistas de dados que desejam entender melhor o cenário brasileiro. Para saber mais, acesse o site oficial do projeto: stateofdata.datahackers.com.br.

Por que o UCI Machine Learning Repository é tão popular?

Logo do UCI Machine Learning Repository

Criado em 1987 por David Aha e estudantes de pós-graduação da UC Irvine, o UCI Machine Learning Repository indexa cerca de 500 conjuntos de dados e é amplamente utilizado em pesquisas de ciência da computação. Sua popularidade se deve a diversos fatores:

Diversidade de Conjuntos de Dados: O repositório oferece uma ampla variedade de conjuntos de dados em diferentes domínios (por exemplo, biologia, finanças, reconhecimento de imagem) que atendem a vários interesses de pesquisa e aplicações.
Acessibilidade: Os conjuntos de dados são disponibilizados gratuitamente, tornando-os acessíveis a pesquisadores, estudantes e profissionais que desejam experimentar algoritmos de aprendizado de máquina sem a barreira do custo.
Padronização: Muitos conjuntos de dados no repositório têm sido amplamente utilizados na comunidade de aprendizado de máquina, proporcionando um benchmark padrão para avaliação e comparação de algoritmos.

Como baixar datasets do UCI Machine Learning Repository?

Existem duas formas de baixar dados do UCI: pelo pacote Python oficial, ou diretamente pelo site do repositório:

Baixando diretamente do site da UCI

Acesse o UCI ML Repository.
Clique no link "Data Set Description". Isso abrirá uma página com informações valiosas sobre o conjunto de dados, incluindo material de origem, publicações que utilizam os dados, nomes das colunas e muito mais.
Faça o download do dataset e comece a explorar!

Baixando datasets usando o pacote Python

Instale o pacote oficial da UCI pelo pip, com o comando: pip3 install -U ucimlrepo
Após a instalação, você pode usar a função list_available_datasets para listar todos os datasets disponíveis, ou você pode baixar diretamente pelo código do dataset. Dica: o código do dataset pode ser verificado na URL do dataset. Por exemplo, o código do dataset Iris é 53, como pode ser visto na URL https://archive.ics.uci.edu/dataset/53/iris

Aqui está o código de exemplo para baixar um dataset usando a biblioteca Python:

from ucimlrepo import fetch_ucirepo, list_available_datasets

# check which datasets can be imported
list_available_datasets()

# import dataset
heart_disease = fetch_ucirepo(id=45)
# alternatively: fetch_ucirepo(name='Heart Disease')

# access data
X = heart_disease.data.features
y = heart_disease.data.targets
# train model e.g. sklearn.linear_model.LinearRegression().fit(X, y)

# access metadata
print(heart_disease.metadata.uci_id)
print(heart_disease.metadata.num_instances)
print(heart_disease.metadata.additional_info.summary)

# access variable info in tabular format
print(heart_disease.variables)

Os 10 melhores datasets do UCI Machine Learning Repository

Agora que você já sabe como acessar o repositório, vamos conhecer os 10 melhores datasets para cientistas de dados.

1. Iris

O dataset Iris é um clássico no mundo do aprendizado de máquina. Ele é utilizado para tarefas de classificação e contém três classes de flores de íris com quatro características: comprimento e largura das sépalas e das pétalas. Este dataset é ideal para introduzir conceitos básicos de aprendizado de máquina e visualização de dados.

Baixar dataset: https://archive.ics.uci.edu/dataset/53/iris

2. Wine Quality

O dataset Wine Quality é utilizado para prever a qualidade de vinhos com base em diversas características químicas. Ele é útil para tarefas de regressão e classificação e é frequentemente utilizado em competições de aprendizado de máquina.

Propriedades de amostras de vinho verde tinto e branco do norte de Portugal. O objetivo é modelar a qualidade do vinho com base em testes físico-químicos.

Baixar dataset: https://archive.ics.uci.edu/dataset/109/wine

3. Dataset de Doenças Cardiacas

O dataset de Heart Disease é um dos mais populares e amplamente utilizados para tarefas de classificação. Ele contém informações sobre pacientes e uma série de atributos médicos que podem ser usados para prever a presença de doenças cardíacas. Este dataset é frequentemente utilizado para estudos de saúde pública e desenvolvimento de modelos preditivos médicos.

Baixar dataset: https://archive.ics.uci.edu/dataset/45/heart+disease

4. Renda Adulta

O dataset Adult, também conhecido como "Census Income", é amplamente utilizado para tarefas de classificação. Ele contém informações demográficas e econômicas de indivíduos e é utilizado para prever se uma pessoa ganha mais de 50 mil dólares por ano. Este dataset é ideal para estudos de discriminação de renda e análise socioeconômica.

Baixar dataset: https://archive.ics.uci.edu/dataset/2/adult

5. Dataset de Cancer de Mama

Este dataset contém dados diagnósticos do câncer de mama de Wisconsin, com 569 instâncias e 30 características. É amplamente utilizado para modelos de classificação em diagnósticos médicos.

Baixar dataset: https://archive.ics.uci.edu/dataset/17/breast+cancer+wisconsin+diagnostic

6. Bank Marketing

O dataset Bank Marketing está relacionado a campanhas de marketing direto (ligações telefônicas) de uma instituição bancária portuguesa. O objetivo de classificação é prever se o cliente fará um depósito a prazo.

Baixar dataset: https://archive.ics.uci.edu/dataset/222/bank+marketing

7. Dataset de Diabetes

O dataset Diabetes contém informações médicas sobre pacientes e é utilizado para prever a presença de diabetes. Este dataset é frequentemente utilizado em estudos de saúde pública e desenvolvimento de modelos preditivos médicos.

Baixar dataset: https://archive.ics.uci.edu/dataset/34/diabetes

8. Mushroom

O dataset Mushroom descreve cogumelos em termos de características físicas e classifica-os como venenosos ou comestíveis. Com 8.12K instâncias e 22 características, é ideal para praticar modelos de classificação.

Baixar dataset: https://archive.ics.uci.edu/dataset/73/mushroom

9. Dataset de Spam

Mais de 4500 emails para serem classificados como Spam ou Não-spam. Um dataset muito interessante, aplicado a um problema real que você poderá ver nas organizações.

Baixar dataset: https://archive.ics.uci.edu/dataset/94/spambase

10. Credit Card Default

Prever a inadimplência de cartão de crédito é uma aplicação valiosa e comum para o aprendizado de máquina. Este rico conjunto de dados inclui demografia, histórico de pagamentos, crédito e dados de inadimplência.

Baixar dataset: https://archive.ics.uci.edu/dataset/350/default+of+credit+card+clients

Se você gostou deste conteúdo e quer se manter atualizado sobre o mundo dos dados, não deixe de se inscrever na Newsletter do Data Hackers, a maior comunidade de dados do Brasil.

Conclusão

O UCI Machine Learning Repository é uma ferramenta essencial para cientistas de dados, oferecendo uma riqueza de conjuntos de dados gratuitos e bem documentados que podem ser usados para testar uma variedade de técnicas de aprendizado de máquina. Embora não sejam datasets massivos que poderiam ser usados em um âmbito de produção em empresas, os datasets da UCI são ótimas opções para aprender e aplicar técnicsa de ML em diferentes contextos.