O melhor dataset da Eurocopa 2024 para você alimentar seu portifólio

E mais: Meta suspende recursos de IA no Brasil; Como entrevistar e contratar engenheiros de ML e AI

Fala aí galera! Prontos para mais uma semana cheia de dados?

Essa é a newsletter do Data Hackers, a melhor forma de iniciar a semana por dentro das principais novidades do mundo dos dados e AI.

Aproveitando, esses são alguns dos destaques de hoje:

P.S.: Ainda não é assinante da newsletter? Clique aqui para se inscrever gratuitamente.

Com o objetivo de explorar inovações e tendências do momento em relação à inteligência artificial, a Ambev Tech lança seu terceiro circuito de Meetups Tech&Cheers, edição Data & Analytics.

O evento será realizado no dia 24/07 no escritório da Ambev em São Paulo (SP) a partir das 18h30, em uma parceria especial com a comunidade Data Hackers. Nesta edição, vamos seguir uma programação técnica para discutir sobre IA Generativa, experiência do usuário, personalização de produtos e serviços; além de uma mesa redonda mediada por Daniel Cassiano, Diretor de Data & Analytics da Ambev Tech.

Você não vai querer ficar de fora, vai? Vale lembrar que o encontro será apenas presencial, com vagas limitadas, garantidas conforme preenchimento do formulário de inscrição.

O campeonato europeu acabou nesse último fim de semana, mas suas análises estão apenas começando. Isso porque o pessoal da StatsBomb não apenas liberou uma análise interessante sobre o campeonato, como também disponibilizou um baita dataset gratuitamente para você fazer suas análises e enriquecer seu portfólio. (em Inglês)

A Meta, dona do Instagram, do Facebook e do WhatsApp, anunciou na semana passada a interrupção de seus recursos de inteligência artificial generativa no Brasil. A medida foi tomada depois que a Autoridade Nacional de Proteção de Dados determinou que a empresa suspendesse a coleta de dados de usuários para treinar sua inteligência artificial.

E não é só o Brasil que tem sido deixado de lado por Zuckerberg e companhia: também na última semana a empresa anunciou que não vai mais liberar modelos multimodais na União Europeia. (em Português)

Mais um baita post do grande Eugene Yan, pesquisador da Amazon que tem um trabalho de destaque em Machine Learning aplicada e ciência de dados e cujos artigos já recomendamos aqui em mais de uma oportunidade.

Neste post, ele fala sobre a importância de fazer boas entrevistas nos processos de contratação de profissionais de ML e IA, e aborda a entrevista como um sistema que, dado um candidato, deve avaliar com o máximo de confiabilidade e o mínimo de ruído se ele é adequado para a função e a equipe. (em Inglês)

OUTROS TÓPICOS

A OpenAI anunciou na última semana o lançamento do GPT-4o Mini, um modelo de IA generativa menor do que o GPT-4o e que, segundo a empresa, apresenta o melhor custo benefício entre os modelos lançados até agora. A página de divulgação feita pela OpenAI apresenta detalhes sobre preço e sobre o desempenho do GPT-4o Mini em comparação a outros modelos. (em Inglês)

O portal The Information anunciou em primeira mão que a Meta vai lançar seu maior modelo Llama 3 no dia 23 de julho. Modelos menores do Llama 3, com cerca de 8 bilhões de parâmetros, já haviam sido lançados em abril, mas o novo lançamento tem um total de 405 bilhões de parâmetros e capacidade de compreender e gerar imagens e texto, o que gera, naturalmente, as mais altas expectativas possíveis. (em Inglês)

A Mistral, startup francesa voltada para a IA, lançou nesta semana dois novos modelos: o Mathstral, projetado especificamente para raciocínio matemática e pesquisas científicas, e o Codestral Mamba, voltado para a geração de códigos. Disponibilizados gratuitamente, o principal destaque dos modelos é a nova arquitetura utilizada pela Mistral. Para a LLM de código deles, foi usada a arquitetura Mamba, que é mais eficiente que a arquitetura de Transformers no tocante a inferência. (em Inglês)

Um relatório da Reuters afirmou que a OpenAI está trabalhando para trazer tecnologias avançadas de raciocínio a seus modelos de IA. O projeto é secreto e estaria sendo desenvolvido sob o nome de “Strawberry. Entre as capacidades do modelo estaria vasculhar a internet de forma autônoma e ser capaz de planejar tarefas mais complexas com antecedência. (em Inglês)

Em setembro de 2023, o sócio da Sequoia Capital David Cahn reparou na enorme distância entre as expectativas de receitas implícitas na construção da infraestrutura de IA e o real crescimento real das receitas nesse meio, e fez aquela que foi chamada a pergunta de 200 bilhões de dólares: onde está, afinal, toda a receita? Neste artigo, ele analisa o que mudou no cenário desde então. (em Inglês)

DICA DE LIVRO

Atualmente estou lendo esse livro da Tanya Reilly sobre a carreira de Staff Engineer e tenho curtido muito. Ela fala sobre o surgimento da necessidade de aumentar a qualificação dos profissionais além do Senior nas organizações e como é atuação desses profissionais. Um conteúdo excelente para quem é senior e quer se desenvolver ainda mais. (em Inglês)

P.S: Inclusive, você sabia que a família Data Hackers possui um podcast totalmente dedicado para quem quer se desenvolver na carreira técnica, e se tornar um staff ou principal? Aproveita para conhecer o Staff+ Podcast!

VAGAS DA SEMANA

Remoto

  • Experiência com experimentação;

  • Fortes habilidades em programação (SQL, Python, PySpark);

  • Habilidades em Machine Learning e Estatística;

  • Habilidades em estruturação e resolução de problemas complexos;

  • Fortes habilidades de comunicação (storytelling e apresentação de resultados);

  • Fortes habilidades analíticas;

  • Fortes habilidades de gerar insights e acionáveis conectados ao negócio;

  • Trabalho em equipe;

  • Adaptação rápida à cenários dinâmicos;

  • Pró-atividade

Remoto

  • Habilidades sólidas em engenharia de software;

  • Sólida experiência em Maniche Learning;

  • Compreensão dos requisitos e desafios envolvidos com trabalhar com Machine Learning;

  • Conhecimentos em modelagem de pipeline;

  • Boa habilidade com infraestruturas em nuvem;

  • Experiência no desenvolvimento de APIs RESTful;

  • Capacidade de lidar com mudanças em um ambiente de ritmo acelerado;

  • Orientação a valores de negócio

MEME DA SEMANA

Você prefere flexibilidade ou simplicidade?

DATA VISUALIZATION DA SEMANA

As formas de consumir música mudaram bastante dos anos 50 pra cá: rádio, vinis, fitas cassete, videoclipes, CDs, MP3, Spotify, YouTube, TikTok… E cada um desses formatos (junto a todos os discursos e culturas das diferentes épocas, claro) ajudou a influenciar a produção musical. Mas, fazendo uma análise mais direta, como a música evoluiu ao longo do tempo? Este artigo do Stat Significant faz uma análise estatística bem interessante usando bases de dados das paradas da Billboard e do Spotify e analisando elementos como duração, temática e “dançabilidade”. (em Inglês)

PRÓXIMOS EVENTOS E MEETUPS

  • 1 de agosto - Online

  • 8 de julho a 2 de agosto - Online

  • 24 de julho - São Paulo-SP

  • 1 de agosto - Santa Rita do Sapucaí-MG

  • 15 de agosto - São Paulo-SP

  • 18 a 20 de setembro - São Paulo-SP

  • 16 a 21 de outubro (Submissão de Atividades até 10 de agosto) - Rio de Janeiro-RJ

  • Inscrições abertas até 31/07

  • 18 de julho (quinta) 20h

Obs: gostaria de ter seu evento divulgado aqui? Basta compartilhar ele em nosso canal do slack.

Quer fazer uma parceria com a comunidade Data Hackers?

Amplie a visibilidade da sua marca e produto entre as principais lideranças em dados, garantindo que suas iniciativas atinjam diretamente as maiores referências em dados e inteligência artificial do Brasil.

Wow! Já que chegou até aqui, qual a nota dessa edição da Newsletter?

Pode dar sua opinião sincera...

Login or Subscribe to participate in polls.

Logo