- Data Hackers Newsletter
- Posts
- Como escrever o Prompt perfeito? ✍️ Um guia para profissionais de dados que usam IA Generativa
Como escrever o Prompt perfeito? ✍️ Um guia para profissionais de dados que usam IA Generativa
E mais: Como a equipe de dados do Notion organizou e estruturou seu Catálogo de Dados; Como o Airbnb criou uma plataforma para potencializar o desenvolvimento de apps com IA Generativa e LLMs
Se inscrever | Parcerias | Podcast | Blog
Fala Data Hackers! E aí, que tal começar a semana dando uma geral nas notícias mais quentes do mundo dos dados?
Essa é a newsletter do Data Hackers, a melhor forma de iniciar a semana por dentro das principais novidades do mundo dos dados e AI.
Aproveitando, esses são alguns dos destaques de hoje:
CEO da OpenAI diz que a chegada do GPT5 Orion não passa de Fake News
5 técnicas pouco conhecidas (e eficientes) para transformação de dados durante o processo de análise
Como a IA vai impactar os cargos em Data Engineering no longo prazo?
Probability Calibration: Como e Por Que Calibrar as Probabilidades em Machine Learning
P.S.: Ainda não é assinante da newsletter? Clique aqui para se inscrever gratuitamente
A pesquisa State of Data Brazil 2024 está no ar, e mais de 2.200 profissionais de dados já preencheram suas respostas! 💡
Esta pesquisa é a maior fonte de informação que temos no Brasil hoje sobre carreira e salários dos profissionais de dados, sua ajuda é fundamental para conseguirmos continuar avançando com esse projeto.
Além disso, ao participar da pesquisa você vai poder:
Receber o Guia Data Hackers, um ebook com mais de 30 páginas de análises sobre o mercado de dados
Ganhar acesso gratuito aos dados anonimizados da pequisa ao final, para fazer suas próprias análises
Ajudar toda a comunidade
Participe da pesquisa, não leva nem 10 min!
LLMs podem produzir qualquer sequência de caracteres, em qualquer idioma e em níveis de qualidade muito diferentes. Do primeiro capítulo de um romance à função Python ideal para resolver um problema complicado. Tudo depende de você especificar o que quer com um prompt perfeito, elaborado meticulosamente. E neste link você encontra praticamente um “dicionário” para isso, com diversos prompts prontos para situações específicas. Quase um “livro de feitiços”, que pode ajudar do iniciante ao usuário mais experiente. Puro ouro! (em Inglês)
Temos uma oportunidade incrível pra vocês! A XConf América Latina 2024 | São Paulo está chegando, e além de trazer conteúdos imperdíveis sobre tecnologia, inovação e dados, estamos oferecendo um desconto exclusivo de 50% para todos os membros da comunidade Data Hackers! 🌐💡
E o melhor de tudo: todo o valor arrecadado com as inscrições será destinado ao Instituto Programadores do Amanhã, que apoia a formação de futuros talentos em tecnologia! 🎓💻
🔑 Use o código: DATAHACKERSNAXCONF
📅 Data: 09.11.2024
🎟️ Vagas limitadas!
Desenvolver um catálogo de dados robusto não é fácil, mas pode ser fundamental para desenvolver um trabalho com dados que se mostre sólido a longo prazo, principalmente quando se usa um grande número de ativos e sistemas. Neste artigo, o pessoal da Notion, que está entre as principais ferramentas de organização de trabalho do mundo, compartilha como desenvolveu seu catálogo de dados, relatando os problemas encontrados e as soluções utilizadas, desde o primeiro mapeamento até as reformulações em busca do engajamento do usuário. (em Inglês) | O rápido desenvolvimento das tecnologias de Machine Learning e Processamento de Linguagem Natural fez com que a IA conversacional ganhasse destaque, com assistentes virtuais, chatbots de suporte e outros recursos do tipo crescendo a cada dia. Este artigo relata como o Airbnb desenvolveu uma plataforma para facilitar o desenvolvimento de produtos de IA conversacional usando ferramentas como a representação unificada de fluxos de trabalho e a reutilização de ações. E este outro artigo mostra como foi feito o aprimoramento dessa mesma plataforma. (em Inglês) |
OUTROS TÓPICOS
Há algumas semanas, o portal The Verge publicou um relatório exclusivo, aparentemente bem pesquisado e com base em fontes, no qual apontava que a OpenAI tinha planos de lançar um novo modelo de IA de grande impacto, batizado de Orion (que poderia ou não ser o GPT-5), em dezembro. Cerca de duas horas depois, Sam Altman respondeu ao artigo no X afirmando que isso era “fake news fora de controle”. Essa resposta um tanto vaga, no entanto, está dando margem a várias especulações. Confira algumas delas aqui. (em Inglês)
Alguns fatores podem facilitar muito a execução de uma aplicação FastAPI em um ambiente de produção. Usar containers, por exemplo, pode facilitar a implantação e escalabilidade das APIs, pois garantem que as dependências e o ambiente da aplicação sejam padronizados. Outros fatores críticos para otimizar a performance incluem configurações específicas do Gunicorn, como o número de workers e o modelo de gerenciamento de processos. Neste artigo, o Data Hacker Lucas de Brito Silva explica melhor como usar estes e outros recursos. (em Português)
5 técnicas pouco conhecidas (e eficientes) para transformação de dados durante o processo de análise
A transformação de dados é o processo de converter dados em outro valor para melhor representá-los, usando para isso determinados cálculos ou metodologias, que caracterizam os diferentes tipos de transformações. Transformações como a normal e a logarítmica se tornaram populares por serem fáceis de interpretar e permitirem atingir certos propósitos sem sacrificar muitas informações. Mas há outras transformações menos comentadas que podem ser úteis, do que vale muito conhecê-las. Conheça 5 delas neste artigo. (em Inglês)
A IA generativa está mudando a forma como se trabalha nos mais diferentes setores, e para quem trabalha com engenharia de dados, é fundamental entender suas possibilidades de aplicação e seus impactos a longo prazo. Esse texto traz um panorama desses possíveis impactos considerando tanto o impacto da IA na demanda por competências de engenharia de dados quanto o uso da IA por engenheiros de dados em seu trabalho cotidiano. (em Inglês).
Você e sua equipe já passaram aperto com ingestões de dados em lotes que se mostram ineficientes, sobrecarregam seus databases de origem, limitam a replicação de dados a apenas uma vez por dia e só oferecem uma visão de alto nível dos seus dados? O pessoal da plataforma de moradia QuintoAndar também sofria com isso, mas conseguiu revolucionar sua abordagem de ingestão e análise de dados com Change Data Capture (CDC). Neste artigo, eles explicam como. (em Inglês)
Ao treinar modelos de Machine Learning, muitas vezes focamos só na previsão do target (0 ou 1) e não nos preocupamos em validar as probabilidades fornecidas. Mas nem todos os modelos de machine learning produzem probabilidades bem calibradas, e a não calibração pode gerar problemas graves, principalmente em áreas sensíveis como medicina, detecção de fraudes e previsão de churn. Neste artigo, o Data Hacker Edson Junior ensina a avaliar e calibrar as probabilidades para evitar problemas. (em Português)
DICA DE VIDEO
Vídeo da live que fizemos sobre Engenharia de Analytics, uma das áreas mais promissoras do mercado de dados, em parceria com profissionais do Itaú. Vale conferir os insights que dos engenheiros de analytics Marlon Ferrari, Thiago Panini e Carlos Vaccaro sobre os primeiros na carreira de um engenheiro de analytics, a aceleração de carreiras na área, o papel da democratização de dados nas empresas e o cotidiano da função. (em Português)
VAGAS DA SEMANA
Híbrido - São Paulo-SP | Presencial - São Paulo-SP |
DATA VISUALIZATION DA SEMANA
Já parou pra pensar quais as linguagens de programação são as mais populares do Github, e como essa popularidade evoluiu ao longo dos últimos anos? No Dataviz de hoje, você confere um ranking com as 10 linguagens mais populares da plataforma nos últimos 10 anos, com base no número de usuários distintos contribuindo para projetos de cada linguagem, e como elas se alternaram no ranking durante esse período. Spoiler: no último ano, finalmente Javascript deixou de ser a número 1 e cedeu o trono ao Python. (em Inglês)
PRÓXIMOS EVENTOS E MEETUPS
9 de novembro - São Paulo-SP
14 de novembro - Online
30 de novembro - Recife-PE
Obs: gostaria de ter seu evento divulgado aqui? Basta compartilhar ele em nosso canal do slack.
Quer fazer uma parceria com a comunidade Data Hackers?
Amplie a visibilidade da sua marca e produto entre as principais lideranças em dados, garantindo que suas iniciativas atinjam diretamente as maiores referências em dados e inteligência artificial do Brasil.
Wow! Já que chegou até aqui, qual a nota dessa edição da Newsletter?Pode dar sua opinião sincera... |
Faça Login ou Inscrever-se para participar de pesquisas. |