Será que esse novo modelo de IA vai conseguir ler a mente humana?🙀

Modelos de ML real time; Volta aos escritórios em empresas Tech; 5 paradoxos de estatística para DS;

Fala Data Hackers, agora que já estamos em março e o ano oficialmente começou no Brasil pós-carnaval podemos encher nossa semana com assuntos relacionados a área de dados!

Hoje vamos falar de ChatGPT (sério, de novo?) mas fiquem tranquilos que os principais assuntos não tem nada a ver com isso, vamos até apresentar um novo chat da Microsoft que consegue ler e interpretar imagens durante o bate papo, mas o foco da newsletter será em importantes tópicos do dia a dia dos profissionais de dados, como o movimento das empresas de tecnologia visando a volta aos escritórios, como o papel do “Data Translator” vem ganhando destaque nas organizações, feature engineering e muito mais!

Vejam só alguns assuntos quentes que temos hoje:

Nesse artigo publicado recentemente por dois cientistas Japoneses, os modelos generativos são utilizados para interpretar dados provenientes da atividade cerebral humana e tentar reconstruir as imagens que as pessoas estavam vendo durante o experimento.

O resultado obtido foi bem impressionante e nos leva a uma importante reflexão: Quando os algoritmos baseados em inteligência artificial terão a capacidade de ler nossas mentes?

O mais interessante de tudo isso é pensar nas inúmeras possibilidades que vão surgir com o avanço desses modelos e tecnologias. (em Inglês)

Sabia que o ChatGPT pode te entregar tabelas prontas e cheias de informação que ele mesmo busca na internet?

Sabia que é possível usar o prompt para converter JSON em XML? Ou um XML em CSV?

Sabia que ele é capaz de interpretar um texto com análise de sentimentos e te dizer se o texto é positivo, negativo ou neutro?

A verdade é que muita gente ainda não entendeu o potencial da ferramenta e como ela já pode ser utilizada para deixar diversas tarefas mais produtivas no dia a dia, mas agora temos um novo recurso para te ajudar nisso, um Cheat Sheet do ChatGPT.

Obs: Se você é novo na área de dados, talvez ainda não saiba do que se trata um Cheat Sheet, uma espécie de resumo com as principais dicas para o melhor uso de ferramentas, linguagens etc. Tem muita gente que até imprime Cheat Sheets para ter esse tipo de material sempre em mãos nos momentos que surgirem dúvidas. (em Português)

O Data Hacker Vinícius Coimbra, diretor de Data Engineering na Creditas, fez um artigo muito interessante dando destaque para o importante papel do “Data Translator” nas organizações.

“O Data Translator é um profissional que consegue facilitar a comunicação entre diferentes times ou áreas dentro da organização, literalmente traduzindo toda a informação técnica em insights do negócio, para que facilmente seja entendido pelos stakeholders.”

No post, ele mostra que diversas empresas estão recorrendo a esse novo papel para alavancar a cultura data driven e data centric, além de abordar alguns pontos interessantes como as responsabilidades de um Data Translator, as soft skills e hard skills necessárias para quem for assumir esse papel. (em Português)

OUTROS TÓPICOS

Feature Engineering: Técnicas para lidar com dados faltantes em um projeto de ciência de dadosNesse Artigo o Data Hacker Clébio de Oliveira fez um verdadeiro tutorial sobre Feature Engineering, explicando diferentes tipos de técnicas para lidar com missing values em bases de dados para treinamento e validação de modelos de Machine Learning, vale a pena conferir! (em Português)As empresas de tecnologia estão planejando a volta aos escritórios, como isso afeta o modelo de trabalho remoto?Gergely Orosz (também conhecido como “The Pragmatic Engineer”) fez uma análise bem interessante dos últimos movimentos das Big Techs e empresas do vale do silício em relação a um tema polêmico: A volta aos escritórios. Além de mostrar como as principais empresas estão mudando as políticas referentes ao trabalho remoto, ele explica os motivos por trás desse movimento e faz uma reflexão sobre o futuro do trabalho na área de tecnologia. (em Inglês)5 paradoxos da estatística que os Cientistas de Dados deveriam conhecerOs cientistas de dados geralmente utilizam de análises estatísticas para compreender as relações entre os dados com o objetivo de responder perguntas de negócios ajudando empresas e indivíduos a tomar melhores decisões. No entanto, alguns fenômenos estatísticos podem ser contra-intuitivos, possivelmente levando a paradoxos e vieses nas análises, o que poderá arruinar todo o trabalho. Nesse artigo são apresentados 5 paradoxos comuns no processo de análise de dados e como desviar deles. (em Inglês)Prompt Engineer Guide: Um repositório cheio de materiais para extrair o máximo de promptsPrompt Engineering é uma “disciplina” relativamente nova que consiste em uma série de técnicas para desenvolver e otimizar prompts com o objetivo de usar eficientemente modelos de linguagem (LLMs como por exemplo o ChatGPT). Os pesquisadores usam a prompt engineering para melhorar a capacidade dos LLMs em uma ampla gama de tarefas comuns e complexas, conseguindo resultados extraordinários com esse tipo de modelo. Diante da popularidade desse assunto esse repositório foi criado para reunir artigos, ferramentas e uma série de materiais sobre o Prompt Engineering. (em Inglês)Microsoft apresenta novo Chat que é capaz de ver e interpretar imagensA Microsoft apresentou o Kosmos-1, um novo modelo multimodal de inteligência artificial capaz de analisar imagens em busca de conteúdo, resolver quebra-cabeças visuais, realizar reconhecimento visual de texto, passar em testes de QI visual e entender instruções de linguagem natural. Já consegue imaginar o que está por vir pela frente, com o futuro dessas I.A.’s? (em Português)

DICA DE VÍDEO

Meetup Nubank - Modelos em tempo real na vida realO uso de modelos de machine learning em tempo real pode trazer grandes vantagens na solução de alguns problemas, tais como atendimento ao cliente e detecção de fraudes. Nesta palestra, vamos abordar desafios e estratégias para o desenvolvimento de modelos que façam predições em tempo real, com ênfase em modelos de deep learning.

(em Português)

VAGAS DA SEMANA

Engenheiro de Dados Sênior - QuantoSão Paulo - SP - Remoto

  • Experiência sólida em SQL e Python;

  • Experiência com Airflow, DBT e BigQuery;

  • Experiência em modelagem de dados;

  • Experiência em ingestão e transformação (ETL/ELT) dos dados, além do monitoramento da disponibilidade e qualidade;

  • Conhecimento em Docker e Kubernetes;

  • Experiência com ferramentas de catálogo, linhagem e qualidade de dados.

  • Conhecimento de ferramentas e práticas de observabilidade como o Grafana e Prometheus;

  • Experiência com ambientes em cloud como GCP e AWS, nosso ambiente transacional é na AWS e analítico na GCP.

Cientista de Dados Senior - VIVOSão Paulo - SP - Remoto

  • Espanhol e/ou inglês no mínimo intermediário;

  • Experiência no desenvolvimento de modelos ML/IA;

  • Experiência no desenvolvimento de estudos estatísticos;

  • SQL Server;

  • Python;

MEME DA SEMANA

Meme da semana

Por que será que parecia tão fácil colocar esse modelo em produção?

DATA VISUALIZATION DA SEMANA

Um mapa mostrando a destruição da Ucrania devido a guerra

Nessa visualização simples e interessante o time do Nexo Jornal resolveu analisar os dados de busca de brasileiros no google pela palavra praia. Com os dados em mãos conseguiram desenvolver uma dataviz simples e objetiva, mostrando a sazonalidade em que o brasileiro busca colocar o "pé na areia" durante o ano. (em português)

PROXIMOS EVENTOS E MEETUPS

15 e 16 de março - 100% online e gratuito

20 a 23 de março - 100% online e gratuito

22 de março - 100% online e gratuito

30 de março - Presencial: Vila Olímpia ­São Paulo, SP

23 de abril - 100% online e gratuito

Obs: gostaria de ter seu evento divulgado aqui? Basta compartilhar ele em nosso canal do slack.

Logo