Neste último encontro veremos como combinar data frames de diferentes origens que se relacionam por meio de uma ou mais variáveis chave. Utilizaremos novos verbos do dplyr, de sufixo _join para trabalhar com bases de dados relacionais.
A seguir, você poderá escolher um ou mais dos tutoriais opcionais, conforme seu interesse.
1 - Se deixou algum tutorial inacabado do encontro anterior, comece por ele. Caso contrário, prossiga.
2 - Comece pelo tutorial no qual parou: Tutorial 1, Tutorial 2, Tutorial 3, Tutorial 4, Tutorial 5, Tutorial 6, Tutorial 7, Tutorial 8 e Tutorial 9
3 - Na sequência, vá para o Tutorial 10 que apresenta como trabalhar com bases de dados relacionais utilizando os verbos do dplyr.
4 - O Tutorial 11 não traz nenhuma novidade em relação ao anterior, mas utiliza os verbos _join para um tipo de combinação de dados bastante comum: tabelas de indivíduos e domicílios em uma pesquisa amostral domiciliar, a TICDOM, realizada pelo CETIC-NIC.
Os tutoriais a seguir são opcionais e foram preparados para quem quiser ir além dos conteúdos principais do curso:
5 - Tutorial 9: R Base. Este tutorial foi apresentado na Aula 4, mas como é opcional, seria uma boa ideia fazê-lo caso ainda não tenha feito. Para quem se sente confortável com o uso do R e a 'gramática' do dplyr, pode ser interessante retomar o Tutorial 9, que apresenta conceitos da gramática básica do R.
6 - Tutorial 12: Integração com Power BI. Neste tutorial, acompanhado de vídeos curtos, você verá as formas mais simples de integrar o R ao Power BI, permitindo importar, transformar e visualizar dados diretamente no Power BI usando scripts em R.
7 - Tutorial 13: Integração com SQL. Aprenda a conectar o R a bancos de dados e executar consultas SQL diretamente no ambiente R. O tutorial aborda conexões com DuckDB (para análises rápidas de arquivos grandes) e bancos corporativos como MySQL, permitindo processar datasets que não cabem na memória e integrar dados de múltiplas fontes.
8 - Tutorial 14: Relatórios Reproduzíveis com RMarkdown. Aprenda a automatizar relatórios combinando texto, código e dados atualizados em um único documento. O tutorial mostra como gerar análises dinâmicas, criar seções por grupo, agendar execuções automáticas e enviar relatórios por e-mail sem intervenção manual.
9 - Tutorial 15: Análise de Dados do Início ao Fim. Neste tutorial de encerramento, o objetivo é reunir e articular várias técnicas aprendidas ao longo do curso, mostrando o fluxo completo de análise: limpeza, organização, tratamento de valores ausentes, identificação de problemas de estrutura nos dados e primeiros passos em análise exploratória e modelagem. O foco está em como pensar o processo e combinar diferentes etapas para extrair informações relevantes de conjuntos de dados complexos.
O livro 'R for Data Science' tem excelente capítulo dados relacionais (Capítulo 13).
Para a integração entre R e Power BI, convém ler a documentação da Microsoft: (1) Executar scripts do R no Power BI Desktop; (2) Uso do R no Editor do Power Query; (3) Criar visuais do Power BI usando o R.
Para integração entre R e SQL, vale consultar: (1) o guia oficial do pacote DBI: R Interface to Databases; (2) a comparação de dialetos do DuckDB: DuckDB's SQL Dialect, que destaca diferenças importantes em relação ao padrão SQL, como suporte a STRUCT, MAP, UNNEST e uso avançado de funções escalares.
Para aprofundar o uso do R Markdown, vale consultar: (1) o R Markdown: The Definitive Guide e o R Markdown Cookbook para exemplos práticos e boas práticas; (2) o bookdown para produção de documentos extensos, como livros e relatórios técnicos; (3) o TinyTeX como opção leve de LaTeX para gerar PDFs diretamente do R; (4) o guia Learn LaTeX in 30 minutes para aprender o básico sobre formatação com LaTeX.
- Escolha ao menos duas bases que possam ser conectadas através de variáveis-chave.
- Realize diferentes tipos de junções (inner_join, left_join, right_join), indicando qual das opções foi a mais adequada e justifique claramente sua escolha.
- Visualize as diferenças entre as junções utilizando tabelas ou gráficos simples (com funções dos pacotes janitor ou ggplot2).
- Realize uma junção utilizando múltiplas variáveis-chave simultaneamente. No script, explique por que essa abordagem foi necessária e quais foram os desafios técnicos.
- Exporte e visualize os resultados obtidos no Power BI usando scripts do R.
- Escolha um trecho da análise e converta em um relatório automatizado com RMarkdown, incluindo código e texto explicativo.
- Reescreva parte do seu código usando apenas funções do base R para treinar a compreensão da linguagem em baixo nível.
Apresente claramente cada etapa da análise em um arquivo .R (ou opcionalmente .Rmd), detalhando todas as decisões tomadas e os resultados obtidos.