Skip to content

Latest commit

 

History

History
75 lines (40 loc) · 6.55 KB

File metadata and controls

75 lines (40 loc) · 6.55 KB

Aula 5 -Bases Relacionais e o Ecossistema do R para Análise de Dados

Objetivos Gerais

Neste último encontro veremos como combinar data frames de diferentes origens que se relacionam por meio de uma ou mais variáveis chave. Utilizaremos novos verbos do dplyr, de sufixo _join para trabalhar com bases de dados relacionais.

A seguir, você poderá escolher um ou mais dos tutoriais opcionais, conforme seu interesse.

Roteiro

1 - Se deixou algum tutorial inacabado do encontro anterior, comece por ele. Caso contrário, prossiga.

2 - Comece pelo tutorial no qual parou: Tutorial 1, Tutorial 2, Tutorial 3, Tutorial 4, Tutorial 5, Tutorial 6, Tutorial 7, Tutorial 8 e Tutorial 9

3 - Na sequência, vá para o Tutorial 10 que apresenta como trabalhar com bases de dados relacionais utilizando os verbos do dplyr.

4 - O Tutorial 11 não traz nenhuma novidade em relação ao anterior, mas utiliza os verbos _join para um tipo de combinação de dados bastante comum: tabelas de indivíduos e domicílios em uma pesquisa amostral domiciliar, a TICDOM, realizada pelo CETIC-NIC.

Opcional

Os tutoriais a seguir são opcionais e foram preparados para quem quiser ir além dos conteúdos principais do curso:

5 - Tutorial 9: R Base. Este tutorial foi apresentado na Aula 4, mas como é opcional, seria uma boa ideia fazê-lo caso ainda não tenha feito. Para quem se sente confortável com o uso do R e a 'gramática' do dplyr, pode ser interessante retomar o Tutorial 9, que apresenta conceitos da gramática básica do R.

6 - Tutorial 12: Integração com Power BI. Neste tutorial, acompanhado de vídeos curtos, você verá as formas mais simples de integrar o R ao Power BI, permitindo importar, transformar e visualizar dados diretamente no Power BI usando scripts em R.

7 - Tutorial 13: Integração com SQL. Aprenda a conectar o R a bancos de dados e executar consultas SQL diretamente no ambiente R. O tutorial aborda conexões com DuckDB (para análises rápidas de arquivos grandes) e bancos corporativos como MySQL, permitindo processar datasets que não cabem na memória e integrar dados de múltiplas fontes.

8 - Tutorial 14: Relatórios Reproduzíveis com RMarkdown. Aprenda a automatizar relatórios combinando texto, código e dados atualizados em um único documento. O tutorial mostra como gerar análises dinâmicas, criar seções por grupo, agendar execuções automáticas e enviar relatórios por e-mail sem intervenção manual.

9 - Tutorial 15: Análise de Dados do Início ao Fim. Neste tutorial de encerramento, o objetivo é reunir e articular várias técnicas aprendidas ao longo do curso, mostrando o fluxo completo de análise: limpeza, organização, tratamento de valores ausentes, identificação de problemas de estrutura nos dados e primeiros passos em análise exploratória e modelagem. O foco está em como pensar o processo e combinar diferentes etapas para extrair informações relevantes de conjuntos de dados complexos.

Dicas de Leitura

O livro 'R for Data Science' tem excelente capítulo dados relacionais (Capítulo 13).

Para a integração entre R e Power BI, convém ler a documentação da Microsoft: (1) Executar scripts do R no Power BI Desktop; (2) Uso do R no Editor do Power Query; (3) Criar visuais do Power BI usando o R.

Para integração entre R e SQL, vale consultar: (1) o guia oficial do pacote DBI: R Interface to Databases; (2) a comparação de dialetos do DuckDB: DuckDB's SQL Dialect, que destaca diferenças importantes em relação ao padrão SQL, como suporte a STRUCT, MAP, UNNEST e uso avançado de funções escalares.

Para aprofundar o uso do R Markdown, vale consultar: (1) o R Markdown: The Definitive Guide e o R Markdown Cookbook para exemplos práticos e boas práticas; (2) o bookdown para produção de documentos extensos, como livros e relatórios técnicos; (3) o TinyTeX como opção leve de LaTeX para gerar PDFs diretamente do R; (4) o guia Learn LaTeX in 30 minutes para aprender o básico sobre formatação com LaTeX.

Desafio: Integração e análise de bases relacionais

Atividade Principal

  • Escolha ao menos duas bases que possam ser conectadas através de variáveis-chave.
  • Realize diferentes tipos de junções (inner_join, left_join, right_join), indicando qual das opções foi a mais adequada e justifique claramente sua escolha.
  • Visualize as diferenças entre as junções utilizando tabelas ou gráficos simples (com funções dos pacotes janitor ou ggplot2).

Atividade Opcional

  • Realize uma junção utilizando múltiplas variáveis-chave simultaneamente. No script, explique por que essa abordagem foi necessária e quais foram os desafios técnicos.
  • Exporte e visualize os resultados obtidos no Power BI usando scripts do R.
  • Escolha um trecho da análise e converta em um relatório automatizado com RMarkdown, incluindo código e texto explicativo.
  • Reescreva parte do seu código usando apenas funções do base R para treinar a compreensão da linguagem em baixo nível.

Documentação

Apresente claramente cada etapa da análise em um arquivo .R (ou opcionalmente .Rmd), detalhando todas as decisões tomadas e os resultados obtidos.