Skip to content

davpinto/mmlbh-eda

Repository files navigation

Análise Exploratória de Dados usando R

Tutorial desenvolvido para o IV Meetup de Machine Learning de Belo Horizonte.

Preparação do Ambiente de Desenvolvimento

Para instalar o R e as dependendências necessárias, execute os seguintes passos:

  1. Instale o Anaconda ou o Miniconda (versão reduzida) de acordo com a versão do Python de sua preferência, python2 ou python3. Reinicie o sistema operacional após a instalação.

  2. Instale o R Essentials:

    conda install -c r r-essentials
    
  3. Instale a IDE RStudio:

    conda install -c r rstudio
    

Primeiros Passos no R

Para começar no R, recomendamos o curso Introduction to R do Datacamp. Nesse curso você vai aprender a sintaxe básica do R, asssim como as principais estruturas de dados da linguagem. É um curso gratuito, extremamente prático e leva apenas 4 horas para concluir. Depois disso você ganha um certificado online!

Em seguida, recomendamos o primeiro capítulo do curso Working with the RStudio IDE Parte 1. Nele você irá se familiarizar com a IDE RStudio, que recomendamos fortemente para trabalhar com R. Esse capítulo também é gratuito e leva cerca de 1 hora para concluir. A Parte 2 do curso é voltada para desenvolvimento de bibliotecas de funções em R, que não é o foco de nosso tutorial.

Bibliotecas de Data Science

O conjunto de bibliotecas do R voltadas para Data Science foi denominado recentemente de tidyverse. As bibliotecas core do tidyverse são:

  • ggplot2 para visualização de dados.
  • dplyr para manipulação de dados.
  • tidyr para limpeza e formatação de dados (Data Tidying).
  • readr para importação de dados.
  • stringr para manipulação de strings.
  • lubridate para manipulação de datas.
  • purrr para programação funcional.
  • forcats para manipulação de dados categóricos.
  • rvest para web scraping.

Clicando no link de cada uma dessas bibliotecas você irá notar que todas elas foram criadas por Hadley Wickham, um estatístico, hoje Chief Scientist na RStudio, que revolucionou a linguagem R nos últimos anos. As ferramentas que ele vem criando, juntamente com todas as bibliotecas desenvolvidas e mantidas pela da equipe da RStudio, ao contrário do que muitos desenvolvedores acreditam, têm permitido usar o R para Data Science e Machine Learning em produção.

Se você deseja aprender a utilizar tais bibliotecas efetivamente, recomendamos o livro R for Data Science, que tem Hadley Wickham como co-autor. Esse é o guia definitivo para quem quer aprender Data Science usando R.

EDA Usando R

Neste tutorial vamos aprender a usar as ferramentas anteriormente citadas para fazer Análise Exploratória de Dados (EDA - Exploratory Data Analysis), uma parte essencial do trabalho de um cientista de dados, cujo principal objetivo é conhecer melhor os dados antes da aplicação das técnicas de Machine Learning.

Vamos ao trabalho? Acesse o material: Análise de Dados na Prática usando R.

About

Exploratory Data Analysis with R - ML Meetup BH

Topics

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages