Skip to content

Fagner608/SQL_EDA_pre_processing

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

10 Commits
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

SQL_EDA_pre_processing

Pré-processamento em python, e análise exploratória de dados em SQL, de influências sobre notas de estudantes kaggle

Projeto autônomo, visando demonstrar conhecimento teórico e prático nos tópicos descritos abaixo.

  • Pré-processamento, análise, visualização, geração de insights em SQL usando AWS Athena e S3. O projeto visa demonstrar como tratar e realizar o split de uma base de dados, após, realizando o carregamento no AWS S3. A análise exploratória é direcionada para, para responder às questões de negócio levantadas.

Objetivo: em um primeiro momento, aplicar o pré-processamento aos dados, para que possam ser objeto de querys em linguagem SQL. Em um segundo momento, será realizada análise para validar as hipóteses levantadas no início da pesquisa.

Fonte dos dados:

1 - Dados foram obtidos no kaggle.

Tecnologias Utilizadas

  • Python para:

    • Pré-processamento.
  • AWS S3 para:

    • Armazenar os dados.
  • AWS Athena para:

    • Criar as tabelas e executar os comandos SQL.
  • SQL:

    • Realizar a análise exploratória.
  • Conceitos aplicados:

    • Programação orientada à objetos

    • Pré-processamento de dados

    • Data-wrangling com SQL

    • Visualização de dados com python

    • Engenharia de atributos com SQL

Funcionalidades

  • A analise foi conduzida para, ao final, compreender a influência dos antecedentes dos pais, preparação para testes, etc., no desempenho dos alunos.

Visualizar

1 - Acesse clicando no arquivo acima com extensão '.ipynb', neste repositório, ou

2 - Faça o clone do repositório para participar deste projeto.

Resultados

Como resultado da análise, ficou caracterizada a influência de dois fatores nas notas dos alunos:

I - a formação acadêmica dos pais.

image

Visualizando:

image

II - a conclusão dos cursos preparatórios.:

image

# Visualizando:

image

Conclusão

Ficou caracterizada a influência de dois fatores nas notas dos alunos:

I - a formação acadêmica dos pais,
II - a conclusão dos cursos preparatórios.

Explicando:

Em relação à formação acadêmica dos pais, ficou bastante caracterizado, no primeiro gráfico que há influência na nota obtida pelo aluno, sendo que, a maior média obtida é, justamente, do grupo de alunos cujos pais possuem educação acadêmica, e, a menor média é a dos alunos cujos pais frequentaram apenas o ensino médio.

Em relação ao segundo fator, já no segundo gráfico, percebe-se que, realizando novo split no grupo_e, a média das notas sobe ainda mais. Os alunos do group_e, cujos pais tem formação universitária, e, os alunos finalizaram os cursos preparatórios, a média foi superior a 80.

Portanto, validada a hipótese de que, a formação acadêmica dos pais, e a realização de cursos preparatórios ajudam no desempenho dos alunos.

Referências

Fonte dos dados:

1 - kaggle

About

No description, website, or topics provided.

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published