Lab 05 - Religion Income

Le but de ce laboratoire est de pratiquer l’importation, le nettoyage et la préparation des données pour l’analyse.

Pour commencer

Nous allons utiliser GitHub Classroom pour que vous puissiez rendre vos réponses. Sur le portail de cours, vous trouverez un lien vers un assignment.

  • Cliquez sur le lien
  • Connectez vous avec votre compte Github si ce n’est pas fait
  • Acceptez l’assignment
  • Liez votre compte avec votre nom d’étudiant

Vous devriez maintenant voir un repository appelé Lab05-[votre-username] où devrait être votre nom d’utilisateur GitHub.

Sur la page du repository:

  • Cliquez sur le bouton vert:
  • Copiez le lien terminant en .git
    • Quelque chose ressemblant à https://github.com/PRO1036/lab05-[votre-username].git

Dans RStudio:

  • Fichier > Nouveau Projet
  • Version Control > Git
  • Dans Repository URL : indiquez l’adresse copiée à l’étape précédente
  • Choisissez un nom pour le dossier qui sera créé, par exemple “Lab02”
  • Choisissez où vous voulez créer le projet dans votre ordinateur.

Cela va copier les fichiers présents sur GitHub, et les copier dans le dossier spécifié. Dans le YAML, le output est réglé sur "github_document". Cela permet d’obtenir un format adapté à GitHub. Notamment, votre fichier final sera un fichier Markdown (.md).

Packages

Nous utiliserons le package tidyverse pour une grande partie de la manipulation des données. Pour l’importation, nous aurons besoin de readxl et pour certaines fonctions utilitaires, nous utiliserons janitor. Vous pouvez le charger en exécutant ce qui suit dans votre Console :

library(tidyverse)
library(readxl)      # lecture de fichiers Excel
library(janitor)     # utilitaire (facultatif), p. ex. clean_names()

Données

Les données utilisées dans ce laboratoire proviennent de l’étude Religious Landscape Study

Les données sont disponibles dans le dossier data/

Exercices

Exercice 1 - Importation des données

Quel est le type de fichier des données ? (CSV, Excel, autre ?)

Importez les données dans R en utilisant la fonction appropriée.

Exercice 2 - Qualité de l’importation

Observez les données importées. Combien y a-t-il de lignes et de colonnes ? Quels sont les types des différentes colonnes ? Si vous pensez q’une colonne n’a pas le bon type, modifiez-le.

Observez le nom des colonnes importées. Renommez Religion tradition en religion et Sample Size en n.

Vous devriez avoir un tableau 12x6 à cette étape.

🧶 ✅ ⬆️ Knit, commit, and push ! N’oubliez pas le message de commit.

Exercice 3 - Forme Tidy

Les données importées sont-elles Tidy ?

Sont-elles en format cours ou en format long ?

Pivotez les données de telle sorte à avoir un colonne income, indiquant la tranche de revenue, et une colonne proportion, indiquant la proportion de personne dans cette tranche de revenue. Les autres colonnes (religion et n) ne doivent pas être pivotées.

🧶 ✅ ⬆️ Knit, commit, and push ! N’oubliez pas le message de commit.

Exercice 4 - Calcul des fréquences

En combinant les colonnes proportion et n, créez une nouvelle colonne frequency indiquant le nombre de personnes dans chaque tranche de revenu pour chaque religion.

Asssurez-vous “d’engristrer” votre nouveau tableau dans une variable.

🧶 ✅ ⬆️ Knit, commit, and push ! N’oubliez pas le message de commit.

Exercice 5 - Visualisation - 1ère étape

Faite un diagrame en barres horizotales (geom_col), représentant pour chaque religion la fréquence de personnes.

Modifiez votre graphe de telle sorte à nettoyer les titres des différentes religion, et à les trier par ordre alphabétique.

Vous devriez obtenir cela :

🧶 ✅ ⬆️ Knit, commit, and push ! N’oubliez pas le message de commit.

Exercice 6 - Visualisation - 2ème étape

Nous allons maintenant vouloir colorer les barres en fonction des tranches de revenu. Pour cela vous pouvez utiliser l’argument position = "fill" de geom_col() pour avoir que les barres représentent la proportion.

Vous devriez obtenir quelque chose de similaire (les couleurs et la disposition peuvent différer) :

🧶 ✅ ⬆️ Knit, commit, and push ! N’oubliez pas le message de commit.

Exercice 7 - Visualisation finale

Il reste un dernier problème à notre figure !! Vous le voyez ?

Corrigez-le de telle sorte à obtenir une figure propre et lisible.

Figure 1

🧶 ✅ ⬆️ Knit, commit, and push ! N’oubliez pas le message de commit.

Conclusion

Vérifiez que tout est correcte !

🧶 ✅ ⬆️ Knit, commit, and push ! N’oubliez pas le message de commit.