Projet

Introduction

Le projet pour ce cours consistera en une analyse d’un ensemble de données de votre choix. De nombreux jeux de données en accès libre sont à disposition sur Internet. La section Données contient des liens vers des sites qui proposent des jeux de données. Vous pouvez choisir des données en fonction de vos intérêts. Le but de ce projet est de démontrer votre maîtrise des techniques que nous avons abordées dans ce cours (et au-delà, si vous le souhaitez) et de les appliquer de manière significative à un ensemble de données original.

Le but n’est pas de faire une analyse exhaustive des données, c’est-à-dire de ne pas calculer chaque statistique et procédure que vous avez apprise pour chaque variable, mais plutôt de me montrer que vous êtes compétent pour poser des questions significatives et y répondre avec les résultats de l’analyse des données, que vous êtes compétent pour utiliser R, et que vous êtes compétent pour interpréter et présenter les résultats. Concentrez-vous sur les méthodes qui vous aident à commencer à répondre à vos questions de recherche. Vous n’êtes pas obligé d’appliquer toutes les procédures statistiques que nous avons apprises (et vous pouvez utiliser des techniques que nous n’avons pas officiellement abordées en classe, si vous êtes aventureux). Critiquez également vos propres méthodes et fournissez des suggestions pour améliorer votre analyse.

Le projet est très ouvert. Vous devriez créer une sorte de visualisation(s) convaincante(s) de ces données en R. Il n’y a pas de limite sur les outils ou les packages que vous pouvez utiliser, mais il est nécessaire d’utiliser les packages que nous avons appris en classe (tidyverse). Vous n’avez pas besoin de visualiser toutes les données en une seule fois. Une seule visualisation de haute qualité recevra une meilleure note qu’un grand nombre de visualisations de mauvaise qualité. Faites également attention à votre présentation. La netteté, la cohérence et la clarté compteront. Toutes les analyses doivent être effectuées dans RStudio, en utilisant R.

Données

Pour que vous ayez la meilleure chance de réussir ce projet, il est important que vous choisissiez un ensemble de données adapté. Cela signifie que les données doivent être facilement accessibles et suffisamment grandes pour que plusieurs relations puissent être explorées. Ainsi, votre ensemble de données doit comporter au moins 50 observations et entre 10 et 20 variables (des exceptions peuvent être faites, mais vous devez d’abord le valider avec nous). Les variables de l’ensemble de données doivent inclure des variables catégorielles, des variables numériques discrètes et des variables numériques continues.

Si le format des données n’a pas été vu en classe, c’est ok mais attendez-vous à devoir fournir un léger effort pour les charger dans R. Si vous avez des difficultés, demandez de l’aide avant qu’il ne soit trop tard.

Il est interdit d’utiliser des données utilisées pendant le cours, dans des exemples, des examens ou des laboratoires.

Ci-dessous, vous trouverez une liste de références de jeux de données qui pourraient vous intéresser. Vous n’êtes pas limité à ces ressources, et en fait, vous êtes encouragé à aller au-delà. Mais vous pourriez y trouver quelque chose d’intéressant :

Plusieurs villes, pays et institutions ont également des portails de données ouvertes. Voici quelques exemples :

N’oubliez pas que vous pouvez combiner plusieurs sources de données également.

Consignes

Proposal (10 pts)

Pour commencez, vous devez soumettre un proposal de projet. Il s’agit d’un court document de maximum 1 page indiquant :

  • Introduction et contexte: Dans cette partie, vous présenterez brièvement le contexte dans lequel s’inscrit votre mini-article. Quelle est la question principale ? Pourquoi est-ce intéressant de se la poser.
  • Présentation des Données: Une présentation plus détaillée des données choisies. D’où viennent les données ? Quand les données ont-elles été collectées ? Combien y a-t-il d’observations ? De variable ? Quel est le format des données? Quelles sont les variables que vous allez utiliser ? En quoi sont-elles utiles ? etc.

Une copie des données doit être transmise dans le dossier data.

  • Analyse exploratoire: Quelles sont les questions que vous souhaitez explorer? Quelles sont les hypothèses que vous souhaitez tester? Quelles sont les méthodes que vous envisagez d’utiliser pour répondre à ces questions?

Vous pouvez également produire des premières analyses exploratoires de vos données.

Critères d’évaluation

Critère Points
Questions de recherche 4
Choix des données et exploration 4
Présentation, Qualité 2

Rapport final (50 pts)

Votre rapport sera à rendre sous forme d’un petit article en format HTML (.html). Votre article doit répondre à l’intérrogation que vous avez exprimée dans le proposal. Votre article doit plus ressembler à un post de blog : Essayez d’intéresser votre lecteur !

L’ensemble des fichiers que vous avez utilisé pour générer votre rapport (fichier .Rmd, .md, données, images, …) devra être inclus dans votre soumission. Le tout sera rendu sur Github au plus tard le 12 décembre 2025 à 23h00.

Votre rapport devra présenter les résultats de votre analyse. Il devra contenir les éléments suivants :

  • Introduction: Présentez brièvement le contexte de votre analyse et les questions de recherche que vous souhaitez explorer.
  • Données: Présentez les données qui vont être utilisez et notamment d’où elles proviennent, combien d’observations et de variables elles contiennent, etc.
  • Analyse des données: Présentez les résultats de votre analyse. Vous devez inclure des visualisations et des statistiques descriptives pour les variables que vous avez choisies, ainsi que toutes les autres analyses que vous avez effectuées (selon ce qui y applicable: test d’hypothèse, regression, classification, ….)
  • Discussion: Discutez des résultats de votre analyse. Quelles sont les conclusions que vous pouvez tirer de vos résultats? Quelles sont les limites de votre analyse? Quelles sont les implications de vos résultats?

Notez que l’analyse et la discussion peuvent être faites de manière alternées, par question par exemple. Les questions de recherche doivent être clairement identifiées et les réponses doivent être clairement présentées. Pour résumer: assurez vous que votre rapport est clair et bien structuré. S’y retrouver devrait être facile et la lecture devrait être fluide.

Il n’a y pas de longueur minimum ou maximum pour le rapport, mais il doit être suffisamment détaillé pour que nous puissions comprendre votre analyse et vos résultats. Votre rendu devrai comprendre au moins:

  • Deux visualisations différentes, dont une impliquant au moins trois variables
  • Une statistique prédictive (régression, classification, …) ou un test d’hypothèse
  • Des analyses descriptives

L’objectif est de montrer que vous êtes capable de manipuler des données, de les analyser et de les interpréter. Vous devez également montrer que vous êtes capable de communiquer vos résultats de manière claire et concise.

Votre rapport doit le plus proposer une histoire à partir des données. Votre rapport doit attiser la curiosité du lecteur et le guider à travers les résultats de votre analyse.

Le resultat final doit ressembler à un article donc les blocs de code ne devraient pas apparaitre et les résultats des blocs devraient être propres et facile à lire. Jouez avec les options de bloc pour régler l’affichage et utilisez des visualisations !

Quelques points à bien garder en tête:

  • Soignez la présentation de votre rapport : Utilisez des titres, des sous-titres, des mises en forme, etc. pour structurer votre rapport et le rendre plus lisible.
  • Pensez à la reproductibilité : Assurez-vous que votre code est bien organisé et commenté, de sorte que quelqu’un d’autre puisse reproduire votre analyse à partir de vos données. Pensez notamment à bien citer la source de vos données même si cela avait été fait dans le proposal.
  • Pour le rendu final, vous pouvez jouer sur les paramètres des blocs de code pour régler l’affichage final. Une cheatsheet sur l’utilisation de RMarkdown est disponible sur la page Ressource
  • Le rendu final est une page HTML. N’oubliez pas d’inclure toutes les images et données nécessaires pour que le rapport puisse être visualisé correctement.

Critères d’évaluation

Critères Points
Structure claire 5
Qualité des analyses 20
Présentation (format article) 20
Reproductibilité et organisation 5
Total 50