0% ont trouvé ce document utile (0 vote)

248 vues14 pages

Mini-Projet en R: Master en Finance, Actuariat & Data Science

Ce mini-projet en R analyse les résultats académiques de 400 étudiants, chacun ayant 11 notes par matière, afin d'évaluer leur performance et d'identifier des axes d'amélioration. Le projet inclut des étapes de chargement, nettoyage et exploration des données, ainsi que des statistiques descriptives et des visualisations pour représenter les résultats. Les conclusions mettent en lumière les tendances académiques et suggèrent des pistes pour des analyses futures.

Transféré par

Nesrine ZARROUK

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

0% ont trouvé ce document utile (0 vote)

248 vues14 pages

Mini-Projet en R: Master en Finance, Actuariat & Data Science

Transféré par

Nesrine ZARROUK

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Mini-projet en R

Master en Finance, Actuariat & Data Science

encadré par: Pr. Smail Ait El Asri

Préparé par : ZARROUK NESRINE

Table des matières

I. INTRODUCTION 3

II. CHARGEMENT ET EXPLORATION DES DONNEES 4

Etape 1 : créer un projet R 4

Etape 2 : ajouter la base de donnees etudiants , et etre de l’extenction de Fichier CSV Microsoft Excel (.csv) 4

Etape 3 : 4

Etape 4 : Afficher les 10 premières lignes du dataframe avec head(etudiants, 10). 4

Etape 5 : Utiliser la fonction str(etudiants) pour examiner la structure des données. 5

Etape 6 : Utiliser la fonction summary(etudiants) pour obtenir un résumé statistique (min, max, médiane, moyenne,
etc.) de chaque variable. 5

Conclusion : 6

III. NETTOYAGE EVENTUEL 7

IV. STATISTIQUES DESCRIPTIVES PAR ETUDIANT 8

V. STATISTIQUES DESCRIPTIVES PAR MATIERE 10

V. CALCUL DES STATISTIQUES PAR MATIERE 11

a. Calcul des statistiques pour chaque matière 11

b. Quelle matière a la moyenne la plus élevée et la plus faible ? 12

c. Quelle matière présente la plus grande dispersion ? 12

d. Analyse des distributions de notes 12

Interprétation possible : 13

VI. VISUALISATION DES DONNEES 13

1. Médiane des matières : 13

2. Dispersion des notes : 13

3. Présence de valeurs aberrantes : 13

Ajout des couleurs adaptées à ggplot2 : 13

Ajout d’informations supplémentaires : 14

CONCLUSION 14
I. Introduction

Dans ce mini-projet, nous nous intéressons à l'analyse des résultats académiques de 400

étudiants, chacun ayant obtenu 11 notes par matière, afin d'obtenir une vue d'ensemble de leur

performance académique. L'objectif principal de ce projet est d'examiner non seulement la

performance moyenne des étudiants, mais aussi la variabilité de leurs résultats au sein de

chaque matière. Cela nous permettra d'identifier des points forts ainsi que des axes

d'amélioration, en analysant des tendances potentielles ou des disparités dans la réussite des

étudiants.

En plus de cette analyse des résultats académiques, ce projet constitue également une

occasion d'approfondir nos compétences dans l'utilisation de R. Nous mettrons en œuvre

différentes techniques de manipulation de données, telles que le nettoyage et la préparation

des données, ainsi que des analyses statistiques avancées pour interpréter les résultats de

manière rigoureuse. La visualisation graphique, à travers des graphiques nous permettra de

représenter de manière claire et concise les insights obtenus et de mieux comprendre les

relations entre les différentes variables.

Ce projet servira donc à la fois de base pour une analyse académique détaillée et de terrain

d'apprentissage pour maîtriser les outils statistiques et graphiques de R

II. Chargement et exploration des donnees
Etape 1 : créer un projet R

Etape 2 : ajouter la base de donnees etudiants , et etre sur de l’extenction de Fichier

CSV Microsoft Excel (.csv)
Etape 3 :
Activer la page dans l’application R et Charger le fichier CSV etudiants.csv dans un dataframe
nommé etudiants en utilisant la fonction read.csv() .
Avec le code
df_etudiants <- read.csv("etudiants.csv", sep = ";")

Etape 4 : Afficher les 10 premières lignes du dataframe avec head(etudiants, 10).

Avec le code :: head(df_etudiants, 10)

Etape 5 : Utiliser la fonction str(etudiants) pour examiner la structure des données.

Avec le code :: str(df_etudiants)

Etape 6 : Utiliser la fonction summary(etudiants) pour obtenir un résumé statistique

(min, max, médiane, moyenne, etc.) de chaque variable.

Avec le code :: summary(df_etudiants)

conclusion :
observations faites sur les résultats des fonctions str() et summary()
Résultats de str(df_etudiants) :

Le dataframe contient 400 observations et 11 variables.

Les variables "Nom" et "Prenom" sont de type character, ce qui est logique car elles
contiennent du texte.

Les autres variables (Math, Physique, Anglais, Chimie, Biologie, Histoire, Géographie,
Français, Sport) sont de type numérique (num), ce qui est cohérent car elles représentent des
notes.

Résultats de summary(df_etudiants) :

Les variables Nom et Prenom ne sont pas résumées numériquement car elles sont de type
character.

Pour les matières, on observe plusieurs statistiques utiles :

Min et Max : Les notes varient entre 5.0 et 20.0 pour toutes les matières.

Médiane et Moyenne :

 La médiane des matières tourne autour de 12, ce qui suggère une

distribution relativement équilibrée.
 Les moyennes sont également proches de 12, confirmant une
distribution assez normale des notes.

Premier et troisième quartile :

 Le premier quartile (Q1) est autour de 8.5 (25% des étudiants ont une
note ≤ 8.5).
 Le troisième quartile (Q3) est autour de 16 (75% des étudiants ont une
note ≤ 16).
o Aucune valeur aberrante apparente (toutes les notes sont entre 5 et 20, donc
pas d’anomalie).

Conclusion :

 Les notes semblent suivre une distribution attendue, avec une moyenne autour de 12.
 La répartition est plutôt équilibrée, sans valeurs extrêmes ou incohérentes.
 On pourrait aller plus loin avec des visualisations (histogrammes, boxplots) pour
mieux comprendre la répartition des notes.
III. Nettoyage éventuel

Vérifier s'il existe des valeurs manquantes ou aberrantes.

Avec le code : anyNA(df_etudiants)

Vérifier si des notes sont en dehors de l'intervalle attendu [5, 20 ]

Avec le code :: sapply(df_etudiants[, 3:11], function(x) any(x < 5 | x > 20))

Vérifier s'il des données manquantes ou des incohérences dans les notes ?
Avec le code : colSums(is.na(df_etudiants))
IV. Statistiques descriptives par etudiant
Calculer la moyenne des notes de chaque étudiant sur l’ensemble des
matières.
Les notes des étudiants sont stockées dans les colonnes 3 à 11 (Math à
Sport)
Donc On ajoute la colonne Moyenne au dataframe :

Avec le code ::

moyenne_etudiants <- rowMeans(df_etudiants[, 3:11], na.rm = TRUE)

df_etudiants$Moyenne <- moyenne_etudiants

Calculer l’écart-type des notes pour chaque étudiant et ajouter

ce résultat dans une nouvelle colonne, par exemple Std.
Avec le code
# Ajouter la colonne Moyenne au dataframe

df_etudiants$Moyenne <- moyenne_etudiants

# Calculer l'écart-type des notes de chaque étudiant

df_etudiants$Std <- apply(df_etudiants[, 3:11], 1, sd, na.rm = TRUE)

Quels étudiants présentent la plus grande variabilité dans leurs notes ?

justifier
On cherche les étudiants avec les écarts-types les plus élevés, car cela signifie que leurs notes
varient beaucoup d'une matière à l'autre.

Trouver les étudiants avec la plus grande variabilité

Avec le code ::

etudiants_max_variabilite <- df_etudiants[order(df_etudiants$Std, decreasing = TRUE), ][1:5, ]

V. Statistiques descriptives par matiere
I.
II. Créer un nouveau DataFrame nommé stats_par_matiere dont les lignes
correspondent aux matières (Math, Physique, etc.) et les colonnes aux statistiques:
III. Calculer les statistiques descriptives pour chaque matière
IV. Avec le code ::
V. stats_par_matiere <- data.frame(
VI. Moyenne = sapply(notes_matiere, mean, na.rm = TRUE),
VII. Std = sapply(notes_matiere, sd, na.rm = TRUE),
VIII. Variance = sapply(notes_matiere, var, na.rm = TRUE),
IX. Médiane = sapply(notes_matiere, median, na.rm = TRUE),
X. Min = sapply(notes_matiere, min, na.rm = TRUE),
XI. Max = sapply(notes_matiere, max, na.rm = TRUE)
XII. )
XIII. print(stats_par_matiere)

On peut aussi afficher ces statistiques sous forme de barplot pour comparer les matières.

Avec le code ::barplot(stats_par_matiere$Moyenne, names.arg = colnames(notes_matiere),

col = "lightblue"main = "Moyenne des notes par matière", las = 2)
V. Calcul des statistiques par matiere
a. Calcul des statistiques pour chaque matière

On utilise sapply() pour calculer différentes statistiques sur les matières (Math à Sport).

Avec le code :: notes_matiere <- df_etudiants[, 3:11]

stats_par_matiere <- data.frame(
Moyenne = sapply(notes_matiere, mean, na.rm = TRUE),
Std = sapply(notes_matiere, sd, na.rm = TRUE),
Variance = sapply(notes_matiere, var, na.rm = TRUE),
Médiane = sapply(notes_matiere, median, na.rm = TRUE),
Min = sapply(notes_matiere, min, na.rm = TRUE),
Max = sapply(notes_matiere, max, na.rm = TRUE))
print(stats_par_matiere)
b. Quelle matière a la moyenne la plus élevée et la plus faible ?

On identifie les matières avec les moyennes maximale et minimale.

Avec le code :: matiere_max_moyenne <- names(which.max(stats_par_matiere$Moyenne))

matiere_min_moyenne <- names(which.min(stats_par_matiere$Moyenne))
cat(" La matière avec la moyenne la plus élevée est :", matiere_max_moyenne, "\n")
cat(" La matière avec la moyenne la plus faible est :", matiere_min_moyenne, "\n")

c. Quelle matière présente la plus grande dispersion ?

Avec le code ::

matiere_plus_variable <- rownames(stats_par_matiere)[which.max(stats_par_matiere$Std)

cat(" La matière avec la plus grande dispersion des notes est :", matiere_plus_variable, "\n")

d. Analyse des distributions de notes

On peut visualiser la dispersion des notes avec un boxplot.

Avec le code ::

boxplot(notes_matiere, main = "Distribution des notes par matière",

col = rainbow(ncol(notes_matiere)), las = 2, ylab = "Notes")

Interprétation possible :

Si une matière a une petite boîte, cela signifie que les notes sont concentrées autour de la
médiane (distributions resserrées).

Si une matière a une grande boîte ou de longs moustaches, cela signifie qu’il y a beaucoup
de variabilité dans les notes (distributions dispersées).

Les points au-dessus ou en dessous des moustaches sont des valeurs aberrantes.

VI. Visualisation des Données

1. Médiane des matières :

Les médianes des différentes matières semblent relativement proches (autour de 12-
13).

Certaines matières ont une médiane légèrement plus élevée ou plus basse, ce qui peut
indiquer des matières plus difficiles ou plus accessibles.

2. Dispersion des notes :

La largeur des boxplots montre la variabilité des notes pour chaque matière.

Certaines matières ont une plage plus large, indiquant une forte hétérogénéité des
performances des étudiants.

D’autres matières sont plus resserrées, suggérant que les étudiants ont des résultats plus
homogènes.

3. Présence de valeurs aberrantes :

On peut voir quelques points en dehors des moustaches, ce qui pourrait indiquer des
valeurs aberrantes (étudiants avec des notes extrêmement hautes ou basses).

Ajout des couleurs adaptées à ggplot2 :

 Le code actuel semble utiliser boxplot() en R de base, mais ggplot2 permet un meilleur
contrôle graphique.
 On pourrait utiliser un dégradé de couleurs plus lisible.

Ajout d’informations supplémentaires :

 Ajouter des moyennes en plus des médianes.

 Afficher les valeurs aberrantes avec des annotations

*Choix des visualisations

1. Histogrammes des notes pour voir la distribution par matière.

2. Boxplots pour comparer les dispersions entre matières.

3. Diagrammes de dispersion pour détecter les corrélations entre les matières.

** Réalisation avec ggplot2

library(ggplot2)

# Histogramme des notes par matière

ggplot(df_etudiants, aes(x=Maths)) + geom_histogram(binwidth=2, fill="blue", alpha=0.5) +

theme_minimal()

# Boxplot des notes par matière

ggplot(melt(df_etudiants[, -1]), aes(x=variable, y=value)) +

geom_boxplot(fill="lightblue") + theme_minimal() + labs(x="Matière", y="Note")

Conclusion
Ce projet a permis de mettre en évidence les tendances académiques des étudiants et de repérer les
matières ayant les notes les plus dispersées. L'utilisation de R a été essentielle pour la manipulation
des données et la visualisation des résultats. De futures analyses pourraient inclure l'étude des
corrélations entre matières ou l'impact d'autres variables sur les performances académiques.

Vous aimerez peut-être aussi

Statistiques descriptives avec R
Pas encore d'évaluation
Statistiques descriptives avec R
4 pages
Labo SPSS#1 Stats Descriptives Et Inférentielles
Pas encore d'évaluation
Labo SPSS#1 Stats Descriptives Et Inférentielles
24 pages
Opérations Fondamentales sur les Matrices
Pas encore d'évaluation
Opérations Fondamentales sur les Matrices
45 pages
La Regression Lineaire
100% (1)
La Regression Lineaire
31 pages
Introduction à R pour débutants
Pas encore d'évaluation
Introduction à R pour débutants
16 pages
Cours et TP sur R pour Analyse Statistique
100% (1)
Cours et TP sur R pour Analyse Statistique
38 pages
WWW - Cours Gratuit - Com CoursAir Id5364
Pas encore d'évaluation
WWW - Cours Gratuit - Com CoursAir Id5364
124 pages
Interprétation D'une ACP - Harti
Pas encore d'évaluation
Interprétation D'une ACP - Harti
25 pages
TP Analyse de Données Avec R
Pas encore d'évaluation
TP Analyse de Données Avec R
2 pages
Regression Non Lineaire Et Applications - Antoniadis PDF
Pas encore d'évaluation
Regression Non Lineaire Et Applications - Antoniadis PDF
135 pages
Mise en œuvre d'une enquête quantitative
Pas encore d'évaluation
Mise en œuvre d'une enquête quantitative
2 pages
Économétrie des séries temporelles R
Pas encore d'évaluation
Économétrie des séries temporelles R
22 pages
ACP Sous Python Avec Scientisttools
Pas encore d'évaluation
ACP Sous Python Avec Scientisttools
22 pages
Introduction aux Techniques d'Enquête
Pas encore d'évaluation
Introduction aux Techniques d'Enquête
80 pages
Statistique 1 : Concepts et Outils
Pas encore d'évaluation
Statistique 1 : Concepts et Outils
135 pages
Mémoire - Introduction À L'intégrale Stochastique - Intégrale D'ito
Pas encore d'évaluation
Mémoire - Introduction À L'intégrale Stochastique - Intégrale D'ito
43 pages
Introduction au logiciel Stata
Pas encore d'évaluation
Introduction au logiciel Stata
40 pages
Estimation des fermes aux États-Unis
Pas encore d'évaluation
Estimation des fermes aux États-Unis
31 pages
Moyenne Statistiques Et Probalites
Pas encore d'évaluation
Moyenne Statistiques Et Probalites
14 pages
Introduction à la régression linéaire
100% (1)
Introduction à la régression linéaire
11 pages
Modules Statistiques pour Data Science
Pas encore d'évaluation
Modules Statistiques pour Data Science
20 pages
Mini Projet ADD R
Pas encore d'évaluation
Mini Projet ADD R
3 pages
Statistiques et Graphiques avec R
Pas encore d'évaluation
Statistiques et Graphiques avec R
19 pages
Cours de Probabilités et Statistiques
0% (1)
Cours de Probabilités et Statistiques
128 pages
Statistiques et Analyse des Données
Pas encore d'évaluation
Statistiques et Analyse des Données
186 pages
CalculStochastiqueExtrait PDF
Pas encore d'évaluation
CalculStochastiqueExtrait PDF
230 pages
Estimation Statistique et Lois de Probabilité
Pas encore d'évaluation
Estimation Statistique et Lois de Probabilité
51 pages
Introduction à MATLAB et SIMULINK
Pas encore d'évaluation
Introduction à MATLAB et SIMULINK
26 pages
TP Série Temporelle
100% (1)
TP Série Temporelle
7 pages
Cours Analyse de Données ISITT
Pas encore d'évaluation
Cours Analyse de Données ISITT
10 pages
Introduction à la Statistique Descriptive
Pas encore d'évaluation
Introduction à la Statistique Descriptive
61 pages
Analyse ACP des données automobiles
Pas encore d'évaluation
Analyse ACP des données automobiles
14 pages
Walter - Tinsson - Plans - D - Experience - Construction - BookFi - .PDF Filename UTF-8'' (Walter - Tinsson) - Plans - D - Experience - Construction (BookFi)
Pas encore d'évaluation
Walter - Tinsson - Plans - D - Experience - Construction - BookFi - .PDF Filename UTF-8'' (Walter - Tinsson) - Plans - D - Experience - Construction (BookFi)
535 pages
Résumé Algèbre Linéaire
Pas encore d'évaluation
Résumé Algèbre Linéaire
2 pages
CH 2 - Caractéristiques de Tendance Centrale
Pas encore d'évaluation
CH 2 - Caractéristiques de Tendance Centrale
24 pages
Modélisation Statistique et Inférence
Pas encore d'évaluation
Modélisation Statistique et Inférence
162 pages
Numpy - Calculs Et Python
Pas encore d'évaluation
Numpy - Calculs Et Python
1 page
Simulation de la loi normale sur Matlab
Pas encore d'évaluation
Simulation de la loi normale sur Matlab
10 pages
Analyse de Données Avec SPSS 2022
Pas encore d'évaluation
Analyse de Données Avec SPSS 2022
47 pages
Analyse Statistique et Factorielle S6
Pas encore d'évaluation
Analyse Statistique et Factorielle S6
1 page
Densités et Espérances de Variables Aléatoires
Pas encore d'évaluation
Densités et Espérances de Variables Aléatoires
23 pages
Jour 02 - Concepts Statistiques Fondamentaux
Pas encore d'évaluation
Jour 02 - Concepts Statistiques Fondamentaux
23 pages
Rammah2 PDF
Pas encore d'évaluation
Rammah2 PDF
225 pages
Cours de Probabilités et Analyse Combinatoire
100% (1)
Cours de Probabilités et Analyse Combinatoire
29 pages
TD Sur Le Logiciel R
Pas encore d'évaluation
TD Sur Le Logiciel R
9 pages
Initiation au logiciel R en 2 jours
Pas encore d'évaluation
Initiation au logiciel R en 2 jours
82 pages
Cours ACP
Pas encore d'évaluation
Cours ACP
12 pages
Cours de Séries Chronologiques Master
Pas encore d'évaluation
Cours de Séries Chronologiques Master
47 pages
Guide d'analyse de données avec R
Pas encore d'évaluation
Guide d'analyse de données avec R
499 pages
Indices Coût Construction Afrique
Pas encore d'évaluation
Indices Coût Construction Afrique
47 pages
Support Cours Macro 2024
Pas encore d'évaluation
Support Cours Macro 2024
59 pages
Analyse des résultats académiques en R
Pas encore d'évaluation
Analyse des résultats académiques en R
2 pages
Projet R
Pas encore d'évaluation
Projet R
3 pages
Introduction à R : Importation et Analyse
Pas encore d'évaluation
Introduction à R : Importation et Analyse
3 pages
DR - Pierre-Emmanuel Encinar: Encadrent
Pas encore d'évaluation
DR - Pierre-Emmanuel Encinar: Encadrent
33 pages
Rapport sur l'analyse des données R
Pas encore d'évaluation
Rapport sur l'analyse des données R
9 pages
Cours4 RIntro TP
Pas encore d'évaluation
Cours4 RIntro TP
30 pages
TP Statistique Descriptive Univarié
Pas encore d'évaluation
TP Statistique Descriptive Univarié
10 pages
Analyse unidimensionnelle des notes élèves
Pas encore d'évaluation
Analyse unidimensionnelle des notes élèves
6 pages
Introduction aux objets R : vecteurs, matrices, listes
Pas encore d'évaluation
Introduction aux objets R : vecteurs, matrices, listes
33 pages
PRP 4ème Annee Sebu Ehr 2024
Pas encore d'évaluation
PRP 4ème Annee Sebu Ehr 2024
3 pages
Installation Serveur DNS Ubuntu (Bind9)
100% (2)
Installation Serveur DNS Ubuntu (Bind9)
8 pages
Cours Virtualisation Et Clustering
Pas encore d'évaluation
Cours Virtualisation Et Clustering
199 pages
QCM sur les routeurs Cisco et leur fonctionnement
100% (1)
QCM sur les routeurs Cisco et leur fonctionnement
21 pages
Benrejdal Souhila
Pas encore d'évaluation
Benrejdal Souhila
102 pages
TP Microprocesseur L3 Auto
Pas encore d'évaluation
TP Microprocesseur L3 Auto
9 pages
Examen de BTS : Bases de données SQL
Pas encore d'évaluation
Examen de BTS : Bases de données SQL
2 pages
Rôle et missions de l'administrateur systèmes
Pas encore d'évaluation
Rôle et missions de l'administrateur systèmes
5 pages
OpenERP : ERP libre pour PME suisses
Pas encore d'évaluation
OpenERP : ERP libre pour PME suisses
1 page
Listes Projets Reseaux Informatiques L3
Pas encore d'évaluation
Listes Projets Reseaux Informatiques L3
3 pages
Extrait Sur L'internet
Pas encore d'évaluation
Extrait Sur L'internet
2 pages
Configuration DHCP et DNS sous Linux
Pas encore d'évaluation
Configuration DHCP et DNS sous Linux
4 pages
Guide Nmap pour Admin Réseau
Pas encore d'évaluation
Guide Nmap pour Admin Réseau
22 pages
Système d'Analyse et Reporting des Logs
Pas encore d'évaluation
Système d'Analyse et Reporting des Logs
55 pages
Avantages et Inconvénients de la Virtualisation
Pas encore d'évaluation
Avantages et Inconvénients de la Virtualisation
4 pages
Introduction au système UNIX et gestion des processus
Pas encore d'évaluation
Introduction au système UNIX et gestion des processus
95 pages
Brochure Logiciel Lvnet
Pas encore d'évaluation
Brochure Logiciel Lvnet
2 pages
Algorithmique avancée en C : Guide complet
Pas encore d'évaluation
Algorithmique avancée en C : Guide complet
114 pages
Guide complet sur RPM et YUM/DNF
Pas encore d'évaluation
Guide complet sur RPM et YUM/DNF
13 pages
Loi 25 - Satoshi Legal
Pas encore d'évaluation
Loi 25 - Satoshi Legal
86 pages
Atelier Sécurité Des Données Dans Le Nuage
100% (1)
Atelier Sécurité Des Données Dans Le Nuage
97 pages
Architectures Distribuées et Client-Serveur
Pas encore d'évaluation
Architectures Distribuées et Client-Serveur
63 pages
Introduction à la Sécurité CCNP
Pas encore d'évaluation
Introduction à la Sécurité CCNP
56 pages
Gestion Informatique et Développement Web
Pas encore d'évaluation
Gestion Informatique et Développement Web
1 page
MongoDB : Système de gestion NoSQL
Pas encore d'évaluation
MongoDB : Système de gestion NoSQL
15 pages
Conception et Gestion de Base de Données
Pas encore d'évaluation
Conception et Gestion de Base de Données
3 pages
Curriculum Vitae
Pas encore d'évaluation
Curriculum Vitae
3 pages
Programme de Formation AZ 104 Azure Administrator 5
Pas encore d'évaluation
Programme de Formation AZ 104 Azure Administrator 5
8 pages
Cours Complet Sur Oracle DBA Et Linux
Pas encore d'évaluation
Cours Complet Sur Oracle DBA Et Linux
15 pages
Access 2010 Vba Les Fondamentaux Toc
100% (1)
Access 2010 Vba Les Fondamentaux Toc
2 pages

Mini-Projet en R: Master en Finance, Actuariat & Data Science

Transféré par

Mini-Projet en R: Master en Finance, Actuariat & Data Science

Transféré par

Mini-projet en R

Master en Finance, Actuariat & Data Science

encadré par: Pr. Smail Ait El Asri

Préparé par : ZARROUK NESRINE

II. CHARGEMENT ET EXPLORATION DES DONNEES 4

Etape 1 : créer un projet R 4

Etape 4 : Afficher les 10 premières lignes du dataframe avec head(etudiants, 10). 4

Etape 5 : Utiliser la fonction str(etudiants) pour examiner la structure des données. 5

III. NETTOYAGE EVENTUEL 7

IV. STATISTIQUES DESCRIPTIVES PAR ETUDIANT 8

V. STATISTIQUES DESCRIPTIVES PAR MATIERE 10

V. CALCUL DES STATISTIQUES PAR MATIERE 11

a. Calcul des statistiques pour chaque matière 11

b. Quelle matière a la moyenne la plus élevée et la plus faible ? 12

c. Quelle matière présente la plus grande dispersion ? 12

d. Analyse des distributions de notes 12

VI. VISUALISATION DES DONNEES 13

1. Médiane des matières : 13

2. Dispersion des notes : 13

3. Présence de valeurs aberrantes : 13

Ajout des couleurs adaptées à ggplot2 : 13

Ajout d’informations supplémentaires : 14

performance académique. L'objectif principal de ce projet est d'examiner non seulement la

occasion d'approfondir nos compétences dans l'utilisation de R. Nous mettrons en œuvre

différentes techniques de manipulation de données, telles que le nettoyage et la préparation

manière rigoureuse. La visualisation graphique, à travers des graphiques nous permettra de

relations entre les différentes variables.

d'apprentissage pour maîtriser les outils statistiques et graphiques de R

Etape 2 : ajouter la base de donnees etudiants , et etre sur de l’extenction de Fichier

Etape 4 : Afficher les 10 premières lignes du dataframe avec head(etudiants, 10).

Avec le code :: head(df_etudiants, 10)

Avec le code :: str(df_etudiants)

Etape 6 : Utiliser la fonction summary(etudiants) pour obtenir un résumé statistique

Avec le code :: summary(df_etudiants)

Le dataframe contient 400 observations et 11 variables.

Pour les matières, on observe plusieurs statistiques utiles :

 La médiane des matières tourne autour de 12, ce qui suggère une

Premier et troisième quartile :

Vérifier s'il existe des valeurs manquantes ou aberrantes.

Avec le code : anyNA(df_etudiants)

Vérifier si des notes sont en dehors de l'intervalle attendu [5, 20 ]

moyenne_etudiants <- rowMeans(df_etudiants[, 3:11], na.rm = TRUE)

df_etudiants$Moyenne <- moyenne_etudiants

Calculer l’écart-type des notes pour chaque étudiant et ajouter

df_etudiants$Moyenne <- moyenne_etudiants

# Calculer l'écart-type des notes de chaque étudiant

df_etudiants$Std <- apply(df_etudiants[, 3:11], 1, sd, na.rm = TRUE)

Quels étudiants présentent la plus grande variabilité dans leurs notes ?

Trouver les étudiants avec la plus grande variabilité

etudiants_max_variabilite <- df_etudiants[order(df_etudiants$Std, decreasing = TRUE), ][1:5, ]

Avec le code ::barplot(stats_par_matiere$Moyenne, names.arg = colnames(notes_matiere),

Avec le code :: notes_matiere <- df_etudiants[, 3:11]

On identifie les matières avec les moyennes maximale et minimale.

Avec le code :: matiere_max_moyenne <- names(which.max(stats_par_matiere$Moyenne))

c. Quelle matière présente la plus grande dispersion ?

matiere_plus_variable <- rownames(stats_par_matiere)[which.max(stats_par_matiere$Std)

d. Analyse des distributions de notes

boxplot(notes_matiere, main = "Distribution des notes par matière",

col = rainbow(ncol(notes_matiere)), las = 2, ylab = "Notes")

VI. Visualisation des Données

1. Médiane des matières :

2. Dispersion des notes :

3. Présence de valeurs aberrantes :

Ajout des couleurs adaptées à ggplot2 :

Ajout d’informations supplémentaires :

 Ajouter des moyennes en plus des médianes.

*Choix des visualisations

1. **Histogrammes** des notes pour voir la distribution par matière.

2. **Boxplots** pour comparer les dispersions entre matières.

3. **Diagrammes de dispersion** pour détecter les corrélations entre les matières.

** Réalisation avec ggplot2

# Histogramme des notes par matière

ggplot(df_etudiants, aes(x=Maths)) + geom_histogram(binwidth=2, fill="blue", alpha=0.5) +

# Boxplot des notes par matière

ggplot(melt(df_etudiants[, -1]), aes(x=variable, y=value)) +

geom_boxplot(fill="lightblue") + theme_minimal() + labs(x="Matière", y="Note")

1. Histogrammes des notes pour voir la distribution par matière.

2. Boxplots pour comparer les dispersions entre matières.

3. Diagrammes de dispersion pour détecter les corrélations entre les matières.