Positionnement dans le cursus
Semestre 5
Intersemestre
Semestre 6
 
 
 
Semestre 7
 
Intersemestre
Semestre 9
 
 
Intersemestre

Unité pédagogique

Statistique et Science des Données

Derniere édition le: 09/12/2024

Modifier

Responsable:

BAY Xavier HOAYEK Anis

Description générale :

Comme le suggère son intitulé, ce cours aborde la Statistique classique (inférentielle et décisionnelle) sous l'angle de l'apprentissage statistique ("statistical learning") tout en mettant en perspective l'apprentissage automatique ("machine learning"). Le contenu est le suivant :

  • analyse de données avec l'analyse en composantes principales (ACP) comme outil de fouille de données ("data mining") ou d'extraction de connaissances
  • statistique descriptive  avec en particulier l'estimation non paramétrique de densité comme problème d'apprentissage statistique et de compromis bais-variance
  • inférence avec l'estimation ponctuelle ou par intervalle et les concepts d'échantillonnage, d'estimateur, de risque en liaison à nouveau avec l'apprentissage statistique et le compromis biais-variance
  • tests statistiques (partie décisionnelle) avec les notions de risque de première espèce, puissance et probabilité critique ou p-valeur d'un test
  • régression linéaire (simple) (partie prédictive) en mettant en perspective les phases d'apprentissage du modèle et de validation croisée
  • régression logistique ou classification supervisée dans le cas classique d'un mélange gaussien
  • classification non supervisée à partir du même modèle gaussien tout en mettant en perspective les techniques de "machine learning"
  • ouverture sur quelques algorithmes  de la science des données ("data science"), notamment les réseaux de neurones

 

Mots-clés:

Variable aléatoire Lois de probabilité Estimation Test statistique Régression linéaire

Nombre d’heures à l’emploi du temps:

33

Domaine(s) ou champs disciplinaires:

Mathématiques

Langue d’enseignement:

Français

Objectifs d’apprentissage:

A la fin de l’unité pédagogique, l’élève sera capable de : Niveau de taxonomie Priorité
Utiliser les outils de base, notamment les notions de variables aléatoires, de distributions de probabilités, d'indépendance, de moments (tels que espérance et variance par exemple) 2. Comprendre Essentiel
Etre capable de réaliser des estimations ponctuelles et par intervalle de confiance pour des paramètres des lois usuelles à partir de données d'échantillons statistiques. 3. Appliquer Essentiel
Réaliser des modèles simples de régression linéaire, de les comparer et de les critiquer 4. Analyser Essentiel
Mettre en oeuvre sous le logiciel R les méthodes et modèles étudiés 3. Appliquer Important
Rédiger un rapport de clair et synthétique concernant un traitement de données (type estimation ou régression) 5. Synthétiser Important

Modalités d’évaluation des apprentissages:

Part de l'évaluation individuelle Part de l'évaluation collective
Examen sur table : 70 % Livrable(s) de projet : 0 %
Examen oral individuel : 0 % Exposé collectif : 0 %
Exposé individuel : 0 % Exercice pratique collectif : 30 %
Exercice pratique individuel : 0 % Rapport collectif : 0 %
Rapport individuel : 0 %
Autre(s) : 0 %

Programme et contenus:

Type d’activité pédagogique : Contenu, séquencement et organisation
Cours

Probabilités, probabilités conditionnelles

Evènements indépendants

Variables aléatoires, distributions usuelles, moments

Analyse de données

Estimation ponctuelle et par intervalle

Théorème central limite

Tests statistiques

Régression linéaire

Travaux Pratiques Initiation au  logiciel libre R
Étude de cas Étude de jeux de données réels à l'aide de méthodes statistiques telles que la régression linéaire
Travaux Dirigés

Calculs de lois

Méthodes de simulation de variables aléatoires

Estimation des paramètres d'une loi de probabilité

Mise en oeuvre de tests d'hypothèses

Mise en oeuvre de techniques de régression pour la prédiction par exemple