Unité pédagogique

Data Mining for Big Data

Derniere édition le: 12/01/2024

Modifier

Responsable:

Description générale :

This course is managed and taught by Christine Largeron and Baptiste Jeudy from Université Jean Monnet. The courses take place at Campus Manufacture of the faculty of sciences of UJM. This course focuses on data mining of very large data (i.e. data that do not fit in main memory) and on a number of algorithms specifically designed to be used on massive data (such as data extracted from the web, e.g. social networks, recommender systems, …). It explains the principle of distributed file systems and shows Map reduce as a tool for creating parallel algorithms.

This course is mutualised with the master program MLDM.

Note: Pour les étudiants en double diplôme ICM et DSC, cette UE est évaluée par une équivalence avec un cours de majeure ou de défi, selon les options choisies par l'étudiant : majeure science des données, UP Statistique exploratoire et outils mathématiques ou bien défi Big Data, UP Donnés Massives 2.


Mots-clés:

Mégadonnées Analyse de réseau Fouille de données et de texte Systèmes de recommandation Map Reduce Hadoop Spark LSH R

Nombre d’heures à l’emploi du temps:

45

Domaine(s) ou champs disciplinaires:

Informatique, Systèmes d'information

Langue d’enseignement:

Anglais

Objectifs d’apprentissage:

A la fin de l’unité pédagogique, l’élève sera capable de : Niveau de taxonomie Priorité

Modalités d’évaluation des apprentissages:

Part de l'évaluation individuelle Part de l'évaluation collective
Examen sur table : 66 % Livrable(s) de projet : 34 %
Examen oral individuel : % Exposé collectif : %
Exposé individuel : % Exercice pratique collectif : %
Exercice pratique individuel : % Rapport collectif : %
Rapport individuel : %
Autre(s) : %

Programme et contenus:

Type d’activité pédagogique : Contenu, séquencement et organisation
Topics

The course has 20 hours of lectures, 15 hours of tutorials, and 10 hours of lab sessions, on the following topics:

  • MapReduce, Hadoop/Spark and how to scale the usual data mining methods to big data
  • Finding Similar Items in big data (LSH)
  • Mining Social-Networks Data:
    • From social network to information network
    • Networks representation, visualization
    • Network analysis: measures and metrics
    • Models of network generation
    • Community detection (percolation algorithms, cliques, Mincut, spectral clustering)
    • Influence/ link prediction
  • Text Mining:
    • Overview of text mining
    • Text preprocessing
    • Features extraction - indexing
    • Weighting models
    • Document similarity
    • Features Extraction - dimension reduction
    • Text mining (categorization – clustering- association)
    • Topics models (LSA, PLSA, LDA)
  • Recommendation systems
  • Practical sessions on Spark and R