Groupe pédagogique - D-BDAT-S9

D2- BIG DATA - S9

Modifier

Crédits ECTS

5.0

Responsable:

  • JUGANARU-MATHIEU Mihaela
  • Description générale :

    Les systèmes d’information (SI) sont de plus en plus performants et réactifs pour accompagner la production, pour appuyer la prise de décision et le travail collaboratif, pour augmenter la satisfaction client en entreprise, institution, société. Les fonctions mises en place dans un SI sont réalisées en traitant des informations clairement identifiées et, généralement, gardées dans des bases de données au sein du SI. Néanmoins, un volume de plus en plus important de données est généré par diverses sources : capteurs, logiciels, historiques d’activité et autres informations jugées avant comme "volatiles" et sans utilité immédiate. Ces données sont parfois gardées pendant un certain temps, mais sont rarement exploitées en raison de leur volume, leur diversité de format, leur vitesse d’accumulation, leur manque d’adéquation avec les outils actuels de traitement. Le syntagme Big Data fait état de ces données caractérisées par : un volume important, une variété de formats, une vitesse de génération (V 3) auxquels on ajoute aussi la valeur potentielle qui est à  extraire (V 4). Cette valeur est donnée par les connaissances extraites. Les industriels du Big Data constatent aussi que cette problématique commence à  être
    traitée par les ingénieurs métier, d’où la justification de pouvoir permettre au plus grand
    nombre de nos élèves, futurs ingénieurs généralistes, de se former aux bases du traitement
    des Big Data et aux technologies actuelles. Il devient impératif de pouvoir former nos élèves à  ces nouvelles méthodes et techniques afin de faire face à  ce défi qui se fera de plus en plus présent dans les années à  venir.

    Cohérence entre les unités pédagogiques du groupe pédagogique:

    Les données en grands volumes doivent être stockées de manière conséquente, donc avoir savoir manipuler des logiciels et paradigmes adaptés. Les méthodes de traitement, algorithmes et mathématiques sont aussi adaptées à ce cadre de Big Data. Il y a quatre grandes directions d’enseignement :

    • méthodes mathématiques adaptées
    • organisations des données
    • systèmes d’information
    • fouille, algorithmes et méthodes pour les données massives

    Les UP sont :

    • UP1 : Organisation des données partie 1 (S8) et partie 2 (S9)
    • UP2 : Données Massives – partie 1 (S8) et partie 2 (S9)
    • UP3 : Systèmes d’information pour le Big Data - Shell partie 1 (S8) et partie 2 (S9)
    • UP4 : Méthodes mathématique pour la grande dimension partie 1 (S8) et partie 2 (S9)

    Parcours et cohérence avec les autres groupes pédagogiques:

    Le défi Big Data s’appuie essentiellement sur les notions acquises en Tronc Commun Informatique et en cours de Probabilités Statistiques du Tronc Commun Mathématiques ; les données à  traiter lors des activités pédagogiques ne demanderont pas de connaissances spécifiques. Certaines notions expliquées lors de l’UP de Fouille de Données comme les notions de classification ou de clustering ont été ou seront présentées aussi dans la Majeure Data Science mais sous en angle plus statistique. En outre, le cadre Big Data impose une généralisation de ces notions et donc d’autres techniques qui mettent en oeuvre ces concepts, car d’une part les données sont de volume très important et, d’autre part, elles sont hétérogènes (incluant texte, graphes, données dynamiques), ce qui est au delà  du cadre des données numériques de la majeure Data Science. Il est possible que les élèves ayant suivi la Majeure Informatique ou des MGI ciblées logiciel/ programmation/informatique aient un peu plus d’aisance lors des travaux pratiques,
    mais pas de manière significative. L’idée de montage d’un défi avec peu d’appuis sur les majeures existantes est induite par le besoin de répondre à  une problématique de gestion de données de type Big Data pour des domaines variés de l’industrie et de la recherche.

    Mots-clés:

    Big Data Système d'information Fouille de donnés Grande dimension Grand volume Analyse de données