Groupe pédagogique - D-BDAT-S8
Les systèmes d’information (SI) sont de plus en plus performants et réactifs pour accompagner la production, pour appuyer la prise de décision et le travail collaboratif, pour augmenter la satisfaction client en entreprise, institution, société. Les fonctions mises en place dans un SI sont réalisées en traitant des informations clairement identifiées et, généralement, gardées dans des bases de données au sein du SI. Néanmoins, un volume de plus en plus important de données est généré par diverses sources : capteurs, logiciels, historiques d’activité et autres informations jugées avant comme "volatiles" et sans utilité immédiate. Ces données sont parfois gardées pendant un certain temps, mais sont rarement exploitées en raison de leur volume, leur diversité de format, leur vitesse d’accumulation, leur manque d’adéquation avec les outils actuels de traitement. Le syntagme Big Data fait état de ces données caractérisées par : un volume important, une variété de formats, une vitesse de génération (V 3) auxquels on ajoute aussi la valeur potentielle qui est à extraire (V 4). Cette valeur est donnée par les connaissances extraites. Les industriels du Big Data constatent aussi que cette problématique commence à être
traitée par les ingénieurs métier, d’où la justification de pouvoir permettre au plus grand
nombre de nos élèves, futurs ingénieurs généralistes, de se former aux bases du traitement
des Big Data et aux technologies actuelles. Il devient impératif de pouvoir former nos élèves à ces nouvelles méthodes et techniques afin de faire face à ce défi qui se fera de plus en plus présent dans les années à venir.
Les données en grands volumes doivent être stockées de manière conséquente, donc avoir savoir manipuler des logiciels et paradigmes adaptés. Les méthodes de traitement, algorithmes et mathématiques sont aussi adaptées à ce cadre de Big Data. Il y a cinq grands volets d’enseignement :
Les UP sont :
Le défi Big Data s’appuie essentiellement sur les notions acquises en Tronc Commun Informatique et en cours de Probabilités Statistiques du Tronc Commun Mathématiques ; les données à traiter lors des activités pédagogiques ne demanderont pas de connaissances spécifiques. Certaines notions expliquées lors de l’UP de Fouille de Données comme les notions de classification ou de clustering ont été ou seront présentées aussi dans la Majeure Data Science mais sous en angle plus statistique. En outre, le cadre Big Data impose une généralisation de ces notions et donc d’autres techniques qui mettent en oeuvre ces concepts, car d’une part les données sont de volume très important et, d’autre part, elles sont hétérogènes (incluant texte, graphes, données dynamiques), ce qui est au delà du cadre des données numériques de la majeure Data Science. Il est possible que les élèves ayant suivi la Majeure Informatique ou des modules ciblés logiciel/ programmation/informatique aient un peu plus d’aisance lors des travaux pratiques, mais pas de manière significative. L’idée de montage d’un défi avec peu d’appuis sur les majeures existantes est induite par le besoin de répondre à une problématique de gestion de données de type Big Data pour des domaines variés de l’industrie et de la recherche.