Les Big Data

Objectifs

Cette formation vous permet de : définir les Big Data et ses enjeux. Identifier les perspectives, les difficultés de traiter les Big Data ainsi que leur sauvegarde et leur stockage.

Public

Toutes les personnes désireuses de définir les Big Data et identifier les tenants aboutissants de leurs exploitations.

Durée

35 heures en présentiel sur 5 jours

Pré-requis

Pas de prérequis nécessaire.

Formateur

Consultant formateur en Big Data et cartographie de l'information.

Méthode pédagogique

8 participants maximum, un poste par stagiaire et un support de cours est remis en fin de stage. La formation est constituée d'apports théoriques, de démonstrations et de mises en pratique basées sur des cas pratiques.

Modalité de validation des acquis

Évaluation en ligne des acquis via un questionnaire. Attestation de fin de stage.

Déroulé

Big Data définitions

  • Notion de "donnée"
  • Big Data
  • Datawarehouse
  • Opendata
  • Cloud Computing
  • Data Center
  • Data Mining
  • Physique sociale

Les 5 V des Big Data

  • Volume, Vitesse, Variété, Valeur, Véracité

Les premiers enjeux des Big Data

  • Source d'informations
  • Disponibilité,
  • Notions d'informations en temps-réel et de marketing temps-réel
  • Relation client, etc.

Difficultés et perspectives

  • Anonymisation des données
  • Sauvegarde et protection
  • Méthodes mathématiques, statistiques et informatiques
  • Notion de pertinence des informations
  • Question de la visualisation des informations, perspectives possibles à court, moyen et long terme

Sauvegarde et stockage

  • Où sauvegarder ses données
  • Sauvegarde interne ou externe, avantages et inconvénients
  • Stockage interne ou externe
  • Techniques et méthodes de stockage
  • Protection et Méthodes de protection


Données structurées et données non structurées

  • Notion de structure
  • Passage de causalité à la corrélation
  • Comment préparer les données en vue de leur analyse ?
  • Comment définir les individus et la représentation pour l'apprentissage ?
  • Importance de la relation Data Miner-client.

 Panorama des différentes méthodes de Data Mining

  • Les grandes méthodes : Description (statistique descriptive, analyse factorielle)
  • Structuration (classification, clustering, apprentissage non-supervisé)
  • Explication (régression, apprentissage supervisé) et Association (règles d'association).
  • Pertinence des différentes méthodes par rapport aux objectifs, efficacité des méthodes.

 Évaluation et validation des informations extraites.

  • Qu'est-ce qu' "évaluer" ?
  • Méthodes d'évaluation.
  • Déploiement des informations en vue d’une utilisation effective.
  • Notions de Data Visualisation.

Droit public / droit privé : un enjeu démocratique.

  • Question de l'anonymisation des données.
  • Que dit la CNIL ?
  • La question de l'Opensource.

Présentation des différents logiciels

  • Traitements des Big Data : SAS, SPSS, R, MapReduce, Hadoop, HDFS, etc.