Les techniques d'analyse et de visualisation CPF NEW

Objectifs

Cette formation Les techniques d'analyse et de visualisation vous permettra de : Définir et identifier le contexte spécifique des projets Big Data, connaitre le panorama technologique et enjeux socio-économiques, mesurer l'impact des choix technologiques en matière d'analyse et de visualisation, gérer la structure des données (structurées - non structurées ; internes - acquises), intégrer des données par les techniques de collecte, mettre en œuvre un entrepôt et le stockage de données, maîtriser les méthodes d'analyse et de visualisation, consolider ses connaissances à travers un cas d'usage.

Public

Cette formation Les techniques d'analyse et de visualisation est destinée aux Data Analysts, Business Analysts, Analystes Business Intelligence, Dataminers.

Durée

21 heures en présentiel sur 3 jours

Pré-requis

Cette formation Les techniques d'analyse et de visualisation nécessite de connaître les principes de programmation et avoir une expérience dans le développement. Connaissance du langage SQL.

Formateur

Formateur consultant expert en BIG DATA

Méthode pédagogique

1 poste et 1 support par stagiaire 8 à 10 stagiaires par salle Remise d'une documentation pédagogique papier ou numérique pendant le stage La formation est constituée d'apports théoriques, d'exercices pratiques, de réflexions et de retours d'expérience

Modalité de validation des acquis

Auto-évaluation des acquis par le stagiaire via un questionnaire en ligne Attestation de fin de stage remise au stagiaire

Déroulé

PANORAMA TECHNOLOGIQUE ET ENJEUX SOCIO-ECONOMIQUES

  • Bâtir une vision Data Centric pour l'entreprise
  • Etudier l'environnement concurrentiel de l'entreprise
  • Comment créer de la valeur ou apporter de la valeur complémentaire aux données
  • Comment utiliser les Big Data qui doivent être un levier technologique pour accompagner les enjeux métiers et non l'inverse
  • Comprendre les acteurs du Big Data et leur positionnement
  • Quelle vision à 3 ans
  • Propriété de la donnée, environnement juridique du traitement, sécurité
  • La nécessité de la gouvernance des données
  • Qu'est-ce qu'un CDO

ASPECTS JURIDIQUES ET ETHIQUES : QUELLES DONNEES POUR QUELS USAGES ?

  • Données objectives
  • Données à caractère personnel
  • Quelle gestion des données personnelles ? (donnée se rapportant à une personne physique, qui peut être identifiée quel que soit le moyen utilisé)
  • Quels Impact sur la vie privée
  • Surveillance et sanction de la CNIL
  • Déclaration préalable
  • Exemples
  • Présentation du socle (la finalité du traitement) et de 4 conditions
  • Finalité explicite et légitime
  • Loyauté dans la mise en œuvre du traitement
  • Données pertinentes
  • Durée de conservation non excessive
  • Sécurité

IMPACT DES CHOIX TECHNOLOGIQUES EN MATIERE D'ANALYSE ET DE VISUALISATION

  • Fonctionnement des solutions d'analyse et de visualisation aujourd'hui dans un environnement BI
  • Qu'implique la mise en place d'une solution de type Big Data
  • Quels outils utiliser pour l'analyse et la visualisation ?
  • Les nouveaux outils natifs au Big Data
  • Les outils classiques de Datavisualisation
  • Quelles performances pour quels outils ?
  • Les nouvelles solutions tout en un pour packager des applications Big Data (de l'intégration de la donnée à leur visualisation)

GERER LA STRUCTURE DES DONNEES (STRUCTUREES – NON STRUCTUREES ; INTERNES – ACQUISES)

  • Le Data Lake
  • Retour sur le La Datawarehouse historique : en tirer partie.
  • Nouvelles approches Big Data : le Data Lake.
  • Intégrer toutes les données avec le Data Lake
  • Pourquoi faut-il vraiment tout conserver ?
  • La nécessaire gouvernance de la donnée.
  • Structuration des données (structurées – non structurées ; internes – acquises)
  • Température des données (froides, tièdes, chaudes)
  • Coloration des données (données blanches, données grises, données sombres)
  • Quelle valeur par typologie de données

LA COLLECTE DE DONNEES

  • Intégration de données hétérogènes
  • Intégration réelle

DataWarehouse

  • Médiateur, adaptateur et ETL.
  • Intégration de schémas et d'ontologies : les conflits sémantiques, le problème de la résolution d'entité.
  • Modèles de données pour l'intégration : relationnel, XML, JSON, clé-valeur.
  • L'offre produits et services.
  • Intégration des données du SI avec big data
  • Besoins : acquisition, organisation, analyse.
  • Place de Hadoop et Spark dans une architecture d'intégration
  • Exemples de plateformes d'intégration : Microsoft HDInsight, IBM InfoSphere BigInsights, Oracle Bigdata Appliance.

L'ENTREPOT / LE STOCKAGE DE DONNEES

  • Stockage d'objets
  • Stockage en fichiers distribués
  • Systèmes de fichiers distribués : Hadoop HDFS, Google File System, IBM GPFS, GlusterFS, Lustre.
  • Stockage clé-valeur
  • Systèmes clé-valeur : Amazon DynamoDB, Amazon SimpleDB, Apache Cassandra, Linkedin Voldemort.

METHODES D'ANALYSE ET DE VISUALISATION

  • La Data Visualisation
  • La Data Discovery
  • Le self-service BI
  • Les nouveaux enjeux
  • Marchés mouvants et volatiles
  • Accélération du cycle de décision
  • Populations métiers plus matures
  • Intégration avec le Big Data
  • Que visualiser ?
  • Exploration de données.
  • Performance de modèles.
  • Prédictions des modèles.
  • Comment visualiser ?
  • Types de représentations : courbes, histogrammes, diagrammes 3D ….
  • Statique vs interactif.
  • Outils et technologies
  • La montée du JavaScript.
  • Les solutions du marché
  • Les solutions intégrées aux plateformes Big Data

ETUDES DE CAS

  • Mise en place d'une architecture Big Data orientée analyse des données et visulatisation