Data Analyst - Analyse de données en environnement Hadoop CPF NEW

Objectifs

Cette formation Data Analyst - Analyse de données en environnement Hadoop vous permettra de savoir : Comment Hadoop Distributed File System (HDFS) et YARN/MapReduce fonctionnent, comment explorer HDFS, comment suivre l'exécution d'une application YARN, comment fonctionnent et comment utiliser les différents outils de manipulation de la donnée.

Public

Cette formation Data Analyst - Analyse de données en environnement Hadoop est destinée aux personnes qui devront manipuler les données dans un cluster Apache Hadoop.

Durée

21 heures en présentiel sur 3 jours

Pré-requis

Cette formation Data Analyst - Analyse de données en environnement Hadoop nécessite d'avoir une expérience dans la manipulation de données. Une connaissance préliminaire d'Hadoop n'est pas exigée.

Formateur

Formateur consultant expert en BIG DATA

Méthode pédagogique

1 poste et 1 support par stagiaire 8 à 10 stagiaires par salle Remise d'une documentation pédagogique papier ou numérique pendant le stage La formation est constituée d'apports théoriques, d'exercices pratiques, de réflexions et de retours d'expérience

Modalité de validation des acquis

Auto-évaluation des acquis par le stagiaire via un questionnaire en ligne Attestation de fin de stage remise au stagiaire

Déroulé

INTRODUCTION

  • Présentation générale d'Hadoop
  • Exemples d'utilisation dans différents secteurs
  • Historique et chiffres clés : Quand parle-t-on de Big Data ?

L'ECOSYSTEME D'HADOOP

  • Le système de fichier HDFS
  • Le paradigme MapReduce et l'utilisation à travers YARN

MANIPULATION DES DONNEES DANS UN CLUSTER HADOOP

  • Hue : Comment fonctionne cette interface web ?
  • Hive : Pourquoi Hive n'est pas une base de données ?
  • Requête sur Hive
  • Utilisation de HCatalog
  • Utilisation avancée sur Hive
  • Utilisation de fonctions utilisateurs
  • Paramétrage de requête
  • Pig : Fonctionnement de Pig
  • Programmation avec Pig Latin
  • Utilisation du mode Local
  • Utilisation de fonctions utilisateurs
  • Tez : Qu'est-ce que Tez ?
  • Comment et quand l'utiliser ?
  • Oozie : Fonctionnement de Oozie
  • Création de Workflows avec Oozie
  • Manipulation des workflows
  • Ajout d'éléments d'exploitation dans les workflows
  • Ajout de conditions d'exécution
  • Paramétrage des workflows
  • Sqoop : A quoi sert Sqoop ?
  • Chargement des données depuis une base de données relationnelle
  • Chargement des données depuis Hadoop
  • Utilisation et paramétrage avancée
  • Les particularités des distributions : Impala, Hawq
  • Quelles sont les bonnes pratiques d'utilisation des différents outils ?