Cette formation Big Data Analyse vous apportera les connaissances et compétences nécessaires pour:
Comprendre le fonctionnement d’Hadoop Distributed File System (HDFS) et YARN/MapReduce
Explorer HDFS
Suivre l’exécution d’une application YARN
Maitriser le fonctionnnement et l’utilisation des différents outils de manipulation de la donnée :
Hue : Utilisation de l’interface unifiée
Hive, Pig : Les générateurs de MapReduce
Tez : L’optimisation des générateurs de MapReduce
Sqoop : Comment importer les données de l’entreprise dans un cluster Hadoop?
Oozie : Comment organiser les exécutions des différentes applications ?
À qui s’adresse cette formation ?
Public :
Cette formation Big Data Analyse de données en environnement Hadoop est destinée aux personnes qui devront manipuler les données dans un cluster Apache Hadoop.
Prérequis :
Cecours nécessite d’avoir une expérience dans la manipulation de données. Une connaissance préliminaire d’Hadoop n’est pas exigée mais recommandée.
Une pédagogie basée sur la pratique
Acquérir des compétences essentielles en validant des projets professionnels.
Progressez à l’aide d’un expert du métier.
Gagnez un véritable savoir-faire ainsi qu’un portfolio pour le démontrer.
Contenu du cours Analyse des données avec Hadoop :
Introduction à Hadoop
Présentation générale d’Hadoop Exemples d’utilisation dans différents secteurs Historique et chiffres clés : Quand parle-t-on de Big Data ?
L'écosystème d'Hadoop :
Le système de fichier HDFS Le paradigme MapReduce et l’utilisation à travers YARN
Manipulation des données dans un cluster Hadoop
Hue : Comment fonctionne cette interface web ? Hive : Pourquoi Hive n’est pas une base de données ?
Requête sur Hive :
Utilisation de HCatalog Utilisation avancée sur Hive Utilisation de fonctions utilisateurs Paramétrage de requête Pig : Fonctionnement de Pig
Programmation avec Pig Latin
Utilisation du mode Local Utilisation de fonctions utilisateurs Tez : Qu’est-ce que Tez ?
Création de Workflows avec Oozie
Manipulation des workflows Ajout d’éléments d’exploitation dans les workflows Ajout de conditions d’exécution Paramétrage des workflows Sqoop : A quoi sert Sqoop ?
Chargement des données depuis une base de données relationnelle
Chargement des données depuis Hadoop Utilisation et paramétrage avancée Les particularités des distributions : Impala, Hawq Quelles sont les bonnes pratiques d’utilisation des différents outils ?