This training Big Data Analyse vous apportera les connaissances et compétences nécessaires pour:
Comprendre le fonctionnement d’Hadoop Distributed File System (HDFS) et YARN/MapReduce
Explorer HDFS
Suivre l’exécution d’une application YARN
Maitriser le fonctionnnement et l’utilisation des différents outils de manipulation de la donnée :
Hue : Utilisation de l’interface unifiée
Hive, Pig : Les générateurs de MapReduce
Tez : L’optimisation des générateurs de MapReduce
Sqoop : Comment importer les données de l’entreprise dans un cluster Hadoop?
Oozie : Comment organiser les exécutions des différentes applications ?
Who is this training for?
Audience :
Cette formation Big Data Analyse de données en environnement Hadoop est destinée aux personnes qui devront manipuler les données dans un cluster Apache Hadoop.
Prerequisites:
Cecours nécessite d’avoir une expérience dans la manipulation de données. Une connaissance préliminaire d’Hadoop n’est pas exigée mais recommandée.
A pedagogy based on practice
Acquire essential skills by validating professional projects.
Progress with the help of a professional expert.
Gain real know-how as well as a portfolio to demonstrate it.
Contenu du cours Analyse des données avec Hadoop :
Introduction à Hadoop
Présentation générale d’Hadoop Exemples d’utilisation dans différents secteurs Historique et chiffres clés : Quand parle-t-on de Big Data ?
L'écosystème d'Hadoop :
Le système de fichier HDFS Le paradigme MapReduce et l’utilisation à travers YARN
Manipulation des données dans un cluster Hadoop
Hue : Comment fonctionne cette interface web ? Hive : Pourquoi Hive n’est pas une base de données ?
Requête sur Hive :
Utilisation de HCatalog Utilisation avancée sur Hive Utilisation de fonctions utilisateurs Paramétrage de requête Pig : Fonctionnement de Pig
Programmation avec Pig Latin
Utilisation du mode Local Utilisation de fonctions utilisateurs Tez : Qu’est-ce que Tez ?
Création de Workflows avec Oozie
Manipulation des workflows Ajout d’éléments d’exploitation dans les workflows Ajout de conditions d’exécution Paramétrage des workflows Sqoop : A quoi sert Sqoop ?
Chargement des données depuis une base de données relationnelle
Chargement des données depuis Hadoop Utilisation et paramétrage avancée Les particularités des distributions : Impala, Hawq Quelles sont les bonnes pratiques d’utilisation des différents outils ?