Hadoop

Empire Training > Hadoop

Objectifs de la formation Hadoop

This training Big Data Analyse vous apportera les connaissances et compétences nécessaires pour:

Comprendre le fonctionnement d’Hadoop Distributed File System (HDFS) et YARN/MapReduce
Explorer HDFS
Suivre l’exécution d’une application YARN
Maitriser le fonctionnnement et l’utilisation des différents outils de manipulation de la donnée :
- Hue : Utilisation de l’interface unifiée
- Hive, Pig : Les générateurs de MapReduce
- Tez : L’optimisation des générateurs de MapReduce
- Sqoop : Comment importer les données de l’entreprise dans un cluster Hadoop?
- Oozie : Comment organiser les exécutions des différentes applications ?

Who is this training for?

Audience :

Cette formation Big Data Analyse de données en environnement Hadoop est destinée aux personnes qui devront manipuler les données dans un cluster Apache Hadoop.

Prerequisites:

Cecours nécessite d’avoir une expérience dans la manipulation de données. Une connaissance préliminaire d’Hadoop n’est pas exigée mais recommandée.

A pedagogy based on practice

Acquire essential skills by validating professional projects.
Progress with the help of a professional expert.
Gain real know-how as well as a portfolio to demonstrate it.

Contenu du cours Analyse des données avec Hadoop :

Introduction à Hadoop

Présentation générale d’Hadoop
Exemples d’utilisation dans différents secteurs
Historique et chiffres clés : Quand parle-t-on de Big Data ?

L'écosystème d'Hadoop :

Le système de fichier HDFS
Le paradigme MapReduce et l’utilisation à travers YARN

Manipulation des données dans un cluster Hadoop

Hue : Comment fonctionne cette interface web ?
Hive : Pourquoi Hive n’est pas une base de données ?

Requête sur Hive :

Utilisation de HCatalog
Utilisation avancée sur Hive
Utilisation de fonctions utilisateurs
Paramétrage de requête
Pig : Fonctionnement de Pig

Programmation avec Pig Latin

Utilisation du mode Local
Utilisation de fonctions utilisateurs
Tez : Qu’est-ce que Tez ?

Création de Workflows avec Oozie

Manipulation des workflows
Ajout d’éléments d’exploitation dans les workflows
Ajout de conditions d’exécution
Paramétrage des workflows
Sqoop : A quoi sert Sqoop ?

Chargement des données depuis une base de données relationnelle

Chargement des données depuis Hadoop
Utilisation et paramétrage avancée
Les particularités des distributions : Impala, Hawq
Quelles sont les bonnes pratiques d’utilisation des différents outils ?