Empire Training

Data - Data Scientist

Un data scientiste analyse et interprète des données complexes pour aider à la prise de décision stratégique et à la résolution de problèmes

Une formation flexible 100% en ligne

Démarrez à tout moment votre nouvelle carrière ! Disponible à temps partiel ? Pas de problème, étudiez à votre rythme.

Des projets professionnalisants

Vous développerez vos compétences professionnelles en travaillant sur des projets concrets inspirés de la réalité en entreprise.Pas de problème, étudiez à votre rythme.

Un accompagnement personnalisé

Bénéficiez de sessions de mentorat hebdomadaires avec un expert du métier.

image (69)

Gagnez des certificats et des diplômes

Gagner des certificats et des diplômes peut améliorer votre carrière, élargir vos horizons et vous offrir une satisfaction personnelle accrue.

Objectifs de la formation Data Scientist

Objectif opérationnel : 

Savoir appréhender Data Scientist.

Objectifs pédagogiques : 

Plus concrètement, à l’issue de cette formation Data Scientist Fondamentaux vous aurez acquis les connaissances et compétences nécessaires pour :

  • Découvrir le métier de Data Scientist et les grandes familles de problèmes
  • Savoir modéliser un problème de Data Science
  • Créer vos premières variables
  • Constituer votre boîte à outils de Data Scientist
  • Participer à une première compétition.

À qui s’adresse cette formation ?

Public :

Ce stage s’adresse aux Analystes, Statisticiens, Architectes, Développeurs.

Prérequis :

Pour suivre ce cours dans les meilleures conditions possibles, il vous faut avoir certaines connaissances de base en programmation ou scripting, ainsi que quelques souvenirs de statistiques qui peuvent être un plus.

Une pédagogie basée sur la pratique

  • Acquérir des compétences essentielles en validant des projets professionnels.
  • Progressez à l’aide d’un expert du métier.
  • Gagnez un véritable savoir-faire ainsi qu’un portfolio pour le démontrer.

Contenu du cours Data Scientist :

Introduction au Big Data :

Qu’est-ce-que le Big Data ?
L’écosystème technologique du Big Data

Introduction à la Data Science, le métier de Data Scientist :

Le vocabulaire d’un problème de Data Science
De l’analyse statistique au machine learning
Overview des possibilités du machine learning 

Modélisation d’un problème :

Input / ouput d’un problème de machine learning

Travaux Pratiques « OCR» :

 

Comment modéliser le problème de la reconnaissance optique de caractère . 

Identifier les familles d’algorithmes de machine learning :

Analyse supervisée
Analyse non supervisée
Classification / régression 

Sous le capot des algorithmes : la régression linéaire :

Quelques rappels : fonction hypothèse, fonction convexe, optimisation
La construction de la fonction de coût
Méthode de minimisation : la descente de gradient 

Sous le capot des algorithmes : la régression logistique :

Frontière de décision
La construction d’une fonction de coût convexe pour la classification 

La boîte à outil du Data Scientist :

Introduction aux outils
Introduction à Python, Pandas et Scikit-learn

Cas pratique n°1 : « Prédire les survivants du Titanic »

 

Exposé du problème
Première manipulation en Python 

Les pièges du machine learning

Overfitting ou sur-apprentissage
Biais vs variance
La régularisation : régression Ridge et Lasso 

Data Cleaning

Les types de données : catégorielles, continues, ordonnées, temporelles
Détection des outliers statistiques, des valeurs aberrantes
Stratégie pour les valeurs manquantes

Travaux Pratiques :

 

« Remplissage des valeurs manquantes» 

Feature Engineering

Stratégies pour les variables non continues
Détecter et créer des variables discriminantes

Cas pratique n°2 : « Prédire les survivants du Titanic »

 

Identification et création des bonnes variables
Réalisation d’un premier modèle
Soumission sur Kaggle 

Data visualisation

La visualisation pour comprendre les données : histogramme, scatter plot, etc
La visualisation pour comprendre les algorithmes : train / test loss, feature importance, etc .. 

Introduction aux méthodes ensemblistes

Le modèle de base : l’arbre de décision, ses avantages et ses limites
Présentation des différentes stratégies ensemblistes : bagging, boosting, etc

Travaux Pratiques “Retour sur le Titanic” :

 

Utilisation d’une méthode ensembliste sur la base du précédent modèle 

Apprentissage semi-supervisé

Les grandes classes d’algorithmes non supervisées : clustering, PCA, etc

Travaux Pratiques « Détection d’anomalies dans les prises de paris» :

Comment un algorithme non supervisé permet-il de détecter des fraudes dans les prises de paris?

Un encadrement individuel et privilégié.
La communauté Empire Training

Pré- inscription en ligne

Veuillez remplir le formulaire

Les champs marqués d’un * sont obligatoires

Veuillez activer JavaScript dans votre navigateur pour remplir ce formulaire.

Pré inscription Data

Expérience
Format de formation
Besoin de la formation
Cliquez ou déplacez un fichier dans cette zone pour le téléverser.

Comment se déroule un parcours Empire Training ?

Dès la formation choisie jusqu’à leur entrée dans leur nouvelle carrière, nos étudiants racontent chaque étape de leur expérience et le soutien qu’ils ont reçu.