loader image

Empire Training

Data - Data Scientist

Un data scientiste analyse et interprète des données complexes pour aider à la prise de décision stratégique et à la résolution de problèmes

Flexible 100% online training

Start your new career at any time! Available part-time? No problem, study at your own pace.

Professional projects

You will develop your professional skills by working on concrete projects inspired by business reality. No problem, study at your own pace.

Personalized support

Benefit from weekly mentoring sessions with a business expert.

image (69)

Earn certificates and diplomas

Earning certificates and degrees can enhance your career, broaden your horizons, and provide you with increased personal satisfaction.

Objectifs de la formation Data Scientist

Operational objective: 

Savoir appréhender Data Scientist.

Educational objectives: 

Plus concrètement, à l’issue de cette formation Data Scientist Fondamentaux you will have acquired the knowledge and skills necessary to:

  • Découvrir le métier de Data Scientist et les grandes familles de problèmes
  • Savoir modéliser un problème de Data Science
  • Créer vos premières variables
  • Constituer votre boîte à outils de Data Scientist
  • Participer à une première compétition.

Who is this training for?

Audience :

Ce stage s’adresse aux Analystes, Statisticiens, Architectes, Développeurs.

Prerequisites:

Pour suivre ce cours dans les meilleures conditions possibles, il vous faut avoir certaines connaissances de base en programmation ou scripting, ainsi que quelques souvenirs de statistiques qui peuvent être un plus.

A pedagogy based on practice

  • Acquire essential skills by validating professional projects.
  • Progress with the help of a professional expert.
  • Gain real know-how as well as a portfolio to demonstrate it.

Contenu du cours Data Scientist :

Introduction au Big Data :

Qu’est-ce-que le Big Data ?
L’écosystème technologique du Big Data

Introduction à la Data Science, le métier de Data Scientist :

Le vocabulaire d’un problème de Data Science
De l’analyse statistique au machine learning
Overview des possibilités du machine learning 

Modélisation d’un problème :

Input / ouput d’un problème de machine learning

Travaux Pratiques « OCR» :

 

Comment modéliser le problème de la reconnaissance optique de caractère . 

Identifier les familles d’algorithmes de machine learning :

Analyse supervisée
Analyse non supervisée
Classification / régression 

Sous le capot des algorithmes : la régression linéaire :

Quelques rappels : fonction hypothèse, fonction convexe, optimisation
La construction de la fonction de coût
Méthode de minimisation : la descente de gradient 

Sous le capot des algorithmes : la régression logistique :

Frontière de décision
La construction d’une fonction de coût convexe pour la classification 

La boîte à outil du Data Scientist :

Introduction aux outils
Introduction à Python, Pandas et Scikit-learn

Cas pratique n°1 : « Prédire les survivants du Titanic »

 

Exposé du problème
Première manipulation en Python 

Les pièges du machine learning

Overfitting ou sur-apprentissage
Biais vs variance
La régularisation : régression Ridge et Lasso 

Data Cleaning

Les types de données : catégorielles, continues, ordonnées, temporelles
Détection des outliers statistiques, des valeurs aberrantes
Stratégie pour les valeurs manquantes

Practical work:

 

« Remplissage des valeurs manquantes» 

Feature Engineering

Stratégies pour les variables non continues
Détecter et créer des variables discriminantes

Cas pratique n°2 : « Prédire les survivants du Titanic »

 

Identification et création des bonnes variables
Réalisation d’un premier modèle
Soumission sur Kaggle 

Data visualisation

La visualisation pour comprendre les données : histogramme, scatter plot, etc
La visualisation pour comprendre les algorithmes : train / test loss, feature importance, etc .. 

Introduction aux méthodes ensemblistes

Le modèle de base : l’arbre de décision, ses avantages et ses limites
Présentation des différentes stratégies ensemblistes : bagging, boosting, etc

Travaux Pratiques « Retour sur le Titanic » :

 

Utilisation d’une méthode ensembliste sur la base du précédent modèle 

Apprentissage semi-supervisé

Les grandes classes d’algorithmes non supervisées : clustering, PCA, etc

Travaux Pratiques « Détection d’anomalies dans les prises de paris» :

Comment un algorithme non supervisé permet-il de détecter des fraudes dans les prises de paris?

Individual and privileged supervision.
The Empire Training community

Online pre-registration

Please fill out the form

Please fill out the form

Please enable JavaScript in your browser to complete this form.

Pré inscription Data

Experience
Training format
Need for training
Click or drag a file to this area to upload.

How does an Empire Training course work?

From the chosen training to their entry into their new career, our students recount each stage of their experience and the support they received.

WhatsApp
Send via WhatsApp
Custom Cursor Image