Stage - Cycle de vie des modèles de Machine Learning : benchmark et prototypage - H/F
EDF
Ile de France
il y a 13h

Informations pratiques

Unité d'accueil : Groupe SOAD (Statistique et Outils d'Aide à la Décision), département ICAME d'EDF Lab Paris-Saclay, 7 boulevard Gaspard Monge, 91120 Palaiseau.

Transmettre par mail un CV, une lettre de motivation et les bulletins de notes à :

Geoffrey Aldebert - e-mail : geoffrey.aldebert edf.fr

Contexte

La R&D d'EDF (2000 chercheurs) a pour missions principales de contribuer à l'amélioration de la performance des unités opérationnelles du groupe EDF, d'identifier et de préparer les relais de croissance à moyen et long termes.

Avec l'accroissement du volume et la diversification des données à analyser, les entreprises doivent être outillées et prêtes à analyser ces données rapidement et de réagir en conséquence.

Documents, emails, mesures de capteurs, logs de serveur Web sont autant de sources hétérogènes qu'il faut savoir intégrer et valoriser à grande échelle.

Le " Big Data " désigne davantage un défi à relever qu'un type de données particulier. Afin de préparer le Groupe EDF aux enjeux stratégiques du Big Data, une équipe de la R&D travaille activement sur ces sujets.

A partir de janvier 2017, EDF R&D a mis en place un nouveau dispositif appelé Data Innovation Lab (DIL) pour accélérer la valorisation des données par les techniques de Data Analytics et par une approche agile, en forte interaction avec les métiers d'EDF.

Ce dispositif réunit sur un plateau projet des Data scientists et des Data analysts autour de cas concrets fournis par les métiers d'EDF.

Il s'appuie sur une infrastructure de calcul performante (cluster Hadoop, serveurs dédiés, calculateur haute performance, etc.

et sur un socle d'outils et d'environnements collaboratifs en open source pour la plupart (R, Python, Gitlab, etc.). Nous recherchons un(e) stagiaire pour contribuer aux travaux réalisés dans le DIL R&D.

Objectifs

De plus en plus de modèles de Machine Learning sont développés au sein du groupe EDF. Ces modèles sont conçus par des Data Scientists dans des environnements expérimentaux dédiant de la ressource pour l'entraînement et la mise en place de ceux-

ci. Une fois les modèles finalisés, il est nécessaire d'assembler et de déployer les modèles pour les industrialiser. Par la suite, le maintien à jour de ces modèles et leur versionning doit également être effectué.

Aujourd'hui, ces étapes d'industrialisation sont souvent réalisées manuellement et sont peu outillées par nos entités informatiques.

Pourtant, certains outils commencent à émerger sur le marché. En tant que R&D, il nous apparaît important de les évaluer et de les tester afin de proposer des méthodes d'industrialisation de modèles plus robustes que celles existantes aujourd'hui.

L'objectif du stage est donc d'évaluer un ou plusieurs outils / solutions de cycle de vie des modèles (ex : MLFlow, Kubeflow, Airflow, Luigi, clipper.

  • L'évaluation de ces outils se fera sur des modèles déjà éprouvés et utilisés au sein de la R&D. De plus, il s'agira de mener des tests permettant d'estimer la performance des outils, leur prise en main, leur intégration dans le système d'information de l'entreprise, etc.
  • Il s'agira enfin de mener une veille active et régulière sur ces sujets.

  • Administration systèmes
  • Bases de données et langage SQL
  • Programmation (python, R, java, javascript, php, etc.)
  • La connaissance de l'écosystème Hadoop et des solutions compatibles (bases de données NoSQL, Spark, etc.) serait un plus
  • Curieux( / se), ingénieux( / se) et motivé(e) pour le domaine de la recherche appliquée
  • Postuler
    Ajouter aux favoris
    Retirer des favoris
    Postuler
    Mon email
    En cliquant sur « Continuer », je consens au traitement de mes données et à recevoir des alertes email, tel que détaillé dans la Politique de confidentialité de neuvoo. Je peux retirer mon consentement ou me désinscrire à tout moment.
    Continuer
    Formulaire de candidature