Stage - Data Science - Déploiement d'un pipeline MLOps dans une infrastructure hybride H/F
Expleo
Ile-de-Ile-de-France, FR - Montigny Le Bretonneux
il y a 6j

Qui sommes-nous ?

Expleo propose une offre unique de services intégrés d'ingénierie, qualité et conseil stratégique pour la transformation digitale.

Dans un contexte d'accélération technologique sans précédent, nous sommes le partenaire de confiance des entreprises qui innovent.

Expleo est présent dans tous les secteurs à forte intensité technologique qui contribuent à une société plus connectée, plus durable et plus sûre.

Nos 13 500 collaborateurs interviennent dans plus de 30 pays et nous avons réalisé un chiffre d'affaires de 903 millions d'euros en 2020.

Votre future mission

De nombreux data scientists travaillent sur divers sujets Data en R&D et des besoins de centralisation et de reproductibilité sont apparus.

C’est pour cette raison que, récemment, une architecture logicielle MLOps a commencé à être mise en place au sein d’Expleo afin de répondre à ce besoin et d’assurer un cycle de vie contrôlé à nos projets Data.

Un premier socle permettant de déployer des modèles dans une infrastructure locale (Kubernetes, Django, Gitlab CI, Kubeflow) existe déjà et nous recherchons une personne afin de compléter et améliorer cette infrastructure.

Ce stage sera composé de deux grands axes :

  • un axe de recherche et de réflexion sur comment intégrer différents modules (décrits ci-dessous) puis
  • un axe d’intégration de ces dit-modules.
  • Entre autres, vous vous pencherez sur divers modules à intégrer :

  • Rendre l’architecture hybride afin de lancer des pipelines de machine learning sur un environnement cloud (Azure / Load Balancer).
  • Actuellement, ces pipelines ne s’exécutent que sur nos serveurs GPUs via Kubeflow et nous voudrions pouvoir profiter de la puissance de scaling du Cloud.

  • Ajouter un outil d’annotation (avec l’outil LabelStudio) pour les phases de préparation de données en amont des entraînements.
  • En effet, certains sujets manquent de données d’entrées et un outil de ce type permettrait d’étoffer leur nombre.

  • Ajouter un monitoring des modèles et des différentes métriques obtenues lors des entraînements de modèles. Nous utilisons MLFlow et un package interne de monitoring en local mais nous devons encore rattacher cette solution au reste.
  • Environnement Technique :

  • Cloud Azure, MLflow, Docker, Kubernetes / Kubeflow, GitHub / GitLab
  • Langages : Python, Bash Linux
  • Ce qui vous différencie

    Vous êtes issu(e) d'une formation Bac + 5 en école d'ingénieur ou cursus universitaire spécialité Big Data.

    Vous avez des compétences en informatique, sur le Cloud en général (Azure de préférence, vous avez des connaissances sur les containers Docker et l'orchestration.

    Vous êtes familier avec les technologies Git.

    Vous êtes une personne dynamique et vous aimez le travail en équipe, vous êtes ouvert(e) d'esprit et vous avez un bon sens de l'analyse.

    Rejoindre Expleo Group, c'est l'opportunité de rejoindre une groupe leader dans l'ingénierie, qui vous permettra de donner une nouvelle dimension à votre carrière grâce à des projets d'envergure majeure et à fort niveau d'engagement.

    Signaler cette offre d'emploi
    checkmark

    Thank you for reporting this job!

    Your feedback will help us improve the quality of our services.

    Postuler
    Mon email
    En cliquant sur « Continuer », je consens au traitement de mes données et à recevoir des alertes email, tel que détaillé dans la Politique de confidentialité de neuvoo. Je peux retirer mon consentement ou me désinscrire à tout moment.
    Continuer
    Formulaire de candidature