Disponible pour de nouvelles opportunités

Bonjour, je suis Baptiste Blouin

Data Scientist & Ingénieur IA|

Data Scientist et Ingénieur IA avec un Doctorat en Informatique, combinant recherche ML/NLP et ingénierie produit : RAG, text-to-SQL, extraction documentaire, architecture SaaS.

Fonctionnalités interactives — disponibles maintenant

0+ Publications
0 Années d'expérience
0 Pays (ateliers & conférences)

A propos

Baptiste Blouin

Data Scientist et Ingénieur IA avec un Doctorat en Informatique, je combine une expertise en recherche ML/NLP publiée avec une solide pratique d'ingénierie de produits IA en production.

De l'architecture à la mise en production, je conçois et réalise des produits IA de bout en bout, en autonomie. Ma plateforme SaaS l'illustre : un système LLM réellement en production, multi-tenant, où j'ai autant soigné la valeur métier que la robustesse d'exploitation — maîtrise des coûts LLM et sécurité de bout en bout.

Ma formation par la recherche (7+ publications, conférences internationales, subvention ERC) me donne une rigueur méthodologique que j'applique aussi bien à la conception d'architectures techniques qu'à la résolution de problèmes complexes.

Aix-en-Provence, France
Français, Anglais

Recherche

Investigation indépendante, conception expérimentale, publication académique

Ingénierie

Full-stack ML, architecture évolutive, déploiement production

Collaboration

Travail interculturel, mentorat, présentations internationales

Expérience

Développeur Full-Stack & Ingénieur IA — Projet Personnel

Présent
  • Conception et développement autonomes d'une plateforme SaaS de transformation de données par IA, de l'architecture à la mise en production
  • Implémentation de systèmes LLM en production : RAG hybride (pgvector + BM25), GraphRAG, RAPTOR, text-to-SQL avec streaming SSE
  • Intégration de 15+ connecteurs de sources de données (bases relationnelles, APIs SaaS, S3, scraping web) et pipeline d'extraction documentaire multi-format
  • Architecture de sécurité complète : multi-tenant, RBAC, JWT RS256, SSO, 2FA, GDPR, audit logging, billing Stripe
  • Conçu pour rendre la donnée accessible aux équipes métier non-techniques : requêtes en langage naturel, extraction automatique de documents (contrats, factures, PDF), assistants IA spécialisés par domaine

Data Scientist & Ingénieur ML

Projet ENP-China — Aix-Marseille Université

  • Chercheur principal et développeur pour la plateforme HistText, gestion de projet indépendante
  • Exploration et résolution de défis ML complexes dans le traitement de textes historiques à grande échelle
  • Communication de concepts techniques par ateliers et conférences dans 7 pays
  • Collaboration interdisciplinaire avec historiens, linguistes et informaticiens internationaux
  • Entraînement distribué de modèles de langue et NLP à grande échelle sur Jean-Zay (IDRIS/GENCI), orchestration SLURM

Doctorant & Scientifique ML

Laboratoire LIS / IrAsia — Aix-Marseille Université

  • Recherche indépendante sur subvention ERC Avancée européenne, apprentissage auto-dirigé
  • Publié 7 articles à comité de lecture, rédaction technique et communication
  • Présenté la recherche dans des conférences internationales (PACLIC, NLP4DH, TALN, LREC-COLING)
  • Mentoré et collaboré avec équipes de recherche internationales (France, Taiwan, Vietnam, Japon)
  • Calcul HPC sur Jean-Zay (IDRIS/GENCI) : entraînement de modèles de langue et NLP (NER, segmentation de mots, adaptation de domaine)

Projets Clés

Plateforme Data & IA SaaS

Projet personnel — En production

Plateforme SaaS d'analyse de données par IA, multi-tenant et en production, conçue et développée seule de A à Z (backend, frontend, infrastructure). Pipeline RAG hybride (pgvector + recherche full-text, GraphRAG, RAPTOR, reranking cross-encoder), moteur text-to-SQL avec streaming SSE, extraction documentaire multi-format (PDF, DOCX, images via OCR/VLM) et 15+ connecteurs async (PostgreSQL, MySQL, MSSQL, MongoDB, S3, APIs SaaS OAuth2, scraping). Maîtrise des coûts LLM : routing multi-provider (litellm), caching et suivi des coûts (Langfuse). Sécurité LLM de bout en bout : isolation multi-tenant stricte, validation AST du SQL généré, sandboxing du code, RBAC, JWT RS256, SSO, 2FA, chiffrement Fernet, conformité RGPD, audit logging. Observabilité OpenTelemetry/Prometheus, orchestration Celery, prédictions AutoML, billing Stripe.

RAG hybridetext-to-SQLGraphRAGRAPTORMaîtrise des coûts LLMSécurité LLMObservabilitémulti-tenantFastAPIReactTypeScriptpgvectorlitellmLangfuseCeleryDockerStripe

HistText

Plateforme d'Analyse de Textes à Grande Échelle

Plateforme full-stack pour l'analyse de textes historiques chinois à grande échelle (milliards de tokens). Backend Rust haute performance, API REST, interface React avec visualisations interactives (graphes réseau, chronologies), moteur de recherche full-text Apache Solr, pipeline NER multilingue, et package client R (histtext) publié sur CRAN. Déployée pour la communauté internationale de recherche en histoire numérique dans le cadre du projet ENP-China (subvention ERC Avancée).

RustReactPythonRPostgreSQLApache SolrDockerNER

EventExtractionPapers

Ressource communautaire Open Source

Sélection maintenue de ressources NLP dédiées à l'extraction d'événements : papiers, datasets, modèles et code. Référence largement utilisée par la communauté de recherche NLP internationale, avec 580+ étoiles GitHub. Maintenu activement depuis 2020.

NLPEvent ExtractionOpen Source

ENP-Corpus Creator

Pipeline OCR & Annotation

Suite d'outils transformant des images numérisées de journaux historiques en corpus sémantiquement enrichis. Pipeline complet : OCR via Google Cloud Vision, interface d'annotation web interactive avec raccourcis clavier, export aux formats standards (CoNLL, JSON). Conçu pour des documents multilingues complexes (chinois, anglais, français).

PythonGoogle Vision APIWebOCR

Dataset NER Chinois & Pipeline ML

Ingénierie de Données & ML

Le plus grand dataset NER annoté de textes chinois historiques (1872–1949), couvrant personnes, lieux et organisations dans les journaux de Shanghai. Pipeline de contrôle qualité automatisé, benchmarks reproductibles avec modèles BERT fine-tunés, et données librement disponibles pour la communauté.

PythonPostgreSQLAnnotationML PipelineBERT

Modèle de Langue & Tokenisation Chinoise

Développement de Modèles ML

Fine-tuning de modèles de segmentation pour le chinois transitionnel, en collaboration avec Academia Sinica. Atteint 83% de précision (+35% d'amélioration par rapport aux baselines), en explorant différentes stratégies d'adaptation de domaine pour une variété linguistique peu documentée.

PyTorchTensorFlowTokenisationFine-tuning

Simulation OCR & Robustesse ML

Recherche Expérimentale

Framework d'augmentation de données simulant les artefacts OCR (substitutions, suppressions, insertions de caractères) observés dans les documents historiques numérisés. Réduit l'impact des erreurs OCR de 50% sur les tâches NER et de classification, avec un benchmark standardisé pour évaluer la robustesse des modèles.

PyTorchTransformersData Augmentation

Transfer Learning & Adaptation au Domaine Historique

Développement & Optimisation ML

Étude des stratégies de transfert d'apprentissage pour la NER sur textes historiques chinois avec données annotées limitées. Approche few-shot atteignant 93% de récupération des performances d'un modèle supervisé complet, en explorant des architectures character-aware et des techniques de fine-tuning adaptatif.

BERTTransformersFew-shotAdaptation

Compétences

Publications

HistText: An Application for Leveraging Large-Scale Historical Textbases

Baptiste Blouin, C. Armand, C. Henriot

JDMDH 2024 — Journal of Data Mining & Digital Humanities

Cet article présente HistText, un outil pionnier conçu pour faciliter la fouille de données à grande échelle dans les documents historiques, en ciblant spécifiquement les sources chinoises. Développé en réponse aux défis posés par l'immense base textuelle Modern China, HistText permet d'extraire et de visualiser efficacement des informations précieuses à partir de milliards de mots répartis sur des millions de documents. Avec une interface conviviale, des techniques avancées d'analyse de texte et de puissantes capacités de visualisation, HistText offre une plateforme robuste pour la recherche en humanités numériques. Disponible sur histtext.enpchina.eu.

A Dataset for Named Entity Recognition and Entity Linking in Chinese Historical Newspapers

Baptiste Blouin, C. Armand, C. Henriot

LREC-COLING 2024, Torino, Italy

Dans cette étude, nous présentons un nouveau corpus chinois historique pour la reconnaissance d'entités nommées, le liage d'entités, la coréférence et les relations entre entités. Nous utilisons des données issues de journaux chinois de 1872 à 1949 ainsi que des ressources bibliographiques multilingues de la même période. La période et la langue constituent la principale force de ce travail, offrant une ressource qui couvre différents styles et usages de la langue, et le plus grand corpus chinois historique annoté manuellement pour la NER sur cette période de transition. Après avoir détaillé le processus de sélection et d'annotation, nous présentons les tout premiers résultats que l'on peut obtenir à partir de ce corpus. Textes et annotations sont librement téléchargeables depuis le dépôt GitHub.

Unlocking Transitional Chinese: Word Segmentation in Modern Historical Texts

Baptiste Blouin, H.-H. Huang, C. Henriot, C. Armand

NLP4DH 2023, Tokyo, Japan

Cet article traite de la tokenisation TAL du chinois de transition (début du XXe siècle), en s'appuyant sur des articles du journal Shenbao. Après avoir évalué les outils de segmentation existants, un modèle sur mesure a été développé spécifiquement pour les données historiques. Le modèle final atteint plus de 83 % de précision, avec un F-score supérieur de 35 % à celui des outils existants. Les résultats montrent que le chinois de transition est plus proche du chinois ancien que du mandarin contemporain, nécessitant des modèles de langue spécifiquement entraînés sur des données historiques. Le nouveau corpus annoté ouvre la voie à de futures améliorations des performances.

Simulation d'erreurs d'OCR dans les systèmes de TAL pour le traitement de données anachroniques

Baptiste Blouin, B. Favre, J. Auguste

TALN 2022 (JEP-TALN-RECITAL), Avignon, France

L'extraction d'information offre de nouvelles perspectives au sein des recherches historiques. Cependant, la majorité des recherches liées à ce domaine s'effectue sur des données contemporaines. Malgré l'évolution constante des systèmes d'OCR, les textes historiques résultant de ce procédé contiennent toujours de multiples erreurs. Les auteurs quantifient l'impact des erreurs OCR sur trois tâches d'extraction d'information avec des architectures Transformer, et proposent une approche réduisant cet impact de plus de 50% sans nécessiter de ressources historiques spécialisées.

Transferring Modern Named Entity Recognition to the Historical Domain: How to Take the Step?

Baptiste Blouin, B. Favre, J. Auguste, C. Henriot

NLP4DH 2021, Silchar, India

La reconnaissance d'entités nommées présente un grand intérêt pour les humanités numériques, en particulier pour la fouille de documents historiques. Bien que la tâche soit mature en TAL, les résultats des modèles contemporains ne sont pas satisfaisants sur des documents difficiles : genres hors domaine, sorties OCR bruitées ou variantes anciennes de la langue cible. Dans cet article, nous étudions comment les méthodes de transfert de modèles, face à ces défis, peuvent améliorer la NER historique selon l'effort consacré à décrire les données cibles, à annoter manuellement de petites quantités de textes ou à apparier les ressources de pré-entraînement. Nous menons des expériences approfondies avec l'architecture Transformer sur les corpus historiques LitBank et HIPE. Elles montrent qu'annoter 250 phrases permet de récupérer 93 % des performances obtenues avec l'ensemble des données lorsque les modèles sont pré-entraînés, que le choix des données de pré-entraînement auto-supervisé et orienté tâche est crucial en zero-shot, et que les erreurs OCR peuvent être traitées en simulant du bruit sur les données de pré-entraînement et en recourant à des Transformers récents sensibles aux caractères.

Creating Biographical Networks from Chinese and English Wikipedia

Baptiste Blouin, N. van den Bosch, P. Magistry

Journal of Historical Network Research, Vol. 5, No. 1

Avec l'essor des humanités numériques, les historiens explorent de nouvelles façons d'exploiter intellectuellement les sources textuelles grâce aux outils informatiques actuels. Le projet ENP-China emploie des méthodes de traitement automatique du langage pour exploiter les sources à une échelle sans précédent, dans le but d'étudier la transformation des élites de la Chine moderne (1830-1949). Un vaste corpus de 228 144 biographies Wikipédia en chinois et 110 713 en anglais est enrichi de métadonnées recensant chaque personne, organisation, entité géopolitique et lieu mentionnés, reliés entre les langues. Cette structure de données permet d'analyser les relations via des contenus biographiques partagés et de comparer les réseaux selon la langue. Une interface en ligne fondée sur une structure de graphe biparti permet d'interroger et d'explorer le jeu de données.

Contextual Characters with Segmentation Representation for Named Entity Recognition in Chinese

Baptiste Blouin, P. Magistry

PACLIC 34, Hanoi, Vietnam

La reconnaissance d'entités nommées (NER) est une tâche typique d'étiquetage de séquences. Elle reste difficile pour le chinois, en partie à cause de l'absence de frontières typographiques claires entre les mots. Des approches récentes ont montré que les modèles fondés sur les caractères manquent d'informations sur des unités plus larges (les mots) utiles à la NER, tandis que les modèles fondés sur les mots peuvent souffrir d'erreurs de segmentation et d'un taux plus élevé de tokens hors vocabulaire. Dans cet article, nous proposons une nouvelle représentation des sinogrammes (caractères chinois) enrichie d'informations sur les frontières de mots, à partir de laquelle différents types de plongements peuvent être construits. Les expériences montrent que notre solution surpasse les autres modèles de l'état de l'art. Le pipeline entièrement ré-entraînable ne dépend d'aucun modèle pré-entraîné et peut être entraîné en quelques jours sur du matériel courant.

Formation

Doctorat en Informatique (Machine Learning)

Aix-Marseille Université

Thèse : Extraction d'événements à partir de fac-similés de documents anciens pour les études en histoire

Directeur : Prof. Benoit Favre — Subvention ERC Avancée ENP-China (n° 788476)

Master Informatique (IA/ML)

Aix-Marseille Université

Licence Informatique

Aix-Marseille Université

Évaluez l'adéquation avec votre offre

Collez une description de poste ou un lien direct — l'analyse de l'adéquation avec mon profil se fait en quelques secondes.

Veille IA

Résumés sourcés de l'IA / ML, générés automatiquement chaque nuit à partir d'une sélection de flux RSS.

Chargement de la veille…

Contact

N'hésitez pas à me contacter pour discuter d'opportunités, de collaborations ou simplement pour échanger.

Disponible pour de nouvelles opportunités Télécharger mon CV