Projets — Baptiste Blouin | SaaS IA, RAG, NLP, Rust, Python

2025 –

Plateforme Data & IA SaaS

Projet personnel — En production

Plateforme SaaS d'analyse de données par IA, multi-tenant et en production, conçue et développée seule de A à Z (backend, frontend, infrastructure). Pipeline RAG hybride (pgvector + recherche full-text, GraphRAG, RAPTOR, reranking cross-encoder), moteur text-to-SQL avec streaming SSE, extraction documentaire multi-format (PDF, DOCX, images via OCR/VLM) et 15+ connecteurs async (PostgreSQL, MySQL, MSSQL, MongoDB, S3, APIs SaaS OAuth2, scraping). Maîtrise des coûts LLM : routing multi-provider (litellm), caching et suivi des coûts (Langfuse). Sécurité LLM de bout en bout : isolation multi-tenant stricte, validation AST du SQL généré, sandboxing du code, RBAC, JWT RS256, SSO, 2FA, chiffrement Fernet, conformité RGPD, audit logging. Observabilité OpenTelemetry/Prometheus, orchestration Celery, prédictions AutoML, billing Stripe.

RAG hybridetext-to-SQLGraphRAGRAPTORMaîtrise des coûts LLMSécurité LLMObservabilitémulti-tenantFastAPIReactTypeScriptpgvectorlitellmLangfuseCeleryDockerStripe

Démo live En production

2023 – 2025

HistText

Plateforme d'Analyse de Textes à Grande Échelle

Plateforme full-stack pour l'analyse de textes historiques chinois à grande échelle (milliards de tokens). Backend Rust haute performance, API REST, interface React avec visualisations interactives (graphes réseau, chronologies), moteur de recherche full-text Apache Solr, pipeline NER multilingue, et package client R (histtext) publié sur CRAN. Déployée pour la communauté internationale de recherche en histoire numérique dans le cadre du projet ENP-China (subvention ERC Avancée).

RustReactPythonRPostgreSQLApache SolrDockerNER

Démo live GitHub JDMDH 2024

2020 –

EventExtractionPapers

Ressource communautaire Open Source

Sélection maintenue de ressources NLP dédiées à l'extraction d'événements : papiers, datasets, modèles et code. Référence largement utilisée par la communauté de recherche NLP internationale, avec 580+ étoiles GitHub. Maintenu activement depuis 2020.

NLPEvent ExtractionOpen Source

GitHub 580+ stars

2024

ENP-Corpus Creator

Pipeline OCR & Annotation

Suite d'outils transformant des images numérisées de journaux historiques en corpus sémantiquement enrichis. Pipeline complet : OCR via Google Cloud Vision, interface d'annotation web interactive avec raccourcis clavier, export aux formats standards (CoNLL, JSON). Conçu pour des documents multilingues complexes (chinois, anglais, français).

PythonGoogle Vision APIWebOCR

Article

2023 – 2024

Dataset NER Chinois & Pipeline ML

Ingénierie de Données & ML

Le plus grand dataset NER annoté de textes chinois historiques (1872–1949), couvrant personnes, lieux et organisations dans les journaux de Shanghai. Pipeline de contrôle qualité automatisé, benchmarks reproductibles avec modèles BERT fine-tunés, et données librement disponibles pour la communauté.

PythonPostgreSQLAnnotationML PipelineBERT

LREC-COLING 2024

2023

Modèle de Langue & Tokenisation Chinoise

Développement de Modèles ML

Fine-tuning de modèles de segmentation pour le chinois transitionnel, en collaboration avec Academia Sinica. Atteint 83% de précision (+35% d'amélioration par rapport aux baselines), en explorant différentes stratégies d'adaptation de domaine pour une variété linguistique peu documentée.

PyTorchTensorFlowTokenisationFine-tuning

NLP4DH 2023

2022

Simulation OCR & Robustesse ML

Recherche Expérimentale

Framework d'augmentation de données simulant les artefacts OCR (substitutions, suppressions, insertions de caractères) observés dans les documents historiques numérisés. Réduit l'impact des erreurs OCR de 50% sur les tâches NER et de classification, avec un benchmark standardisé pour évaluer la robustesse des modèles.

PyTorchTransformersData Augmentation

TALN 2022

2021

Transfer Learning & Adaptation au Domaine Historique

Développement & Optimisation ML

Étude des stratégies de transfert d'apprentissage pour la NER sur textes historiques chinois avec données annotées limitées. Approche few-shot atteignant 93% de récupération des performances d'un modèle supervisé complet, en explorant des architectures character-aware et des techniques de fine-tuning adaptatif.

BERTTransformersFew-shotAdaptation

NLP4DH 2021