Publications — Baptiste Blouin | NER, NLP, Textes Historiques Chinois

2024

HistText: An Application for Leveraging Large-Scale Historical Textbases

Baptiste Blouin, C. Armand, C. Henriot

JDMDH 2024 — Journal of Data Mining & Digital Humanities

Cet article présente HistText, un outil pionnier conçu pour faciliter la fouille de données à grande échelle dans les documents historiques, en ciblant spécifiquement les sources chinoises. Développé en réponse aux défis posés par l'immense base textuelle Modern China, HistText permet d'extraire et de visualiser efficacement des informations précieuses à partir de milliards de mots répartis sur des millions de documents. Avec une interface conviviale, des techniques avancées d'analyse de texte et de puissantes capacités de visualisation, HistText offre une plateforme robuste pour la recherche en humanités numériques. Disponible sur histtext.enpchina.eu.

Paper · HAL · GitHub

2024

A Dataset for Named Entity Recognition and Entity Linking in Chinese Historical Newspapers

Baptiste Blouin, C. Armand, C. Henriot

LREC-COLING 2024, Torino, Italy

Dans cette étude, nous présentons un nouveau corpus chinois historique pour la reconnaissance d'entités nommées, le liage d'entités, la coréférence et les relations entre entités. Nous utilisons des données issues de journaux chinois de 1872 à 1949 ainsi que des ressources bibliographiques multilingues de la même période. La période et la langue constituent la principale force de ce travail, offrant une ressource qui couvre différents styles et usages de la langue, et le plus grand corpus chinois historique annoté manuellement pour la NER sur cette période de transition. Après avoir détaillé le processus de sélection et d'annotation, nous présentons les tout premiers résultats que l'on peut obtenir à partir de ce corpus. Textes et annotations sont librement téléchargeables depuis le dépôt GitHub.

ACL Anthology

2023

Unlocking Transitional Chinese: Word Segmentation in Modern Historical Texts

Baptiste Blouin, H.-H. Huang, C. Henriot, C. Armand

NLP4DH 2023, Tokyo, Japan

Cet article traite de la tokenisation TAL du chinois de transition (début du XXe siècle), en s'appuyant sur des articles du journal Shenbao. Après avoir évalué les outils de segmentation existants, un modèle sur mesure a été développé spécifiquement pour les données historiques. Le modèle final atteint plus de 83 % de précision, avec un F-score supérieur de 35 % à celui des outils existants. Les résultats montrent que le chinois de transition est plus proche du chinois ancien que du mandarin contemporain, nécessitant des modèles de langue spécifiquement entraînés sur des données historiques. Le nouveau corpus annoté ouvre la voie à de futures améliorations des performances.

ACL Anthology

2022

Simulation d'erreurs d'OCR dans les systèmes de TAL pour le traitement de données anachroniques

Baptiste Blouin, B. Favre, J. Auguste

TALN 2022 (JEP-TALN-RECITAL), Avignon, France

L'extraction d'information offre de nouvelles perspectives au sein des recherches historiques. Cependant, la majorité des recherches liées à ce domaine s'effectue sur des données contemporaines. Malgré l'évolution constante des systèmes d'OCR, les textes historiques résultant de ce procédé contiennent toujours de multiples erreurs. Les auteurs quantifient l'impact des erreurs OCR sur trois tâches d'extraction d'information avec des architectures Transformer, et proposent une approche réduisant cet impact de plus de 50% sans nécessiter de ressources historiques spécialisées.

ACL Anthology

2021

Transferring Modern Named Entity Recognition to the Historical Domain: How to Take the Step?

Baptiste Blouin, B. Favre, J. Auguste, C. Henriot

NLP4DH 2021, Silchar, India

La reconnaissance d'entités nommées présente un grand intérêt pour les humanités numériques, en particulier pour la fouille de documents historiques. Bien que la tâche soit mature en TAL, les résultats des modèles contemporains ne sont pas satisfaisants sur des documents difficiles : genres hors domaine, sorties OCR bruitées ou variantes anciennes de la langue cible. Dans cet article, nous étudions comment les méthodes de transfert de modèles, face à ces défis, peuvent améliorer la NER historique selon l'effort consacré à décrire les données cibles, à annoter manuellement de petites quantités de textes ou à apparier les ressources de pré-entraînement. Nous menons des expériences approfondies avec l'architecture Transformer sur les corpus historiques LitBank et HIPE. Elles montrent qu'annoter 250 phrases permet de récupérer 93 % des performances obtenues avec l'ensemble des données lorsque les modèles sont pré-entraînés, que le choix des données de pré-entraînement auto-supervisé et orienté tâche est crucial en zero-shot, et que les erreurs OCR peuvent être traitées en simulant du bruit sur les données de pré-entraînement et en recourant à des Transformers récents sensibles aux caractères.

ACL Anthology

2021

Creating Biographical Networks from Chinese and English Wikipedia

Baptiste Blouin, N. van den Bosch, P. Magistry

Journal of Historical Network Research, Vol. 5, No. 1

Avec l'essor des humanités numériques, les historiens explorent de nouvelles façons d'exploiter intellectuellement les sources textuelles grâce aux outils informatiques actuels. Le projet ENP-China emploie des méthodes de traitement automatique du langage pour exploiter les sources à une échelle sans précédent, dans le but d'étudier la transformation des élites de la Chine moderne (1830-1949). Un vaste corpus de 228 144 biographies Wikipédia en chinois et 110 713 en anglais est enrichi de métadonnées recensant chaque personne, organisation, entité géopolitique et lieu mentionnés, reliés entre les langues. Cette structure de données permet d'analyser les relations via des contenus biographiques partagés et de comparer les réseaux selon la langue. Une interface en ligne fondée sur une structure de graphe biparti permet d'interroger et d'explorer le jeu de données.

JHNR · HAL

2020

Contextual Characters with Segmentation Representation for Named Entity Recognition in Chinese

Baptiste Blouin, P. Magistry

PACLIC 34, Hanoi, Vietnam

La reconnaissance d'entités nommées (NER) est une tâche typique d'étiquetage de séquences. Elle reste difficile pour le chinois, en partie à cause de l'absence de frontières typographiques claires entre les mots. Des approches récentes ont montré que les modèles fondés sur les caractères manquent d'informations sur des unités plus larges (les mots) utiles à la NER, tandis que les modèles fondés sur les mots peuvent souffrir d'erreurs de segmentation et d'un taux plus élevé de tokens hors vocabulaire. Dans cet article, nous proposons une nouvelle représentation des sinogrammes (caractères chinois) enrichie d'informations sur les frontières de mots, à partir de laquelle différents types de plongements peuvent être construits. Les expériences montrent que notre solution surpasse les autres modèles de l'état de l'art. Le pipeline entièrement ré-entraînable ne dépend d'aucun modèle pré-entraîné et peut être entraîné en quelques jours sur du matériel courant.

ACL Anthology