La bibliothèque de l’abbaye de Saint-Gall en Suisse abrite environ 160 000 volumes de manuscrits littéraires et historiques datant du VIIIe siècle, tous écrits à la main, sur parchemin, dans des langues rarement parlées à l’époque moderne.
Pour préserver ces récits historiques de l’humanité, ces textes, au nombre de millions, ont été conservés en lieu sûr dans les bibliothèques et les monastères du monde entier. Une partie importante de ces collections est accessible au grand public grâce à l’imagerie numérique, mais les experts disent qu’il y a une quantité extraordinaire de documents qui n’ont jamais été lus – un trésor d’informations sur l’histoire du monde qui s’y cache.
À présent, des chercheurs de l’Université de Notre-Dame développent un réseau de neurones artificiels pour lire une écriture manuscrite ancienne complexe basée sur la perception humaine afin d’améliorer les capacités de transcription en apprentissage en profondeur.
« Nous avons affaire à des documents historiques écrits dans des styles qui sont depuis longtemps passés de mode, remontant à plusieurs siècles, et dans des langues comme le latin, qui ne sont plus rarement utilisées », a déclaré Walter Scheirer, professeur agrégé Dennis O. Doughty Collegiate. au Département d’informatique et d’ingénierie de Notre Dame. « Vous pouvez obtenir de belles photos de ces documents, mais ce que nous avons entrepris de faire est d’automatiser la transcription d’une manière qui imite la perception de la page à travers les yeux du lecteur expert et offre une lecture rapide et consultable du texte. «
Dans une recherche publiée dans la revue Institute of Electrical and Electronics Engineers Transactions sur Pattern Analysis et Machine Intelligence, Scheirer explique comment son équipe a combiné les méthodes traditionnelles d’apprentissage automatique avec la psychophysique visuelle – une méthode de mesure des liens entre les stimuli physiques et les phénomènes mentaux, comme le temps qu’il faut à un lecteur expert pour reconnaître un caractère spécifique, évaluer le qualité de l’écriture ou identifier l’utilisation de certaines abréviations.
L’équipe de Scheirer a étudié des manuscrits latins numérisés qui ont été écrits par des scribes du cloître de Saint-Gall au IXe siècle. Les lecteurs ont saisi leurs transcriptions manuelles dans une interface logicielle spécialement conçue. L’équipe a ensuite mesuré les temps de réaction pendant la transcription pour comprendre quels mots, caractères et passages étaient faciles ou difficiles. Scheirer a expliqué que l’inclusion de ce type de données créait un réseau plus cohérent avec le comportement humain, réduisait les erreurs et fournissait une lecture plus précise et plus réaliste du texte.
« C’est une stratégie qui n’est généralement pas utilisée dans l’apprentissage automatique », a déclaré Scheirer. « Nous étiquetons les données grâce à ces mesures psychophysiques, qui proviennent directement d’études psychologiques de la perception – en prenant des mesures comportementales. Nous informons ensuite le réseau des difficultés courantes dans la perception de ces personnages et pouvons apporter des corrections en fonction de ces mesures. «
L’utilisation de l’apprentissage en profondeur pour transcrire des textes anciens est quelque chose d’un grand intérêt pour les chercheurs en sciences humaines.
« Il y a une différence entre simplement prendre les photos et les lire, et avoir un programme pour fournir une lecture consultable », a déclaré Hildegund Müller, professeur agrégé au département des lettres classiques de Notre-Dame. « Si vous considérez les textes utilisés dans cette étude – les manuscrits du IXe siècle – c’est un stade précoce du Moyen Âge. C’est bien avant l’imprimerie. C’est une époque où une énorme quantité de manuscrits a été produite. Il y a toutes sortes d’informations cachées dans ces manuscrits – des textes non identifiés que personne n’a vus auparavant. »
Scheirer a déclaré que des défis subsistent. Son équipe travaille à l’amélioration de la précision des transcriptions, notamment dans le cas de documents endommagés ou incomplets, ainsi qu’à la prise en compte des illustrations ou d’autres aspects d’une page qui pourraient être source de confusion pour le réseau.
Cependant, l’équipe a pu ajuster le programme pour transcrire des textes éthiopiens, en l’adaptant à une langue avec un ensemble de caractères complètement différent – une première étape vers le développement d’un programme capable de transcrire et de traduire des informations pour les utilisateurs.
« Dans le domaine littéraire, cela pourrait être très utile. Chaque bonne œuvre littéraire est entourée d’une grande quantité de documents historiques, mais là où elle va vraiment être utile, c’est dans la recherche d’archives historiques », a déclaré Müller. « Il y a un grand besoin de faire avancer les humanités numériques. Quand vous parlez du Moyen Âge et du début des temps modernes, si vous voulez comprendre les détails et les conséquences des événements historiques, vous devez parcourir les documents écrits, et ces textes sont la seule chose que nous ayons. Le problème est peut-être encore plus grand en dehors du monde occidental. Pensez aux langues qui disparaissent dans des cultures menacées. Il faut d’abord préserver ces œuvres, les rendre accessibles et, à un moment donné, intégrer des traductions pour en faire une partie des processus culturels qui sont toujours en cours – et nous courons contre la montre. »
Source de l’histoire :
Matériaux fourni par Université de Notre-Dame. Original écrit par Jessica Sieff. Remarque : Le contenu peut être modifié pour le style et la longueur.
.