We are searching data for your request:
Upon completion, a link will appear to access the found materials.
Intelligence Artificielle (IA) et Machine Learning (ML) au service des historiens, ainsi que des algorithmes qui localisent des documents d'un grand intérêt pour l'histoire de l'Espagne. Derrière c'est Projet Carabela, un projet développé au cours des deux dernières années par des chercheurs de l'Université polytechnique de Valence (UPV) et du Centre d'archéologie sous-marine de l'Institut andalou du patrimoine historique.
Dans ce cadre, ils ont développé et appliqué nouvelles techniques AI / ML qui permettent d'accéder au contenu de plus de 130 000 images des Archives générales des Indes et des Archives historiques provinciales de Cadix. Le projet a reçu le soutien du programme d'aide aux équipes de recherche scientifique de la Fondation BBVA dans le domaine des humanités numériques.
«Avec ces techniques, nous pouvons suivre n'importe quel document graphique avec la même vitesse qu'un moteur de recherche Web, en identifiant des mots spécifiques, des combinaisons de mots, des phrases, etc. Tout cela grâce à des modèles statistiques que nous avons formés à partir d'exemples et qui sont aujourd'hui les grands alliés pour l'étude de ces collections dans l'histoire de l'Espagne. Et les mêmes méthodes peuvent également s'appliquer à de nombreux autres documents historiques », souligne Enrique Vidal, chercheur au centre PRHLT (Pattern Recognition and Human Language Technologies) de l'UPV.
Archives générales des Indes
Les fonds des Archives générales des Indes Ils présentent un intérêt exceptionnel pour l'étude de l'histoire de l'Espagne en Amérique - du sud des États-Unis à la Terre de Feu - et aux Philippines du XVe au XIXe siècle.
Il s'agit de manuscrits liés aux voyages et au commerce navals espagnols, dont l'analyse ne peut se faire avec les techniques traditionnelles de transcription OCR - puisqu'elles sont destinées au texte imprimé - ni avec des techniques spécifiques pour les matériaux manuscrits, car les résultats qu'elles offrent lorsqu'elles sont appliquées à ces textes historiques sont trop imprécises.
«Carabela nous a permis d'aller plus loin, avec des techniques d'apprentissage automatique qui permettent d'indexer des images de texte manuscrit dans de grandes collections de documents historiques dont l'état de conservation et les styles d'écriture alambiqués rendent presque impossible pour les humains la lecture de leurs documents», explique Joan Andreu Sánchez, également chercheur au PRHLT-UPV.
Ces techniques permettent d'identifier et de discerner les différents types de lettres utilisées dans chacune des périodes où les documents sont datés et analysent même des images de très mauvaise qualité.
La clé est dans le capacité de ses algorithmes pour obtenir des modèles qui sont «appris» automatiquement à partir d'exemples.
«De tels modèles nécessitent une quantité relativement faible de données d'apprentissage pour obtenir des résultats très satisfaisants. Ces méthodes nous permettent de répondre de manière satisfaisante aux défis que posent les documents eux-mêmes, tels que les différences d'orthographe, de bavures ou de qualité d'image », ajoute Vidal.
Dans ce cas, l'apprentissage a été fait avec environ 500 pages de l'Archivo de Indias, qui ont été sélectionnés et transcrits par Carlos Alonso et son équipe de spécialistes du Centre d'archéologie sous-marine.
Épaves et Australie
Caravel a mis en lumière informations manuscrites sur les épaves qui constituent un patrimoine archéologique de première ampleur, en raison de la grande richesse historique et culturelle de son contenu. «Carabela contribue ainsi également à éviter le pillage du patrimoine immergé», explique Joan Andreu Sánchez.
Mais, sans aucun doute, l’une des découvertes les plus surprenantes de ces fonds s’est produite lorsque, à la recherche de termes liés à l’Australie, tels que «Incognita Southern Land», un lettre du début du XVIIIe siècle adressée au roi Felipe V.
«Dans cette lettre, écrite par le jésuite Andrés Serrano, nous avons découvert des références très précises au continent sud datant de 1705, bien avant que le capitaine James Cook n'atteigne ses côtes en 1770. Des données peu connues sur l'histoire de l'Australie et que nous découvrons aujourd'hui en appliquant les techniques d'indexation et de recherche probabiliste développées dans notre centre », explique Enrique Vidal.
LIRE, l'âge d'or et Transkribus
Dans cette même ligne de travail, l'équipe PRHLT a participé au projet européen READ, qui a étudié et analysé documents de l'âge d'or de la littérature espagnole, entre eux Manuscrits de Lope de Vega de la collection de la Bibliothèque nationale et correspondance des Frères Grimm des Archives d'État de Marburg.
Également des Archives nationales de Finlande, dont environ 150 000 pages ont été indexées, et dans les projets futurs, il a l'intention d'indexer environ 1 million de pages.
En outre, Dans le cadre du projet, Transkribus a été développé, une plate-forme logicielle qui permet d'annoter des images d'anciens documents de grande valeur historiographique.
Transkribus est principalement utilisé comme outil de génération de données de formationcar les techniques de reconnaissance de texte manuscrit nécessitent que les données apprennent automatiquement. Dans un proche avenir, il intégrera d'autres fonctionnalités, telles que la formation automatique de modèles pour d'autres langues.
READ s'est également conclue par la création d'une coopérative européenne dont l'UPV est membre fondateur et qui met le logiciel Transkribus à la disposition de tous les utilisateurs enregistrés.
Actuellement, le Plateforme Transkribus Il compte plus de 30 000 utilisateurs du monde entier, ce qui en fait un outil de référence international pour tous les historiens.