Coüasnon, Bertrand
Accès par le contenu aux documents manuscrits d'archives numérisés
- 2003.
56
RésuméCet article présente l’accès par le contenu aux documents d’archives manuscrits. Cet accès doit s’appuyer sur des informations (annotations) associées aux images de documents. Nous proposons deux manières complémentaires de produire ces annotations: automatiquement en utilisant la reconnaissance de documents, et collectivement sur internet par une saisie manuelle effectuée par les lecteurs eux-mêmes. Une plate-forme de gestion de ces annotations est présentée, ainsi que des exemples d’annotations automatiques sur des registres paroissiaux et d’état civil, des formulaires militaires (registres matricules) et des décrets de naturalisation, en utilisant une méthode générique de reconnaissance de documents. Cette méthode a été validé sur plus de 60 000 pages de documents. Des exemples d’annotations collectives construites sur des annotations automatiques sont donnés. This paper presents handwritten archives document retrieval by content. This retrieval is build on information (annotations) associated to document images. We propose two complementary ways of producing those annotations: automatically by using optical document recognition and collectively by using internet and a manual input by users. A platform for managing those annotations is presented as well as examples of automatic annotations on civil status registers, military forms and naturalization decrees, using a generic document recognition method. This method has been tested on more than 60,000 pages of documents. Examples of collective annotations built on automatic annotations are also given.