000 02208cam a2200253 4500500
005 20250119074939.0
041 _afre
042 _adc
100 1 0 _aFuselier, Jérôme
_eauthor
700 1 0 _a Chidlovskii, Boris
_eauthor
245 0 0 _aTraitements automatiques pour la migration de documents numériques vers XML
260 _c2006.
500 _a7
520 _aRésuméDe plus en plus de sociétés migrent leur système de gestion de fonds documentaires vers le formalisme XML, le standard industriel pour l’échange de données. Afin de réduire les coûts de la migration, nous proposons une approche pour réaliser des conversions de documents orientés présentation vers des documents sémantiques. L’intérêt de notre méthode consiste à automatiser le processus de conversion en utilisant des techniques d’apprentissage supervisé pour apprendre un modèle de conversion pour une collection de documents. Nous décomposons la conversion en deux étapes pour simplifier le problème, une première étape d’annotation sémantique et une seconde étape de structuration sémantique du document qui respecte le schéma XML décrivant la classe des documents finaux.
520 _aMore and more companies are migrating their legacy document management systems toward XML formalism which is the industrial standard for data exchange. In order to reduce the migration cost we propose an approach aimed at automating the conversion of layout-oriented documents to semantic-oriented annotations. The conversion module uses supervised machine learning techniques to learn a conversion model for a collection of documents. The conversion is achieved through a semantic annotation of the document content and structuring the annotations, accordingly to a XML schema that specify the class of target documents.
690 _aXML
690 _aapprentissage supervisé
690 _aextraction d'informations
690 _ainformation extraction
690 _amachine learning
690 _aXML
786 0 _nDocument numérique | 9 | 1 | 2006-03-01 | p. 9-24 | 1279-5127
856 4 1 _uhttps://shs.cairn.info/revue-document-numerique-2006-1-page-9?lang=fr&redirect-ssocas=7080
999 _c402071
_d402071