Corpus pour la TA : types, tailles et problèmes associés, selon leur usage et le type de système
Type de matériel :
44
RésuméLes corpus utilisés en TA de l’écrit et de l’oral ont évolué, depuis les suites de test et les corpus d’essai des débuts, vers des corpus parallèles bilingues ou multilingues, bruts ou enrichis par des métadonnées et une grande variété d’annotations linguistiques. Ils sont assez petits et peuvent avoir une « granularité » importante en TA « experte », classique, mais sont énormes et de granularité faible en TA « empirique »,, statistique ou fondée sur les exemples. La représentation des textes et l’interface avec le traitement de la parole posent des problèmes spécifiques, ainsi que la segmentation et la structuration des segments et des corpus. Un défi actuel est d’unifier et de mutualiser leur construction et leur gestion.
Corpora used in MT (Machine Translation) of text and speech have evolved, from the early test suites and test corpora, to parallel bilingual and multilingual corpora, raw or enriched by metadata and a large variety of linguistic annotations. They are relatively small and can have a bug "granularity" in "expert" or classical MT, while they are very large and of small granularity in "empirical" MT, be it statistical or example-based. The representation of the texts and of the interface with speech processing poses specific problems, as well as the segmentation and the structuration of segments and corpora. A current challenge is to unify and "wikify" their construction and management.
Réseaux sociaux