000 02514cam a2200289 4500500
005 20260208005150.0
041 _afre
042 _adc
100 1 0 _aBoitet, Christian
_eauthor
245 0 0 _aCorpus pour la TA : types, tailles et problèmes associés, selon leur usage et le type de système
260 _c2007.
500 _a25
520 _aRésuméLes corpus utilisés en TA de l’écrit et de l’oral ont évolué, depuis les suites de test et les corpus d’essai des débuts, vers des corpus parallèles bilingues ou multilingues, bruts ou enrichis par des métadonnées et une grande variété d’annotations linguistiques. Ils sont assez petits et peuvent avoir une « granularité » importante en TA « experte », classique, mais sont énormes et de granularité faible en TA « empirique »,, statistique ou fondée sur les exemples. La représentation des textes et l’interface avec le traitement de la parole posent des problèmes spécifiques, ainsi que la segmentation et la structuration des segments et des corpus. Un défi actuel est d’unifier et de mutualiser leur construction et leur gestion.
520 _aCorpora used in MT (Machine Translation) of text and speech have evolved, from the early test suites and test corpora, to parallel bilingual and multilingual corpora, raw or enriched by metadata and a large variety of linguistic annotations. They are relatively small and can have a bug "granularity" in "expert" or classical MT, while they are very large and of small granularity in "empirical" MT, be it statistical or example-based. The representation of the texts and of the interface with speech processing poses specific problems, as well as the segmentation and the structuration of segments and corpora. A current challenge is to unify and "wikify" their construction and management.
690 _acorpus parallèles
690 _acorrespondances entre segments
690 _areprésentations intermédiaires
690 _atraduction automatique (TA)
690 _atranscriptions et prétraitements
690 _acorrespondences between segments
690 _aintermediate representations
690 _amachine translation
690 _aparallel corpora
690 _atranscriptions and preprocessings
786 0 _nRevue française de linguistique appliquée | XII | 1 | 2007-03-01 | p. 25-38 | 1386-1204
856 4 1 _uhttps://shs.cairn.info/revue-francaise-de-linguistique-appliquee-2007-1-page-25?lang=fr&redirect-ssocas=7080
999 _c1650847
_d1650847