Image de Google Jackets
Vue normale Vue MARC vue ISBD

Corpus pour la TA : types, tailles et problèmes associés, selon leur usage et le type de système

Par : Type de matériel : TexteTexteLangue : français Détails de publication : 2007. Sujet(s) : Ressources en ligne : Abrégé : RésuméLes corpus utilisés en TA de l’écrit et de l’oral ont évolué, depuis les suites de test et les corpus d’essai des débuts, vers des corpus parallèles bilingues ou multilingues, bruts ou enrichis par des métadonnées et une grande variété d’annotations linguistiques. Ils sont assez petits et peuvent avoir une « granularité » importante en TA « experte », classique, mais sont énormes et de granularité faible en TA « empirique »,, statistique ou fondée sur les exemples. La représentation des textes et l’interface avec le traitement de la parole posent des problèmes spécifiques, ainsi que la segmentation et la structuration des segments et des corpus. Un défi actuel est d’unifier et de mutualiser leur construction et leur gestion.Abrégé : Corpora used in MT (Machine Translation) of text and speech have evolved, from the early test suites and test corpora, to parallel bilingual and multilingual corpora, raw or enriched by metadata and a large variety of linguistic annotations. They are relatively small and can have a bug "granularity" in "expert" or classical MT, while they are very large and of small granularity in "empirical" MT, be it statistical or example-based. The representation of the texts and of the interface with speech processing poses specific problems, as well as the segmentation and the structuration of segments and corpora. A current challenge is to unify and "wikify" their construction and management.
Tags de cette bibliothèque : Pas de tags pour ce titre. Connectez-vous pour ajouter des tags.
Evaluations
    Classement moyen : 0.0 (0 votes)
Nous n'avons pas d'exemplaire de ce document

44

RésuméLes corpus utilisés en TA de l’écrit et de l’oral ont évolué, depuis les suites de test et les corpus d’essai des débuts, vers des corpus parallèles bilingues ou multilingues, bruts ou enrichis par des métadonnées et une grande variété d’annotations linguistiques. Ils sont assez petits et peuvent avoir une « granularité » importante en TA « experte », classique, mais sont énormes et de granularité faible en TA « empirique »,, statistique ou fondée sur les exemples. La représentation des textes et l’interface avec le traitement de la parole posent des problèmes spécifiques, ainsi que la segmentation et la structuration des segments et des corpus. Un défi actuel est d’unifier et de mutualiser leur construction et leur gestion.

Corpora used in MT (Machine Translation) of text and speech have evolved, from the early test suites and test corpora, to parallel bilingual and multilingual corpora, raw or enriched by metadata and a large variety of linguistic annotations. They are relatively small and can have a bug "granularity" in "expert" or classical MT, while they are very large and of small granularity in "empirical" MT, be it statistical or example-based. The representation of the texts and of the interface with speech processing poses specific problems, as well as the segmentation and the structuration of segments and corpora. A current challenge is to unify and "wikify" their construction and management.

PLUDOC

PLUDOC est la plateforme unique et centralisée de gestion des bibliothèques physiques et numériques de Guinée administré par le CEDUST. Elle est la plus grande base de données de ressources documentaires pour les Étudiants, Enseignants chercheurs et Chercheurs de Guinée.

Adresse

627 919 101/664 919 101

25 boulevard du commerce
Kaloum, Conakry, Guinée

Réseaux sociaux

Powered by Netsen Group @ 2025