Méthodologie d’harmonisation et de traitement des données orales du CÉFC

Benzitoun, Christophe

Méthodologie d’harmonisation et de traitement des données orales du CÉFC - 2020.


52

Le céfc comprend des données de plusieurs sources différentes, ce qui permet d’observer au moins en partie la diversité du français. La résolution des problèmes inhérents à l’hétérogénéité de ces données est donc intrinsèque à la constitution de cette ressource et motivée par son objectif. Cet article décrira, étape par étape, l’approche méthodologique qui a permis de construire une ressource orale homogène en mutualisant différentes sources afin de procéder à des annotations automatiques cohérentes et de faciliter les analyses d’un corpus oral de plusieurs millions de mots. The céfc corpus includes data from several different sources to make observable the diversity of oral French at least partly, solving the problems inherent to the heterogeneity of these data is intrinsic to the constitution of this resource and motivated by its objective. This article will describe, step by step, the methodological approach that enables us to build a homogeneous resource by pooling these different sources in order to provide coherent automatic annotations and to facilitate the analysis of an oral corpus of several million words.

PLUDOC

PLUDOC est la plateforme unique et centralisée de gestion des bibliothèques physiques et numériques de Guinée administré par le CEDUST. Elle est la plus grande base de données de ressources documentaires pour les Étudiants, Enseignants chercheurs et Chercheurs de Guinée.

Adresse

627 919 101/664 919 101

25 boulevard du commerce
Kaloum, Conakry, Guinée

Réseaux sociaux

Powered by Netsen Group @ 2025