Catégorisation de textes en domaines et genres
Type de matériel :
10
RésuméCet article traite du choix de descripteurs linguistiques appropriés pour caractériser et classifier les textes. On considère généralement que les domaines sont corrélés au niveau du contenu (mots, termes, etc.) tandis que les genres sont discriminés au niveau morphosyntaxique. Malgré les bons résultats obtenus par ces choix méthodologiques, peu de travaux ont cherché à mesurer l’impact et la complémentarité des deux niveaux de description pour la classification. Cette étude vise ainsi à évaluer l’intérêt discriminant des descripteurs morphosyntaxiques et thématiques pour classer les genres et les domaines. Des résultats encourageants sont obtenus sur un corpus pilote de textes scientifiques français.
This paper deals with the selection of appropriate descriptors to characterize and classify texts. In most classification tasks, domains are generally correlated to the content level (words, terms, bags of words, etc.) and genres to the morphosyntactic one. However, few studies have assessed the impact and the complementarity of the two description levels on classification. The present study aims at evaluating the discriminant interest of the lexical and morphosyntactic linguistic levels in the field of genre and domain classification. Encouraging results are obtained on a French scientific corpus, which has been built in that perspective.
Réseaux sociaux