Le corpus NLP4NLP pour l’analyse bibliométrique de 50 années de recherches en traitement automatique de la parole et du langage naturel
Mariani, Joseph
Le corpus NLP4NLP pour l’analyse bibliométrique de 50 années de recherches en traitement automatique de la parole et du langage naturel - 2018.
20
Nous avons constitué le corpus NLP4NLP pour étudier le contenu des publications scientifiques dans le domaine du traitement automatique de la parole et du langage naturel. Il contient les articles publiés dans 34 conférences et revues principales du domaine, sur une période de 50 ans (1965-2015), comprenant 65 000 documents, rassemblant 50 000 auteurs, incluant 325 000 références et représentant environ 270 millions de mots. Nous avons conduit différentes études sur ces données : évolution au fil du temps du nombre d’articles et d’auteurs, collaborations entre auteurs, citations entre papiers et entre auteurs, évolution des thèmes de recherche et identification des auteurs qui les ont introduits, détection des innovations et des ruptures épistémologiques, utilisation des ressources linguistiques, réutilisation des articles et plagiat, tout ceci dans le cadre d’une analyse globale ou comparative entre sources. We have created the NLP4NLP corpus to study the content of scientific publications in speech and natural language processing. It contains articles published in 34 major conferences and journals in this field over a period of 50 years (1965-2015), comprising 65,000 documents, gathering 50,000 authors, including 325,000 references and representing approximately 270 million words. We have conducted various studies on this data: evolution over time of the number of articles and authors, collaborations between authors, citations between papers and authors, evolution of research topics and identification of the authors who introduced them, detection of innovations and epistemological ruptures, use of language resources, reuse of articles and plagiarism, all this in the context of a global or comparative analysis between sources.
Le corpus NLP4NLP pour l’analyse bibliométrique de 50 années de recherches en traitement automatique de la parole et du langage naturel - 2018.
20
Nous avons constitué le corpus NLP4NLP pour étudier le contenu des publications scientifiques dans le domaine du traitement automatique de la parole et du langage naturel. Il contient les articles publiés dans 34 conférences et revues principales du domaine, sur une période de 50 ans (1965-2015), comprenant 65 000 documents, rassemblant 50 000 auteurs, incluant 325 000 références et représentant environ 270 millions de mots. Nous avons conduit différentes études sur ces données : évolution au fil du temps du nombre d’articles et d’auteurs, collaborations entre auteurs, citations entre papiers et entre auteurs, évolution des thèmes de recherche et identification des auteurs qui les ont introduits, détection des innovations et des ruptures épistémologiques, utilisation des ressources linguistiques, réutilisation des articles et plagiat, tout ceci dans le cadre d’une analyse globale ou comparative entre sources. We have created the NLP4NLP corpus to study the content of scientific publications in speech and natural language processing. It contains articles published in 34 major conferences and journals in this field over a period of 50 years (1965-2015), comprising 65,000 documents, gathering 50,000 authors, including 325,000 references and representing approximately 270 million words. We have conducted various studies on this data: evolution over time of the number of articles and authors, collaborations between authors, citations between papers and authors, evolution of research topics and identification of the authors who introduced them, detection of innovations and epistemological ruptures, use of language resources, reuse of articles and plagiarism, all this in the context of a global or comparative analysis between sources.
Réseaux sociaux