Sentiment classification on arabic corpora
Type de matériel :
50
Le développement des médias sociaux (tels que les forums web en ligne et les sites de réseaux sociaux) a provoqué l’intérêt de fouiller et d’analyser les opinions disponibles sur le web. Ainsi, l’opinion en ligne est devenue l’objet d’étude dans plusieurs domaines de recherche ; en l’occurrence le domaine dit « Opinion Mining and Sentiment Analysis ». Plusieurs travaux intéressants et avancés ont été menés dans peu de langues (notamment l’anglais). Les langues dites riches morphologiquement, comme l’arabe, ont développé très peu d’études. Le présent papier détaille l’étude que nous avons menée dans le but d’investiguer la classification supervisée de sentiment dans un contexte arabe. Nous avons utilisé deux corpus arabes différents à plusieurs niveaux. Nous avons utilisé trois classificateurs standard et connus pour leur efficacité, à savoir Naïve Bayes, Support Vector Machines et k-Nearest Neighbor. Nous investiguons un ensemble de settings pour identifier ceux permettant de donner les meilleurs résultats. Les settings ainsi étudiés concernent le type de racination, le seuillage de fréquence des termes, la pondération des termes et les n-grammes mots. Nous montrons que Naïve Bayes et Support Vector Machines sont efficaces et compétitifs. Néanmoins, la performance de k-Nearest Neighbor dépend du corpus. Nous recommandons, à travers cette étude, d’utiliser la pseudo-racination plutôt que la racination, de supprimer les termes apparaissant une seule fois, de combiner les unigrammes avec les bigrammes mots et d’utiliser une pondération à base de présence plutôt qu’une pondération à base de fréquence. Les résultats de notre étude montrent également que la performance de classification peut être influencée par la longueur et l’homogénéité des documents ainsi que par la nature des auteurs des documents. Par contre, la taille des corpus n’a pas d’impact sur les résultats de classification.
The rise of social media (such as online web forums and social networking sites) has attracted interests to mining and analyzing opinions available on the web. The online opinion has become the object of studies in many research areas; especially that called “Opinion Mining and Sentiment Analysis”. Several interesting and advanced works were performed on few languages (in particular English). However, there were very few studies on Morphologically Rich Languages such as Arabic. This paper presents the study we have carried out to investigate supervised sentiment classification in an Arabic context. We use two Arabic Corpora which are different in many aspects. We use three common classifiers known by their effectiveness, namely Naïve Bayes, Support Vector Machines and k-Nearest Neighbor. We investigate some settings to identify those that allow achieving the best results. These settings are about stemming type, term frequency thresholding, term weighting and ngram words. We show that Naïve Bayes and Support Vector Machines are competitively effective; however k-Nearest Neighbor’s effectiveness depends on the corpus. Through this study, we recommend to use light-stemming rather than stemming, to remove terms that occur once, to combine unigram and bigram words and to use presence-based weighting rather than frequency-based one. Our results show also that classification performance can be influenced by documents length, documents homogeneity and the nature of document authors. However, the size of data sets does not have an impact on classification results.
Réseaux sociaux