Li, Bo
Modèles d'information pour la recherche multilingue
- 2013.
53
Nous présentons dans cet article plusieurs extensions multilingues des modèles d’information, en particulier le modèle log-logistique (LL) et le modèle Smoothed Power Law (SPL), récemment introduits en recherche d’information. Ces extensions sont fondées sur (a) une généralisation de la notion d’information utilisée dans ces modèles, (b) une généralisation des variables aléatoires utilisées et (c) une expansion de la requête utilisant l’ensemble des traductions de chaque mot. Nous analysons ensuite ces extensions d’un point de vue théorique, par l’intermédiaire d’une condition que doivent satisfaire les systèmes de recherche d’information multilingue. Les résultats expérimentaux, obtenus sur trois collections et trois couples de langue, sont en accord avec l’analyse théorique et montrent que le modèle LL fournit les meilleurs résultats en recherche d’information multilingue. Nous montrons enfin comment enrichir des dictionnaires bilingues de langue générale et dans quelle mesure cet enrichissement améliore la qualité du système de recherche multilingue. Information-based models for cross-language information retrievalWe present in this paper well-founded cross-language extensions of the recently introduced models in the information-based family for information retrieval, namely the LL (loglogistic) and SPL (smoothed power law) models. These extensions are based on (a) a generalization of the notion of information used in the information-based family, (b) a generalization of the random variables also used in this family, and (c) the direct expansion of query terms with their translations. We then review these extensions from a theoretical point-of-view, prior to assessing them experimentally. We finally show how to enrich existing general, bilingual dictionaries with lexicons extracted from the collection queried, and how this impacts a cross-lingual information retrieval system.