Bouvier, Vincent
Modèles de langue adaptatifs et métacritères pour le filtrage de documents et le suivi temporel d’entités
- 2015.
89
Cet article s’intéresse à une problématique de filtrage ciblé de documents. En plus de détecter et de désambiguïser les entités dans un flux de documents, notre approche ambitionne de sélectionner seulement les documents qui présentent des informations nouvelles concernant les entités cibles. Nous proposons une nouvelle approche faiblement supervisée à base de combinaison de modèles de langue dynamiques et temporels (time-aware) qui permettent de suivre l’évolution des entités. Nous mettons en place des métacritères qui permettent la désambiguïsation d’entité dans un document, une estimation de la nouveauté et par delà l’intérêt de conserver ou non les documents selon une approche de classification par forêts aléatoires. Nous montrons sur les données de la tâche KBA (Knowledge Base Acceleration) de TREC que nos stratégies aboutissent à des performances meilleures que l’état de l’art. Tracking entity evolution by means of time-aware language models and metacriteriaThis article addresses an issue on entity driven filtering task. While detecting and disambiguating entities within documents, our approach strives to select documents of interest according to their centrality to some given named entities. We focus on selecting documents that bring novelty or relate an important event about an entity. We enhance entity profiles so that temporal aspects can be considered by means of new time-aware language models. We designed meta-criteria aimed to help disambiguating an entity within a document and detect novelty/interestingness. Using meta-criteria makes our approach entity independent. We test our approach on the Knowledge Base Acceleration framework provided for the Text REtrieval Conference (TREC). Our strategies outperform best systems presented on this framework.