000 02852cam a2200361 4500500
005 20250118083255.0
041 _afre
042 _adc
100 1 0 _aPopovici, Eugen
_eauthor
700 1 0 _a Ménier, Gildas
_eauthor
700 1 0 _a Marteau, Pierre-François
_eauthor
245 0 0 _aInterprétation vague des contraintes structurelles pour la RI dans des corpus de documents XML
260 _c2007.
500 _a32
520 _aRésuméNous proposons des algorithmes dédiés à l’indexation et à la recherche approximative d’information dans les bases de données hétérogènes semi-structurées XML. Le modèle d’indexation proposé est adapté à la recherche de contenu textuel dans les contextes XML définis par les structures d’arbres. Les mécanismes de recherche approchée mis en œuvre s’appuient sur une distance de Levenshtein modifiée et des heuristiques de fusion d’information. Une implémentation exploitant simultanément l’information structurée, i.e. l’arborescence des éléments XML, et le contenu des documents indexés est décrite. Les performances obtenues dans le cadre de la campagne d’évaluation INEX 2005 sont présentées et analysées. Celles-ci positionnent l’approche proposée parmi les meilleurs systèmes évalués, sur la tâche de recherche approximative de contenu en contexte structurel vague.
520 _aWe propose specific data structures designed to the indexing and retrieval of information elements in heterogeneous XML data bases. The indexing scheme is well suited to the management of various contextual searches, expressed either at a structural level or at an information content level. The approximate search mechanisms are based on a modified Levenshtein editing distance and information fusion heuristics. The implementation described highlights the mixing of structured information presented as field/value instances and free text elements. The retrieval performances of the proposed approach are evaluated within the INEX 2005 evaluation campaign. The evaluation results rank the proposed approach among the best evaluated XML IR systems for the VVCAS task.
690 _adistance d'édition de Levenshtein
690 _aXML
690 _aINEX
690 _aopérateurs de recherche
690 _afusion d'information
690 _arecherche et extraction d'information
690 _abase de données hétérogènes
690 _aheuristic based operators
690 _aXML
690 _ainformation fusion
690 _aINEX
690 _ainformation retrieval
690 _aLevenshtein edition distance
690 _aheterogeneous data base
786 0 _nDocument numérique | 10 | 1 | 2007-09-24 | p. 63-88 | 1279-5127
856 4 1 _uhttps://shs.cairn.info/revue-document-numerique-2007-1-page-63?lang=fr&redirect-ssocas=7080
999 _c371689
_d371689