000 03545cam a2200289 4500500
005 20250118081157.0
041 _afre
042 _adc
100 1 0 _aFelhi, Mehdi
_eauthor
700 1 0 _a Tabbone, Salvatore
_eauthor
700 1 0 _a Ortiz Segovia, Maria V.
_eauthor
245 0 0 _aApproche hybride de segmentation de pages à base d’un descripteur de traits
260 _c2015.
500 _a80
520 _aNous présentons une approche complète de segmentation de pages de documents numérisés permettant d’identifier et d’extraire les régions de texte, de lignes et de photos. L’approche est composée de deux étapes principales : la première étape consiste à détecter une éventuelle inclinaison afin d’ajuster l’image et ainsi diminuer les contraintes pour la segmentation. La deuxième étape se focalise sur une nouvelle méthode hybride pour la segmentation de pages basée sur les composantes connexes et sur l’analyse de régions. Nous décrivons d’abord notre nouvelle méthode de détection d’inclinaison. Ensuite, nous présentons notre descripteur de traits qui permet de détecter les candidats de texte et des lignes par la squelettisation de l’image du document binarisé. Un modèle de contours actifs est appliqué pour segmenter le reste de l’image en photos et arrière plan. Cette classification est vérifiée par l’étude de la variation photométrique de chacune des régions détectées. Enfin, les candidats de texte sont classifiés à l’aide de la technique du clustering du mean-shift en fonction de leurs tailles et nous présentons une approche adaptative d’analyse du profil de projection pour recueillir séparément les régions de texte horizontales et verticales. Cette méthode est appliquée pour la segmentation des images réelles des documents numérisés qui contiennent du texte, lignes et des régions de photos. Nous évaluons les performances de notre approche en la comparant avec des méthodes existantes sur des benchmarks connus.
520 _aIn this paper we present a full document image segmentation approach in order to identify and extract text, lines and photo regions. This approach is composed of two main steps. The first step consists in detecting a possible skew. Then, a new hybrid page segmentation approach based on connected component and region analysis is proposed. For that, we first describe our stroke descriptor that detects text and line component candidates using the skeleton of the binarized document image. Then, an active contour model is applied to segment the rest of the image into photo and background regions. This classification is verified by studying the variation of each detected region. Finally, we cluster the text candidates using mean-shift analysis technique according to their corresponding sizes and we present our multiscale projection profile approach to gather separately horizontal and vertical text regions. We evaluate the performances of our approach by comparing it to the existing methods on well-known benchmarks.
690 _adescripteur de traits
690 _asegmentation de page
690 _atransformée de Ridgelets
690 _adétecteur d’inclinaison
690 _aRidgelets transform
690 _apage segmentation
690 _astroke descriptor
690 _askew detector
786 0 _nDocument numérique | 17 | 3 | 2015-02-25 | p. 9-30 | 1279-5127
856 4 1 _uhttps://shs.cairn.info/revue-document-numerique-2014-3-page-9?lang=fr&redirect-ssocas=7080
999 _c370032
_d370032