Image de Google Jackets
Vue normale Vue MARC vue ISBD

Encodings in Legacy Khmer TrueType Fonts

Par : Contributeur(s) : Type de matériel : TexteTexteLangue : français Détails de publication : 2007. Sujet(s) : Ressources en ligne : Abrégé : RésuméMalgré l’utilisation croissante des normes ISO pour le codage de la plupart des écritures indiennes dans les pays d’Asie du Sud et du Sud-Est, les codages bricolés sont encore utilisés pour éviter l’implémentation de systèmes de mise en page complexes pour les écritures indiennes. Puisque ces codages ne sont pas bien définis et ont été développés ad hoc, il est très difficile de les détecter par des méthodes déductives. Il arrive alors que l’on publie le texte le plus souvent en tant qu’image. En guise d’exemple caractéristique nous avons choisi l’écriture cambodgienne. Nous avons examiné les différentes fontes cambodgiennes diffusées gratuitement sur le Web, les codages qu’elles déclarent utiliser et ceux qu’elles utilisent. Nous arrivons à la conclusion que les codages déclarés ne sont pas fiables. En nous basant sur les codages étudiés nous proposons un algorithme heuristique de détection de codage cambodgien. Cet algorithme nous permet également de transcoder des documents codés dans ces codages avec une précision plus élevée que celle des méthodes cognitives.Abrégé : In spite of ISO standards for most Indic scripts used in South and South-East Asian countries, legacy encodings are still used to avoid the implementation of complex text layout systems for Indic scripts. Since legacy encodings for Indic scripts are not well-defined and have been designed ad hoc, it is almost impossible to detect the encoding by deducive methods. As a result, the coded text is often dealt as image data rather than text. As a typical example of the confusion of non-standard legacy encodings, we take Khmer script. We collected the various free-charged legacy Khmer fonts distributed on the Web, and investigated the encodings declared and used in the fonts. As a result, the declared encodings are confirmed to be unreliable. Based on the code charts obtained by our investigation, we propose a heuristic algorithm to detect the encoding used in legacy Khmer fonts. This algorithm enables us to extract text data from legacy coded text with an accuracy higher than the one of cognitive methods.
Tags de cette bibliothèque : Pas de tags pour ce titre. Connectez-vous pour ajouter des tags.
Evaluations
    Classement moyen : 0.0 (0 votes)
Nous n'avons pas d'exemplaire de ce document

21

RésuméMalgré l’utilisation croissante des normes ISO pour le codage de la plupart des écritures indiennes dans les pays d’Asie du Sud et du Sud-Est, les codages bricolés sont encore utilisés pour éviter l’implémentation de systèmes de mise en page complexes pour les écritures indiennes. Puisque ces codages ne sont pas bien définis et ont été développés ad hoc, il est très difficile de les détecter par des méthodes déductives. Il arrive alors que l’on publie le texte le plus souvent en tant qu’image. En guise d’exemple caractéristique nous avons choisi l’écriture cambodgienne. Nous avons examiné les différentes fontes cambodgiennes diffusées gratuitement sur le Web, les codages qu’elles déclarent utiliser et ceux qu’elles utilisent. Nous arrivons à la conclusion que les codages déclarés ne sont pas fiables. En nous basant sur les codages étudiés nous proposons un algorithme heuristique de détection de codage cambodgien. Cet algorithme nous permet également de transcoder des documents codés dans ces codages avec une précision plus élevée que celle des méthodes cognitives.

In spite of ISO standards for most Indic scripts used in South and South-East Asian countries, legacy encodings are still used to avoid the implementation of complex text layout systems for Indic scripts. Since legacy encodings for Indic scripts are not well-defined and have been designed ad hoc, it is almost impossible to detect the encoding by deducive methods. As a result, the coded text is often dealt as image data rather than text. As a typical example of the confusion of non-standard legacy encodings, we take Khmer script. We collected the various free-charged legacy Khmer fonts distributed on the Web, and investigated the encodings declared and used in the fonts. As a result, the declared encodings are confirmed to be unreliable. Based on the code charts obtained by our investigation, we propose a heuristic algorithm to detect the encoding used in legacy Khmer fonts. This algorithm enables us to extract text data from legacy coded text with an accuracy higher than the one of cognitive methods.

PLUDOC

PLUDOC est la plateforme unique et centralisée de gestion des bibliothèques physiques et numériques de Guinée administré par le CEDUST. Elle est la plus grande base de données de ressources documentaires pour les Étudiants, Enseignants chercheurs et Chercheurs de Guinée.

Adresse

627 919 101/664 919 101

25 boulevard du commerce
Kaloum, Conakry, Guinée

Réseaux sociaux

Powered by Netsen Group @ 2025