Traitement automatique du système d'écriture de l'arabe : l'abjad et unicode (Natural language processing of the arabic writing system : abjad and unicode) | ||
Al Imam, Nahed Hamza - (2008-12-01) / Université de Franche-Comté - Traitement automatique du système d'écriture de l'arabe : l'abjad et unicode en : Français Directeur(s) de thèse: Madec , Henri Laboratoire : Centre Lucien Tesnière Ecole doctorale : LETS Classification : Langues et linguistique | ||
Mots-clés : Abjad, langue arabe, monde arabe, monde musulman, US-ASCII, Microsoft, Unicode, codage-encodage, UTF-8, UTF-16, UTF-32 Résumé : L’Abjad en tant que système d’écriture du monde arabe, qui s’étend de l’océan atlantique à l’océan pacifique. L Abjad n’est pas un alphabet au sens européen du terme. Issue de calligraphies et rencontres culturelles variées, comment ce système d’écriture est-il devenu celui des arabes ? Il n est pas l’œuvre de Mahomet, il est plus ancien que le prophète. Mais le Coran demeure le livre sacré des arabes et l’Abjad, une écriture sacrée, intouchable, inviolable. La langue arabe a une morphologie particulière fondée sur des racines et des schèmes. Aussi, un mot peut être écrit sous un grand nombre de formes, sans compter les différentes orthographes dépendant de la prononciation car il existe de nombreux dialectes et un état de diglossie qui complique les règles d usage dans le monde musulman, malgré un arabe classique, système présent dans le coran, et que tout homme éduqué doit savoir écrire et lire. L’Abjad n’est pas seulement un problème culturel, mais aussi un problème informatique. Unicode fut une révolution dans ce domaine, en permettant de traiter la totalité de l’Abjad avec ses 943 caractères environ, sur son unique page de code. Mais Unicode demande un encodage. Trois solutions alors sont proposées : utf-8, utf-16, utf-32. Nous avons retenu utf-32 malgré des inconvénients indiscutables. En somme, l’Abjad empêche les arabes de développer à grande échelle la diffusion de texte dans leur langue. Il devrait donc, être possible de normaliser l’Abjad, mais pour des raisons religieuses, on ne peut retenir cette solution. Car, le monde arabe ne supporterait pas qu en quelconque façon il soit porté atteinte à l'Abjad dans lequel le Coran est écrit. Mais cela même condamne l’Abjad à rester une écriture religieuse et non un outil de communication moderne pour les affaires, la banque et le commerce. Résumé (anglais) : In this thesis, we sought to show the difficulties due to the religious dimension of the Abjad, the scripting of the Arabs, when implementing on computers the scripting systems of all the people in the world, following the Unicode project, and the consequences waited in NLP. First of all the Abjad is not an alphabet in the European meaning of the word, its holy scripting. This scripting is also the one of a Semitic language, endowed with a particular morphology based upon roots and schemes and many diacritics which depends upon the pronunciation of different dialects, event if the classical Arabic scripting present in the Koran is accessible to all man who can read and write. This scripting is not disappearing in the modern world, Arabic and the Abjad have succeeded in finding words to describe the concepts of the European political thought and all the ways and means to spread Islam throughout the world. The rare words borrowed from the Occident have to be accustomed into Arabic, because of its morphology with roots ands schemes with which European words cannot match... The Abjad is essential to translations, or high quality information research. Abjad is not only a cultural problem but also a technical, computer one : the only solution to install Arabic on Microsoft s systems was the manual or external choice of the language. It was evident that the whole Abjad was not taken into account. Unicode was a revolution, allowing taking into account the whole Abjad with its 943 characters, but Unicode required an encoding scheme. To implement theses caracters on the machine, we made up our mind on the utf-8, in spite of its drawbacks, in particular when doing natural language processing. All attempts to normalise Abjad is to rule out for religious reasons : Abjad is the holy scripting of the Koran and that prevents to become a modern communication tool for business or trade and the cultural and religious dimension of the Abjad and the Koran are at the centre of the Arabian life and more than any other preoccupation, be it the economical development of their countries, their cultural presence on modern communication media or the implementation of automatic tools to process written information. Identifiant : UFC-403 |
Exporter au format XML |