Version imprimable |
Analyses linguistiques et modélisations des connaissances en vue d un traitement automatique des e-mails entrants vers un système de veille dans le domaine du tourisme aérien (Linguistic analysis and knowledge modeling applied to natural language processing of inbox emails : towards a mining system in the field of air tourism) | ||
Barbé, Marion - (2007-03-09) / Université de Franche-Comté - Analyses linguistiques et modélisations des connaissances en vue d un traitement automatique des e-mails entrants vers un système de veille dans le domaine du tourisme aérien en : Français Directeur(s) de thèse: Madec , Henri Laboratoire : Centre Lucien Tesnière Ecole doctorale : LETS Classification : Langues et linguistique | ||
Mots-clés : Traitement automatique des langues, Gestion des e-mails, Tourisme aérien, Modélisation des connaissances, E-CRM Résumé : Le présent travail étudie une situation de communication nouvelle : la communication via l e-mail. Notre étude s est centrée plus précisément sur les mails envoyés par des clients vers l entreprise et ce dans le domaine du tourisme aérien (notion de e-crm). Pour mener nos analyses linguistiques, nous avons constitué un important corpus de messages récoltés sur des forums Internet et traitant de voyages. Notre but est d automatiser la gestion, la catégorisation et la thématisation des mails. Nous avons donc rassemblé un ensemble de traits lexicaux, syntaxiques, morpho-syntaxiques et sémantiques spécifiques à la notion de déplacement, de toponymie et propres au sous-langage du tourisme aérien. Nous montrons également comment une analyse linguistique des informations spatiales et indissociable d un traitement des éléments temporels de la phrase. En outre, nous choisissons d analyser les informations de type émotionnel contenues dans les messages. Dans la dernière partie de notre travail, nous replaçons notre étude dans un système de veille appliqué aux mails. Nous montrons comment les techniques à base de statistiques sont limitées dès qu il s agit de traiter des énoncés linguistiquement complexes tels que les nôtres. Notre approche est hybride : à base de mots clés, dictionnaires de synonymes, scripts sur le modèle de SCHANK et ABELSON, mais surtout à base de modélisation des connaissances. Finalement, nous proposons un traitement de haute qualité des connaissances et donnons quelques exemples d informatisation de notre système grâce à XML, PROLOG et PERL . Résumé (anglais) : This work studies a new situation of communication: communication via e-mail. Our study is more precisely focussed on e-mails sent by customers to firms and this, in the field of air tourism (concept of e-crm). To carry out our linguistic analyses, we constituted an important corpus of messages collected on Internet forums and dealing with travel. Our goal is to manage the categorization and thematisation of e-mails. We thus gathered lexical, syntactic, morpho-syntactic and semantic features which are specific to the concept of spatiality, toponymy and characteristic of air tourism sub-language. We also underline how a linguistic analysis of spatiality is linked to a temporal analysis of the sentence. Moreover, we choose to analyze emotional informations contained in our messages. In the last part of our work, we show how our work deals with mining systems. We show how statistical techniques are limited as soon as it is a question of treating linguistically complex statements such as ours. Our approach is hybrid: it is made of key words, synonyms dictionaries, scripts on the model of SCHANK and ABELSON, but especially knowledge modeling. We give some examples of computerization of our system thanks to XML, PROLOG and Perl. Identifiant : UFC-401 |
Exporter au format XML |