Un module NooJ pour le traitement automatique du chinois‎ : formalisation du vocabulaire et des têtes de groupes nominaux

Version imprimable

Un module NooJ pour le traitement automatique du chinois‎ : formalisation du vocabulaire et des têtes de groupes nominaux
(A NooJ Module for the Automatic Processing of Chinese‎ : Formalising the Chinese Vocabulary and Noun Phrases)

Lin, Huei-Chi - (2010-06-15) / Université de Franche-Comté - Un module NooJ pour le traitement automatique du chinois‎ : formalisation du vocabulaire et des têtes de groupes nominaux

en : Français
Directeur(s) de thèse: Silberstein, Max; Yang-Drocourt, Zhitang
Laboratoire : LASELDI
Ecole doctorale : LETS

Classification : Langues et linguistique

URL d'accès :

http://indexation.univ-fcomte.fr/nuxeo/site/esupve...

Mots-clés : Traitement Automatique des Langues Naturelles. Formalisation du chinois. Dictionnaire électronique du chinois. Description syntaxique des groupes nominaux chinois.
Résumé : C’est ainsi que nous avons été amenée à constituer d’abord un corpus regroupant des textes littéraires et journalistiques publiés au XXe siècle. Ces textes sont écrits en chinois moderne avec des caractères traditionnels. Grâce à ces données textuelles, nous avons pu recueillir des informations linguistiques telles qu’unités lexicales, structures syntagmatiques ou règles grammaticales. Ensuite, nous avons construit des dictionnaires électroniques dans lesquels chaque unité lexicale est représentée par une entrée, à laquelle sont associées des informations linguistiques telles que catégories lexicales, classes de distribution sémantique ou descriptions formelles de certaines formes lexicales. À ce stade, nous avons cherché à identifier les unités lexicales du lexique chinois et leurs catégories en les recensant. Grâce à cette liste, l’analyseur lexical peut traiter des unités lexicales de différents types, en bloc, sans les découper en composants. Ainsi, on traite les unités lexicales suivantes comme des unités atomiques : lǐfǎ ‘faire la coiffure’ : fàngjià ‘être en vacances’ ; dāozikǒu ‘parole cruelle’ ; yánjiū / jiù yuán ‘chercheur’ ; fānyì xìtǒng ‘système de traduction’ ; làngmàn zhŭyì ‘romantisme’. Puis, nous avons décrit de manière formelle un certain nombre de syntagmes locaux, ainsi que cinq types de groupes nominaux noyaux. Enfin, nous avons utilisé le module chinois ainsi développé pour étudier l’évolution thématique dans les textes littéraires.

Résumé (anglais) : This study presents the development of a module for the automatic parsing of Chinese that will allow to recognize automatically lexical units in modern Chinese, as well as central Noun Phrases in texts. In order to reach these two principle objectives, we solved the following problems: identify lexical units in modern Chinese ; determine their categories ; describe certain local syntactic structures as well as the structure of central Noun Phrases. Firstly we constructed a corpus regrouping literary and journalistic texts published in the XXth century. These texts are written in modern Chinese with traditional characters. Thanks to textual data, we could collect linguistic information such as lexical units, syntagmatic structures or grammatical rules. Then, we constructed several electronic dictionaries in which each entry represents a lexeme, with which is associated linguistic information such as its lexical category, its semantic distributional class or certain formal properties. At this stage, we tried to identify the lexical units of Chinese lexicon and their categories in order to list them. Thanks to this list, an automatic lexical analyzer can process various types of lexical units in bloc, without deconstructing them in components. For instance, the lexical parser processes the following lexical units as atomic units : lǐfà / fǎ ‘have a haircut’ ; fàngjià ‘have vacation’ ; dāozikǒu ‘straight talk’ ; yánjiū / jiù yuán ‘researcher’ ; fānyì xìtǒng ‘translation system’ ; làngmàn zhŭyì ‘romanticism’. Then, we described formally certain local syntagms and five types of central Noun Phrases. Finally, we used this Chinese module to study thematic evolution in literary texts.

Identifiant : UFC-115

Exporter au format XML