C’est ainsi que nous avons été amenée à constituer d’abord un corpus regroupant des textes littéraires et journalistiques publiés au XXe siècle. Ces textes sont écrits en chinois moderne avec des caractères traditionnels. Grâce à ces données textuelles, nous avons pu recueillir des informations linguistiques telles qu’unités lexicales, structures syntagmatiques ou règles grammaticales. Ensuite, nous avons construit des dictionnaires électroniques dans lesquels chaque unité lexicale est représentée par une entrée, à laquelle sont associées des informations linguistiques telles que catégories lexicales, classes de distribution sémantique ou descriptions formelles de certaines formes lexicales. À ce stade, nous avons cherché à identifier les unités lexicales du lexique chinois et leurs catégories en les recensant. Grâce à cette liste, l’analyseur lexical peut traiter des unités lexicales de différents types, en bloc, sans les découper en composants. Ainsi, on traite les unités lexicales suivantes comme des unités atomiques : lǐfǎ
‘faire la coiffure’ : fàngjià ‘être en vacances’ ; dāozikǒu ‘parole cruelle’ ; yánjiū / jiù yuán ‘chercheur’ ; fānyì xìtǒng ‘système de traduction’ ; làngmàn zhŭyì ‘romantisme’. Puis, nous avons décrit de manière formelle un certain nombre de syntagmes locaux, ainsi que cinq types de groupes nominaux noyaux. Enfin, nous avons utilisé le module chinois ainsi développé pour étudier l’évolution thématique dans les textes littéraires.