Nouveautés
Recherche simple :
Accueil
Documents
Pédagogie
Thèses
Publications Scientifiques
Multi-formats
Thèses > Par auteur en fr
  • Nouveautés
  • Recherche avancée
  • Par auteur
  • Par date
  • Par laboratoire
  • Recherche thématique
Auteurs
Auteurs > M > Mesfar Slim
Niveau supérieur
  • 1 ressource a été trouvée.
  |< << Page précédente 1 Page suivante >> >| documents par page
Tri :   Date Editeur Auteur Titre

Analyse morpho-syntaxique automatique et reconnaissance des entités nommées en arabe standard


Université de Franche-Comté / 24-11-2008
Mesfar Slim
Voir le résumé
Voir le résumé
La langue arabe, bien que très importante par son nombre de locuteurs, elle présente des phénomènes morpho-syntaxiques très particuliers. Cette particularité est liée principalement à sa morphologie flexionnelle et agglutinante, à l’absence des voyelles dans les textes écrits courants, et à la multiplicité de ses formes, et cela induit une forte ambiguïté lexicale et syntaxique. Il s'ensuit des difficultés de traitement automatique qui sont considérables. Le choix d'un environnement linguistique fournissant des outils puissants et la possibilité d'améliorer les performances selon nos besoins spécifiques nous ont conduits à utiliser la plateforme linguistique NooJ. Nous commençons par une étude suivie d’une formalisation à large couverture du vocabulaire de l arabe. Le lexique construit, nommé El-DicAr , permet de rattacher l’ensemble des informations flexionnelles, morphologiques, syntactico-sémantiques à la liste des lemmes. Les routines de flexion et dérivation automatique à partir de cette liste produisent plus de 3 millions de formes fléchies. Nous proposons un nouveau compilateur de machines à états finis en vue de pouvoir stocker la liste générée de façon optimale par le biais d’un algorithme de minimisation séquentielle et d’une routine de compression dynamique des informations stockées. Ce dictionnaire joue le rôle de moteur linguistique pour l’analyseur morpho-syntaxique automatique que nous avons implanté. Cet analyseur inclut un ensemble d’outils: un analyseur morphologique pour le découpage des formes agglutinées en morphèmes à l aide de grammaires morphologiques à large couverture, un nouvel algorithme de parcours des transducteurs à états finis afin de traiter les textes écrits en arabe indépendamment de leurs états de voyellation, un correcteur des erreurs typographiques les plus fréquentes, un outil de reconnaissance des entités nommées fondé sur une combinaison des résultats de l analyse morphologique et de règles décrites dans des grammaires locales présentées sous forme de réseaux augmentés de transitions (ATNs), ainsi qu’un annotateur automatique et des outils pour la recherche linguistique et l’exploration contextuelle. Dans le but de mettre notre travail à la disposition de la communauté scientifique, nous avons développé un service de concordances en ligne NooJ4Web: NooJ pour la Toile permettant de fournir des résultats instantanés à différents types de requêtes et d afficher des rapports statistiques ainsi que les histogrammes correspondants. Les services ci-dessus cités sont offerts afin de recueillir les réactions des divers usagers en vue d une amélioration des performances. Ce système est utilisable aussi bien pour traiter l’arabe, que le français et l’anglais.

rss |< << Page précédente 1 Page suivante >> >| documents par page
© 2006-2010 ORI-OAI