Tri :
Date
Editeur
Auteur
Titre
|
|
06c - Mesurer la similarité entre phrases grâce à Wikipédia en utilisant une indexation aléatoire (taln2015)
/ Canal-u.fr
Voir le résumé
Voir le résumé
Sessions orales TALN 2015 – Mardi 23 juin 2015Session Classification et AlignementMesurer la similarité entre phrases grâce à Wikipédia en utilisant une indexation aléatoire
Hai Hieu Vu, Jeanne Villaneau, Farida Saïd et Pierre-François Marteau
Résumé : Ce
papier présente une méthode pour mesurer la similarité sémantique entre
phrases qui utilise Wikipédia comme unique ressource linguistique et
qui est, de ce fait, utilisable pour un grand nombre de langues. Basée
sur une représentation vectorielle, elle utilise une indexation
aléatoire pour réduire la dimension des espaces manipulés. En outre,
elle inclut une technique de calcul des vecteurs de termes qui corrige les défauts engendrés par l’utilisation d’un corpus aussi
général que Wikipédia. Le système a été évalué sur les données de
SemEval 2014 en anglais avec des résultats très encourageants, au-dessus
du niveau moyen des systèmes en compétition. Il a également été testé
sur un ensemble de paires de phrases en français, à partir de ressources
que nous avons construites et qui seront mises à la libre disposition
de la communauté scientifique. Mot(s) clés libre(s) : traitement automatique du langage naturel, taln2015
|
Accéder à la ressource
|
|
06b - Attribution d’Auteur : approche multilingue fondée sur les répétitions maximales (taln2015)
/ Canal-u.fr
Voir le résumé
Voir le résumé
Sessions orales TALN 2015 – Mardi 23 juin 2015Session Classification et AlignementAttribution d’Auteur : approche multilingue fondée sur les répétitions maximales
Romain Brixtel, Charlotte Lecluze et Gaël Lejeune
Résumé : Cet article s’attaque à la tâche d’Attribution d’Auteur en contexte multilingue.
Nous proposons une alternative aux méthodes supervisées fondées sur les
n-grammes de caractères de longueurs variables : les répétitions
maximales.
Pour un texte donné, la liste de ses n-grammes de caractères contient des informations redondantes.
A contrario, les répétitions maximales représentent l’ensemble des répétitions de ce texte de manière condensée.
Nos expériences montrent que la redondance des n-grammes contribue à
l’efficacité des techniques d’Attribution d’Auteur exploitant des
sous-chaînes de caractères.
Ce constat posé, nous proposons une fonction de pondération sur les
traits donnés en entrée aux classifieurs, en introduisant les
répétitions maximales du n-ème ordre (c-à-d des répétitions maximales
détectées dans un ensemble de répétitions maximales).
Les résultats expérimentaux montrent de meilleures performances avec des
répétitions maximales, avec moins de données que pour les approches
fondées sur les n-grammes.Cet article s’attaque à la tâche d’Attribution
d’Auteur en contexte multilingue.
Nous proposons une alternative aux méthodes supervisées fondées sur les
n-grammes de caractères de longueurs variables : les répétitions
maximales. Mot(s) clés libre(s) : traitement automatique du langage naturel, taln2015
|
Accéder à la ressource
|
|
06a - Typologie des langues automatique à partir de treebanks (taln2015)
/ Canal-u.fr
Voir le résumé
Voir le résumé
Sessions orales TALN 2015 – Mardi 23 juin 2015Session Classification et Alignement
Typologie des langues automatique à partir de treebanks
Philippe Blache, Grégroie de Montcheuil et Stéphane Rauzy
Résumé : La
typologie des langues consiste à identifier certaines propriétés
syntaxiques et de les comparer au travers de plusieurs langues. Nous
proposons dans cet article d’extraire automatiquement ces propriétés à
partir de treebanks et de les analyser en vue de dresser une typologie.
Nous décrivons cette méthode ainsi que les outils développés pour la
mettre en œuvre. Nous appliquons la méthode à l’analyse de 10 langues
décrites dans le Universal Dependencies Treebank. Nous validons ces
résultats en montrant comment une technique de classification permet,
sur la base des informations extraites, de reconstituer des familles de
langue. Mot(s) clés libre(s) : traitement automatique du langage naturel, taln2015
|
Accéder à la ressource
|
|
06 - Troubles lexico-sémantiques dans l’aphasie : évolution des interprétations (Crisco)
/ Canal-u.fr
Voir le résumé
Voir le résumé
Journée d’étude : "Cerveau et
Langage", présentée par Jacques FRANCOIS (Université de Caen)et
Jean-Luc NESPOULOUS (Toulouse 2 & I.U.F.)
Date : le jeudi 11 décembre 2014, de 9 h à 18 heures,
Journée scientifique du CRISCO (E.A. 4255)
Campus 1 - Bâtiment B - Amphi HUET
Université de Caen Basse-NormandieJany LambertINSERM U
1077, Département
d’orthophonie,Université de Caen
Basse-Normandie, CHU Caen.TROUBLES LEXICO-SÉMANTIQUES DANS
L’APHASIE :
ÉVOLUTION DES INTERPRÉTATIONS
Les troubles
lexico-sémantiques recouvrent des perturbations cliniques fréquentes dans
l’aphasie (manque du mot, erreurs sémantiques) qui résultent de déficits
touchant les composants sémantique et/ou lexical. Nous nous focaliserons dans
ce court exposé sur les atteintes de
niveau sémantique. Nous rapporterons quelques travaux fondamentaux qui
ont apporté des éclairages nouveaux dans la compréhension de ces perturbations
dans l’aphasie avec les notions de déficit d’accès sémantique, d’état réfractaire, de contrôle sémantique et
d’aphasie sémantique. Mot(s) clés libre(s) : cerveau, neuropsychologie, langage, aphasie, neuropsycholinguistique, neurosciences, crisco, trouble lexico-sémantique
|
Accéder à la ressource
|
|
05d - Identification de facteurs de risque pour des patients diabétiques à partir de comptes-rendus cliniques par des approches hybrides (taln2015)
/ Canal-u.fr
Voir le résumé
Voir le résumé
Sessions orales TALN 2015 – Mardi 23 juin 2015Session Extraction d’informationIdentification de facteurs de risque pour des patients
diabétiques à partir de comptes-rendus cliniques par des approches
hybrides
Cyril Grouin, Véronique Moriceau, Sophie Rosset et Pierre Zweigenbaum
Résumé : Dans
cet article, nous présentons les méthodes que nous avons développées
pour analyser des comptes-rendus hospitaliers rédigés en anglais.
L’objectif de cette étude consiste à identifier les facteurs de risque
de décès pour des patients diabétiques et à positionner les événements
médicaux décrits par rapport à la date de création de chaque document.
Notre approche repose sur (i) HeidelTime pour identifier les expressions
temporelles, (ii) des CRF complétés par des règles de post-traitement
pour identifier les traitements, les maladies et facteurs de risque, et
(iii) des règles pour positionner temporellement chaque événement
médical. Sur un corpus de 514 documents, nous obtenons une F-mesure
globale de 0,8451. Nous observons que l’identification des informations
directement mentionnées dans les documents se révèle plus performante
que l’inférence d’informations à partir de résultats de laboratoire. Mot(s) clés libre(s) : traitement automatique du langage naturel, taln2015
|
Accéder à la ressource
|
|
05c - Stratégies de sélection des exemples pour l’apprentissage actif avec des CRF (taln2015)
/ Canal-u.fr
Voir le résumé
Voir le résumé
Sessions orales TALN 2015 – Mardi 23 juin 2015Session Extraction d’informationStratégies de sélection des exemples pour l’apprentissage actif avec des CRF
Vincent Claveau et Ewa Kijak
Résumé : Beaucoup
de problèmes de TAL sont désormais modélisés comme des tâches
d’apprentissage supervisé. De ce fait, le coût des annotations des
exemples par l’expert représente un problème important. L’apprentissage
actif (active learning) apporte un cadre à ce problème, permettant de
contrôler le coût d’annotation tout en maximisant, on l’espère, la
performance à la tâche visée, mais repose sur le choix difficile des
exemples à soumettre à l’expert.
Dans cet article, nous examinons et proposons des stratégies de
sélection des exemples pour le cas spécifique des CRF, outil largement
utilisé en TAL.
Nous proposons d’une part une méthode simple corrigeant un biais de
certaines méthodes de l’état de l’art. D’autre part, nous détaillons une
méthode originale de sélection s’appuyant sur un critère de respect des
proportion dans les jeux de données manipulés.
Le bien-fondé de ces propositions est vérifié au travers de plusieurs tâches et jeux de données,
incluant reconnaissance d’entités nommées, chunking, phonétisation, désambiguïsation de sens. Mot(s) clés libre(s) : traitement automatique du langage naturel, taln2015
|
Accéder à la ressource
|
|
05b - Oublier ce qu’on sait, pour mieux apprendre ce qu’on ne sait pas : une étude sur les contraintes de type dans les modèles CRF (taln2015)
/ Canal-u.fr
Voir le résumé
Voir le résumé
Sessions orales TALN 2015 – Mardi 23 juin 2015Session Extraction d’informationOublier ce qu’on sait, pour mieux apprendre ce qu’on ne sait pas : une étude sur les contraintes de type dans les modèles CRF
Nicolas Pécheux, Alexandre Allauzen, Thomas Lavergne, Guillaume Wisniewski et François Yvon
Résumé : Quand
on dispose de connaissances a priori sur les sorties possibles d’un
problème d’étiquetage,il semble souhaitable d’inclure cette information
lors de l’apprentissage pour simplifier la tâche de modélisation et
accélérer les traitements. Pourtant, même lorsque ces contraintes sont
correctes et utiles au décodage, leur utilisation lors de
l’apprentissage peut dégrader sévèrement les performances. Dans cet
article, nous étudions ce paradoxe et montrons que le manque de
contraste induit par les connaissances entraîne une forme de
sous-apprentissage qu’il est cependant possible de limiter. Mot(s) clés libre(s) : traitement automatique du langage naturel, taln2015
|
Accéder à la ressource
|
|
05a - Apprentissage par imitation pour l’étiquetage de séquences : vers une formalisation des méthodes d’étiquetage easy-first (taln2015)
/ Canal-u.fr
Voir le résumé
Voir le résumé
Sessions orales TALN 2015 – Mardi 23 juin 2015Session Extraction d’information
Apprentissage par imitation pour l’étiquetage de séquences : vers une formalisation des méthodes d’étiquetage easy-first
Elena Knyazeva, Guillaume Wisniewski et François Yvon
Résumé : Structured learning techniques, aimed at modeling structured objects such as labeled trees or strings, are computationally expensive. Many attempts have been made to reduce their complexity, either to speed up learning et inference, or to take richer dependencies into account. These attempts typically rely on approximate inference techniques and usually provide very little
theoretical guarantee regarding the optimality of the solutions they find.
In this work we study a new formulation of structured learning where inference is primarily viewed as an incremental process along which a solution is progressively computed. This framework generalizes several structured learning approaches. Building on the connections between this framework and reinforcement learning, we propose a theoretically sound method to learn to perform approximate inference. Experiments on four sequence labeling tasks show that our
approach is very competitive when compared to several strong baselines. Structured learning techniques, aimed at modeling structured objects such as labeled trees or strings, are computationally expensive. Many attempts have been made to reduce their complexity, either to speed up learning and inference, or to take richer dependencies into account. These attempts typically rely on approximate inference techniques and usually provide very little theoretical guarantee regarding the optimality of the solutions they find. Mot(s) clés libre(s) : traitement automatique du langage naturel, taln2015
|
Accéder à la ressource
|
|
05 - Mémoire de travail, fonctions exécutives et aphasie (Crisco)
/ Canal-u.fr
Voir le résumé
Voir le résumé
Journée d’étude : "Cerveau et
Langage", présentée par Jacques FRANCOIS (Université de Caen)et
Jean-Luc NESPOULOUS (Toulouse 2 & I.U.F.)
Date : le jeudi 11 décembre 2014, de 9 h à 18 heures,
Journée scientifique du CRISCO (E.A. 4255)
Campus 1 - Bâtiment B - Amphi HUET
Université de Caen Basse-NormandiePeggy Quinette
INSERM UMR
1077, EPHE, Université de Caen Basse-Normandie ;GIP CyceronLA MÉMOIRE DE TRAVAIL ET LES
FONCTIONS EXÉCUTIVES DANS L’APHASIE
« Des
troubles de la mémoire de travail (MDT) et des fonctions exécutives (FE) ont
récemment été décrits chez les patients aphasiques en relation avec leurs
difficultés langagières (Murray, 2012). Ces déficits seraient liés, soit à une
atteinte isolée des modules langagiers de la MDT (boucle phonologique du modèle
de Baddeley), soit à une atteinte générale des ressources de la MDT dans ses
composantes de stockage et/ou de traitement (Potagas et al., 2011) s’étendant
aux FE. Ces déficits pourraient être majorés par l’utilisation d’épreuves à
contenu verbal. Nous rapportons les résultats d’une étude dont les objectifs
étaient d’explorer de façon approfondie les différentes composantes de la MDT
et des FE chez des patients aphasiques au moyen d’épreuves originales,
majoritairement non verbales, adaptées aux déficits d’expression et de compréhension
de ces patients. Les résultats des patients à ces épreuves seront mis en
relation avec leurs plaintes mnésiques et leurs difficultés de
communication. » Mot(s) clés libre(s) : cerveau, neuropsychologie, langage, neuropsycholinguistique, neurosciences, crisco
|
Accéder à la ressource
|
|
04d - Extraction automatique de paraphrases grand public pour les termes médicaux (taln2015)
/ Canal-u.fr
Voir le résumé
Voir le résumé
Sessions orales TALN 2015 – Mardi 23 juin 2015Session Syntaxe et paraphraseExtraction automatique de paraphrases grand public pour les termes médicaux
Natalia Grabar et Thierry HamonPrésenté par Isabelle Tellier
Résumé : Nous
sommes tous concernés par notre état de santé et restons sensibles aux
informations de santé disponibles dans la société moderne à travers par
exemple les résultats des recherches scientifiques, les médias sociaux
de santé, les documents cliniques, les émissions de télé et de radio ou
les nouvelles. Cependant, il est commun de rencontrer dans le domaine
médical des termes très spécifiques (eg, blépharospasme, alexitymie,
appendicectomie), qui restent difficiles à comprendre par les non
spécialistes. Nous proposons une méthode automatique qui vise
l’acquisition de paraphrases pour les termes médicaux, qui soient plus
faciles à comprendre que les termes originaux. La méthode est basée sur
l’analyse morphologique des termes, l’analyse syntaxique et la fouille
de textes non spécialisés. L’analyse et l’évaluation des résultats
indiquent que de telles paraphrases peuvent être trouvées dans les
documents non spécialisés et présentent une compréhension plus facile.
En fonction des paramètres de la méthode, la précision varie entre 86 et
55 %. Ce type de ressources est utile pour plusieurs applications de
TAL (eg, recherche d’information grand public, lisibilité et
simplification de textes, systèmes de question-réponses). Mot(s) clés libre(s) : traitement automatique du langage naturel, taln2015
|
Accéder à la ressource
|
|