Tri :
Date
Editeur
Auteur
Titre
|
|
07a - Compréhension automatique de la parole sans données de référence (taln2015)
/ Canal-u.fr
Voir le résumé
Voir le résumé
Sessions orales TALN 2015 – Mardi 23 juin 2015Session Compréhension et paraphrase
Compréhension automatique de la parole sans données de référence
Emmanuel Ferreira, Bassam Jabaian et Fabrice Lefèvre
Résumé : La
majorité des méthodes état de l’art en compréhension automatique de la
parole ont en commun de devoir être apprises sur une grande quantité de
données annotées. Cette dépendance aux données constitue un réel
obstacle lors du développement d’un système pour une nouvelle
tâche/langue. Aussi, dans cette étude, nous présentons une méthode
visant à limiter ce besoin par un mécanisme d’apprentissage sans données
de référence (zero-shot learning). Cette méthode combine une
description ontologique minimale de la tâche visée avec l’utilisation
d’un espace sémantique continu appris par des approches à base de
réseaux de neurones à partir de données génériques non-annotées. Nous
montrons que le modèle simple et peu coûteux obtenu peut atteindre dès
le démarrage des performances comparables à celles des systèmes état de
l’art reposant sur des règles expertes ou sur des approches
probabilistes sur des tâches de compréhension de la parole de référence
(tests des Dialog State Tracking Challenges, DSTC2 et DSTC3). Nous
proposons ensuite une stratégie d’adaptation en ligne permettant
d’améliorer encore les performances de notre approche à l’aide d’une
supervision faible et ajustable de l’utilisateur. Mot(s) clés libre(s) : traitement automatique du langage naturel, taln2015
|
Accéder à la ressource
|
|
06c - Mesurer la similarité entre phrases grâce à Wikipédia en utilisant une indexation aléatoire (taln2015)
/ Canal-u.fr
Voir le résumé
Voir le résumé
Sessions orales TALN 2015 – Mardi 23 juin 2015Session Classification et AlignementMesurer la similarité entre phrases grâce à Wikipédia en utilisant une indexation aléatoire
Hai Hieu Vu, Jeanne Villaneau, Farida Saïd et Pierre-François Marteau
Résumé : Ce
papier présente une méthode pour mesurer la similarité sémantique entre
phrases qui utilise Wikipédia comme unique ressource linguistique et
qui est, de ce fait, utilisable pour un grand nombre de langues. Basée
sur une représentation vectorielle, elle utilise une indexation
aléatoire pour réduire la dimension des espaces manipulés. En outre,
elle inclut une technique de calcul des vecteurs de termes qui corrige les défauts engendrés par l’utilisation d’un corpus aussi
général que Wikipédia. Le système a été évalué sur les données de
SemEval 2014 en anglais avec des résultats très encourageants, au-dessus
du niveau moyen des systèmes en compétition. Il a également été testé
sur un ensemble de paires de phrases en français, à partir de ressources
que nous avons construites et qui seront mises à la libre disposition
de la communauté scientifique. Mot(s) clés libre(s) : traitement automatique du langage naturel, taln2015
|
Accéder à la ressource
|
|
06b - Attribution d’Auteur : approche multilingue fondée sur les répétitions maximales (taln2015)
/ Canal-u.fr
Voir le résumé
Voir le résumé
Sessions orales TALN 2015 – Mardi 23 juin 2015Session Classification et AlignementAttribution d’Auteur : approche multilingue fondée sur les répétitions maximales
Romain Brixtel, Charlotte Lecluze et Gaël Lejeune
Résumé : Cet article s’attaque à la tâche d’Attribution d’Auteur en contexte multilingue.
Nous proposons une alternative aux méthodes supervisées fondées sur les
n-grammes de caractères de longueurs variables : les répétitions
maximales.
Pour un texte donné, la liste de ses n-grammes de caractères contient des informations redondantes.
A contrario, les répétitions maximales représentent l’ensemble des répétitions de ce texte de manière condensée.
Nos expériences montrent que la redondance des n-grammes contribue à
l’efficacité des techniques d’Attribution d’Auteur exploitant des
sous-chaînes de caractères.
Ce constat posé, nous proposons une fonction de pondération sur les
traits donnés en entrée aux classifieurs, en introduisant les
répétitions maximales du n-ème ordre (c-à-d des répétitions maximales
détectées dans un ensemble de répétitions maximales).
Les résultats expérimentaux montrent de meilleures performances avec des
répétitions maximales, avec moins de données que pour les approches
fondées sur les n-grammes.Cet article s’attaque à la tâche d’Attribution
d’Auteur en contexte multilingue.
Nous proposons une alternative aux méthodes supervisées fondées sur les
n-grammes de caractères de longueurs variables : les répétitions
maximales. Mot(s) clés libre(s) : traitement automatique du langage naturel, taln2015
|
Accéder à la ressource
|
|
06a - Typologie des langues automatique à partir de treebanks (taln2015)
/ Canal-u.fr
Voir le résumé
Voir le résumé
Sessions orales TALN 2015 – Mardi 23 juin 2015Session Classification et Alignement
Typologie des langues automatique à partir de treebanks
Philippe Blache, Grégroie de Montcheuil et Stéphane Rauzy
Résumé : La
typologie des langues consiste à identifier certaines propriétés
syntaxiques et de les comparer au travers de plusieurs langues. Nous
proposons dans cet article d’extraire automatiquement ces propriétés à
partir de treebanks et de les analyser en vue de dresser une typologie.
Nous décrivons cette méthode ainsi que les outils développés pour la
mettre en œuvre. Nous appliquons la méthode à l’analyse de 10 langues
décrites dans le Universal Dependencies Treebank. Nous validons ces
résultats en montrant comment une technique de classification permet,
sur la base des informations extraites, de reconstituer des familles de
langue. Mot(s) clés libre(s) : traitement automatique du langage naturel, taln2015
|
Accéder à la ressource
|
|
05d - Identification de facteurs de risque pour des patients diabétiques à partir de comptes-rendus cliniques par des approches hybrides (taln2015)
/ Canal-u.fr
Voir le résumé
Voir le résumé
Sessions orales TALN 2015 – Mardi 23 juin 2015Session Extraction d’informationIdentification de facteurs de risque pour des patients
diabétiques à partir de comptes-rendus cliniques par des approches
hybrides
Cyril Grouin, Véronique Moriceau, Sophie Rosset et Pierre Zweigenbaum
Résumé : Dans
cet article, nous présentons les méthodes que nous avons développées
pour analyser des comptes-rendus hospitaliers rédigés en anglais.
L’objectif de cette étude consiste à identifier les facteurs de risque
de décès pour des patients diabétiques et à positionner les événements
médicaux décrits par rapport à la date de création de chaque document.
Notre approche repose sur (i) HeidelTime pour identifier les expressions
temporelles, (ii) des CRF complétés par des règles de post-traitement
pour identifier les traitements, les maladies et facteurs de risque, et
(iii) des règles pour positionner temporellement chaque événement
médical. Sur un corpus de 514 documents, nous obtenons une F-mesure
globale de 0,8451. Nous observons que l’identification des informations
directement mentionnées dans les documents se révèle plus performante
que l’inférence d’informations à partir de résultats de laboratoire. Mot(s) clés libre(s) : traitement automatique du langage naturel, taln2015
|
Accéder à la ressource
|
|
05c - Stratégies de sélection des exemples pour l’apprentissage actif avec des CRF (taln2015)
/ Canal-u.fr
Voir le résumé
Voir le résumé
Sessions orales TALN 2015 – Mardi 23 juin 2015Session Extraction d’informationStratégies de sélection des exemples pour l’apprentissage actif avec des CRF
Vincent Claveau et Ewa Kijak
Résumé : Beaucoup
de problèmes de TAL sont désormais modélisés comme des tâches
d’apprentissage supervisé. De ce fait, le coût des annotations des
exemples par l’expert représente un problème important. L’apprentissage
actif (active learning) apporte un cadre à ce problème, permettant de
contrôler le coût d’annotation tout en maximisant, on l’espère, la
performance à la tâche visée, mais repose sur le choix difficile des
exemples à soumettre à l’expert.
Dans cet article, nous examinons et proposons des stratégies de
sélection des exemples pour le cas spécifique des CRF, outil largement
utilisé en TAL.
Nous proposons d’une part une méthode simple corrigeant un biais de
certaines méthodes de l’état de l’art. D’autre part, nous détaillons une
méthode originale de sélection s’appuyant sur un critère de respect des
proportion dans les jeux de données manipulés.
Le bien-fondé de ces propositions est vérifié au travers de plusieurs tâches et jeux de données,
incluant reconnaissance d’entités nommées, chunking, phonétisation, désambiguïsation de sens. Mot(s) clés libre(s) : traitement automatique du langage naturel, taln2015
|
Accéder à la ressource
|
|
05b - Oublier ce qu’on sait, pour mieux apprendre ce qu’on ne sait pas : une étude sur les contraintes de type dans les modèles CRF (taln2015)
/ Canal-u.fr
Voir le résumé
Voir le résumé
Sessions orales TALN 2015 – Mardi 23 juin 2015Session Extraction d’informationOublier ce qu’on sait, pour mieux apprendre ce qu’on ne sait pas : une étude sur les contraintes de type dans les modèles CRF
Nicolas Pécheux, Alexandre Allauzen, Thomas Lavergne, Guillaume Wisniewski et François Yvon
Résumé : Quand
on dispose de connaissances a priori sur les sorties possibles d’un
problème d’étiquetage,il semble souhaitable d’inclure cette information
lors de l’apprentissage pour simplifier la tâche de modélisation et
accélérer les traitements. Pourtant, même lorsque ces contraintes sont
correctes et utiles au décodage, leur utilisation lors de
l’apprentissage peut dégrader sévèrement les performances. Dans cet
article, nous étudions ce paradoxe et montrons que le manque de
contraste induit par les connaissances entraîne une forme de
sous-apprentissage qu’il est cependant possible de limiter. Mot(s) clés libre(s) : traitement automatique du langage naturel, taln2015
|
Accéder à la ressource
|
|
05a - Apprentissage par imitation pour l’étiquetage de séquences : vers une formalisation des méthodes d’étiquetage easy-first (taln2015)
/ Canal-u.fr
Voir le résumé
Voir le résumé
Sessions orales TALN 2015 – Mardi 23 juin 2015Session Extraction d’information
Apprentissage par imitation pour l’étiquetage de séquences : vers une formalisation des méthodes d’étiquetage easy-first
Elena Knyazeva, Guillaume Wisniewski et François Yvon
Résumé : Structured learning techniques, aimed at modeling structured objects such as labeled trees or strings, are computationally expensive. Many attempts have been made to reduce their complexity, either to speed up learning et inference, or to take richer dependencies into account. These attempts typically rely on approximate inference techniques and usually provide very little
theoretical guarantee regarding the optimality of the solutions they find.
In this work we study a new formulation of structured learning where inference is primarily viewed as an incremental process along which a solution is progressively computed. This framework generalizes several structured learning approaches. Building on the connections between this framework and reinforcement learning, we propose a theoretically sound method to learn to perform approximate inference. Experiments on four sequence labeling tasks show that our
approach is very competitive when compared to several strong baselines. Structured learning techniques, aimed at modeling structured objects such as labeled trees or strings, are computationally expensive. Many attempts have been made to reduce their complexity, either to speed up learning and inference, or to take richer dependencies into account. These attempts typically rely on approximate inference techniques and usually provide very little theoretical guarantee regarding the optimality of the solutions they find. Mot(s) clés libre(s) : traitement automatique du langage naturel, taln2015
|
Accéder à la ressource
|
|
04d - Extraction automatique de paraphrases grand public pour les termes médicaux (taln2015)
/ Canal-u.fr
Voir le résumé
Voir le résumé
Sessions orales TALN 2015 – Mardi 23 juin 2015Session Syntaxe et paraphraseExtraction automatique de paraphrases grand public pour les termes médicaux
Natalia Grabar et Thierry HamonPrésenté par Isabelle Tellier
Résumé : Nous
sommes tous concernés par notre état de santé et restons sensibles aux
informations de santé disponibles dans la société moderne à travers par
exemple les résultats des recherches scientifiques, les médias sociaux
de santé, les documents cliniques, les émissions de télé et de radio ou
les nouvelles. Cependant, il est commun de rencontrer dans le domaine
médical des termes très spécifiques (eg, blépharospasme, alexitymie,
appendicectomie), qui restent difficiles à comprendre par les non
spécialistes. Nous proposons une méthode automatique qui vise
l’acquisition de paraphrases pour les termes médicaux, qui soient plus
faciles à comprendre que les termes originaux. La méthode est basée sur
l’analyse morphologique des termes, l’analyse syntaxique et la fouille
de textes non spécialisés. L’analyse et l’évaluation des résultats
indiquent que de telles paraphrases peuvent être trouvées dans les
documents non spécialisés et présentent une compréhension plus facile.
En fonction des paramètres de la méthode, la précision varie entre 86 et
55 %. Ce type de ressources est utile pour plusieurs applications de
TAL (eg, recherche d’information grand public, lisibilité et
simplification de textes, systèmes de question-réponses). Mot(s) clés libre(s) : traitement automatique du langage naturel, taln2015
|
Accéder à la ressource
|
|
04c - Noyaux de réécriture de phrases munis de types lexico-sémantiques (taln2015)
/ Canal-u.fr
Voir le résumé
Voir le résumé
Sessions orales TALN 2015 – Mardi 23 juin 2015Session Syntaxe et paraphraseNoyaux de réécriture de phrases munis de types lexico-sémantiques
Martin Gleize et Brigitte Grau
Résumé : De
nombreux problèmes en traitement automatique des langues requièrent de
déterminer si deux phrases sont des réécritures l’une de l’autre. Une
solution efficace consiste à apprendre les réécritures en se fondant sur
des méthodes à noyau qui mesurent la similarité entre deux réécritures
de paires de phrases. Toutefois, ces méthodes ne permettent généralement
pas de prendre en compte des variations sémantiques entre mots, qui
permettraient de capturer un plus grand nombre de règles de réécriture.
Dans cet article, nous proposons la définition et l’implémentation d’une
nouvelle classe de fonction noyau, fondée sur la réécriture de phrases
enrichie par un typage pour combler ce manque. Nous l’évaluons sur deux
tâches, la reconnaissance de paraphrases et d’implications textuelles. Mot(s) clés libre(s) : traitement automatique du langage naturel, taln2015
|
Accéder à la ressource
|
|