|
|<
<< Page précédente
1
2
3
4
5
6
7
8
Page suivante >>
>|
|
documents par page
|
Tri :
Date
Editeur
Auteur
Titre
|
|
10b - …des conférences enfin disons des causeries… Détection automatique de segments en relation de paraphrase dans les reformulations de corpus oraux (taln2015)
/ Canal-u.fr
Voir le résumé
Voir le résumé
Sessions orales TALN 2015 – Mardi 23 juin 2015Session Plénière…des conférences enfin disons des causeries… Détection
automatique de segments en relation de paraphrase dans les
reformulations de corpus oraux
Natalia Grabar et Iris Eshkol
Résumé : Notre
travail porte sur la détection automatique des segments en relation de
reformulation paraphrastique dans les corpus oraux. L’approche proposée
est une approche syntagmatique qui tient compte des marqueurs de
reformulation paraphrastique et des spécificités de l’oral. Les données
de référence sont consensuelles. Une méthode automatique fondée sur
l’apprentissage avec les CRF est proposée afin de détecter les segments
paraphrasés. Différents descripteurs sont exploités dans une fenêtre de
taille variable. Les tests effectués montrent que les segments en
relation de paraphrase sont assez difficiles à détecter, surtout avec
leurs frontières correctes. Les meilleures moyennes atteignent 0,65 de
F-mesure, 0,75 de précision et 0,63 de rappel. Nous avons plusieurs
perspectives à ce travail pour améliorer la détection des segments en
relation de paraphrase et pour étudier les données d’autres points de
vue. Mot(s) clés libre(s) : traitement automatique du langage naturel, taln2015
|
Accéder à la ressource
|
|
09c - Déclasser les voisins non sémantiques pour améliorer les thésaurus distributionnels (taln2015)
/ Canal-u.fr
Voir le résumé
Voir le résumé
Sessions orales TALN 2015 – Mardi 23 juin 2015Session SémantiqueDéclasser les voisins non sémantiques pour améliorer les thésaurus distributionnels
Olivier Ferret
Résumé : La
plupart des méthodes d’amélioration des thésaurus distributionnels se
focalisent sur les moyens – représentations ou mesures de similarité –
de mieux détecter la similarité sémantique entre les mots. Dans cet
article, nous proposons un point de vue inverse : nous cherchons à
détecter les voisins sémantiques associés à une entrée les moins
susceptibles d’être liés sémantiquement à elle et nous utilisons cette
information pour réordonner ces voisins. Pour détecter les faux voisins
sémantiques d’une entrée, nous adoptons une approche s’inspirant de la
désambiguïsation sémantique en construisant un classifieur permettant de
différencier en contexte cette entrée des autres mots. Ce classifieur
est ensuite appliqué à un échantillon des occurrences des voisins de
l’entrée pour repérer ceux les plus éloignés de l’entrée. Nous évaluons
cette méthode pour des thésaurus construits à partir de cooccurrents
syntaxiques et nous montrons l’intérêt de la combiner avec les méthodes
décrites dans (Ferret, 2013) selon une stratégie de type vote. Mot(s) clés libre(s) : traitement automatique du langage naturel, taln2015
|
Accéder à la ressource
|
|
09b - Extraction automatique de relations sémantiques dans les définitions : approche hybride, construction d’un corpus de relations sémantiques pour le français (taln2015)
/ Canal-u.fr
Voir le résumé
Voir le résumé
Sessions orales TALN 2015 – Mardi 23 juin 2015Session SémantiqueExtraction automatique de relations sémantiques dans les
définitions : approche hybride, construction d’un corpus de relations
sémantiques pour le français
Emmanuel Cartier
Résumé : Cet
article présente une expérimentation visant à construire une ressource
sémantique pour le français contemporain à partir d’un corpus d’environ
un million de définitions tirées de deux ressources lexicographiques
(Trésor de la Langue Française, Wiktionary) et d’une ressource
encyclopédique (Wikipedia). L’objectif est d’extraire automatiquement
dans les définitions différentes relations sémantiques : hyperonymie,
synonymie, méronymie, autres relations sémantiques. La méthode suivie
combine la précision des patrons lexico-syntaxiques et le rappel des
méthodes statistiques, ainsi qu’un traitement inédit de canonisation et
de décomposition des énoncés. Après avoir présenté les différentes
approches et réalisations existantes, nous détaillons l’architecture du
système et présentons les résultats : environ 900 000 relations
d’hyperonymie et près de 100 000 relations de synonymie, avec un taux de
précision supérieur à 90% sur un échantillon aléatoire de 500
relations. Plus de 2 millions de prédications définitoires ont également
été extraites. Mot(s) clés libre(s) : traitement automatique du langage naturel, taln2015
|
Accéder à la ressource
|
|
08c - Vers un modèle de détection des affects, appréciations et jugements dans le cadre d’interactions humain-agent (Article RECITAL) (taln2015)
/ Canal-u.fr
Voir le résumé
Voir le résumé
Sessions orales TALN 2015 – Mardi 23 juin 2015Session Opinions et sentimentsVers un modèle de détection des affects, appréciations et jugements dans le cadre d’interactions humain-agent (Article RECITAL)
Caroline LangletRésumé : Cet
article aborde la question de la détection des expressions d’attitude —
affect, d’appréciation et de jugement (Martin and White, 2005)– dans le
contenu verbal de l’utilisateur au cours d’interactions en face-à-face
avec un agent conversationnel animé. Il propose un positionnement en
terme de modèles et de méthodes pour le développement d’un système de
détection adapté aux buts communicationnels de l’agent et à une parole
conversationnelle. Après une description du modèle théorique de
référence choisi, l’article propose un modèle d’annotation des attitudes
dédié l’exploration de ce phénomène dans un corpus d’interaction
humain-agent. Il présente ensuite une première version de notre système.
Cette première version se concentre sur la détection des expressions
d’attitudes pouvant référer à ce qu’aime ou n’aime pas l’utilisateur. Le
système est conçu selon une approche symbolique fondée sur un ensemble
de règles sémantiques et de représentations logico-sémantiques des
énoncés. Mot(s) clés libre(s) : traitement automatique du langage naturel, taln2015
|
Accéder à la ressource
|
|
08b - Une méthodologie de sémantique de corpus appliquée à des tâches de fouille d’opinion et d’analyse des sentiments : étude sur l’impact de marqueurs dialogiques et dialectiques dans l’expression de la subjectivité (taln2015)
/ Canal-u.fr
Voir le résumé
Voir le résumé
Sessions orales TALN 2015 – Mardi 23 juin 2015Session Opinions et sentimentsUne méthodologie de sémantique de corpus appliquée à des
tâches de fouille d’opinion et d’analyse des sentiments : étude sur
l’impact de marqueurs dialogiques et dialectiques dans l’expression de
la subjectivité
9h30-10h00 | Cacher le résumé
Résumé : Cet
article entend dresser, dans un premier temps, un panorama critique des
relations entre TAL et linguistique. Puis, il esquisse une discussion
sur l’apport possible d’une sémantique de corpus dans un contexte
applicatif en s’appuyant sur plusieurs études en fouille de textes
subjectifs (analyse de sentiments et fouille d’opinions). Ces études se
démarquent des approches traditionnelles fondées sur la recherche de
marqueurs axiologiques explicites par l’utilisation de critères relevant
des représentations des acteurs (composante dialogique) et des
structures argumentatives et narratives des textes (composante
dialectique). Nous souhaitons de cette façon mettre en lumière le
bénéfice d’un dialogue méthodologique entre une théorie (la sémantique
textuelle), des méthodes de linguistique de corpus orientées vers
l’analyse du sens (la textométrie) et les usages actuels du TAL en
termes d’algorithmiques (apprentissage automatique) mais aussi de
méthodologie d’évaluation des résultats. Mot(s) clés libre(s) : traitement automatique du langage naturel, taln2015
|
Accéder à la ressource
|
|
08a - Méthode faiblement supervisée pour l’extraction d’opinion ciblée dans un domaine spécifique (taln2015)
/ Canal-u.fr
Voir le résumé
Voir le résumé
Sessions orales TALN 2015 – Mardi 23 juin 2015Session Opinions et sentimentsMéthode faiblement supervisée pour l’extraction d’opinion ciblée dans un domaine spécifique
Romaric Besançon
Résumé : La
détection d’opinion ciblée a pour but d’attribuer une opinion à une
caractéristique particulière d’un produit donné. La plupart des méthodes
existantes envisagent pour cela une approche non supervisée. Or, les
utilisateurs ont souvent une idée a priori des caractéristiques sur
lesquelles ils veulent découvrir l’opinion des gens. Nous proposons dans
cet article une méthode pour une extraction d’opinion ciblée, qui
exploite cette information minimale sur les caractéristiques d’intérêt.
Ce modèle s’appuie sur une segmentation automatique des textes, un
enrichissement des données disponibles par similarité sémantique, et une
annotation de l’opinion par classification supervisée. Nous montrons
l’intérêt de l’approche sur un cas d’étude dans le domaine des jeux
vidéos. Mot(s) clés libre(s) : traitement automatique du langage naturel, taln2015
|
Accéder à la ressource
|
|
07c - Analyse d’expressions temporelles dans les dossiers électroniques patients (taln2015)
/ Canal-u.fr
Voir le résumé
Voir le résumé
Sessions orales TALN 2015 – Mardi 23 juin 2015Session Compréhension et paraphraseAnalyse d’expressions temporelles dans les dossiers électroniques patients
Mike Donald Tapi Nzali, Aurélie Névéol et Xavier Tannier
Résumé : Les
références à des phénomènes du monde réel et à leur caractérisation
temporelle se retrouvent dans beaucoup de types de discours en langue
naturelle. Ainsi, l’analyse temporelle apparaît comme un élément
important en traitement automatique de la langue. Cet article présente
une analyse de textes en domaine de spécialité du point de vue temporel.
En s’appuyant sur un corpus de documents issus de plusieurs dossiers
électroniques patient désidentifiés, nous décrivons la construction
d’une ressource annotée en expressions temporelles selon la norme
TimeML. Par suite, nous utilisons cette ressource pour évaluer plusieurs
méthodes d’extraction automatique d’expressions temporelles adaptées au
domaine médical. Notre meilleur système statistique offre une
performance de 0,91 de F-mesure, surpassant pour l’identification le
système état de l’art HeidelTime. La comparaison de notre corpus de
travail avec le corpus journalistique FR-Timebank permet également de
caractériser les différences d’utilisation des expressions temporelles
dans deux domaines de spécialité. Mot(s) clés libre(s) : traitement automatique du langage naturel, taln2015
|
Accéder à la ressource
|
|
07a - Compréhension automatique de la parole sans données de référence (taln2015)
/ Canal-u.fr
Voir le résumé
Voir le résumé
Sessions orales TALN 2015 – Mardi 23 juin 2015Session Compréhension et paraphrase
Compréhension automatique de la parole sans données de référence
Emmanuel Ferreira, Bassam Jabaian et Fabrice Lefèvre
Résumé : La
majorité des méthodes état de l’art en compréhension automatique de la
parole ont en commun de devoir être apprises sur une grande quantité de
données annotées. Cette dépendance aux données constitue un réel
obstacle lors du développement d’un système pour une nouvelle
tâche/langue. Aussi, dans cette étude, nous présentons une méthode
visant à limiter ce besoin par un mécanisme d’apprentissage sans données
de référence (zero-shot learning). Cette méthode combine une
description ontologique minimale de la tâche visée avec l’utilisation
d’un espace sémantique continu appris par des approches à base de
réseaux de neurones à partir de données génériques non-annotées. Nous
montrons que le modèle simple et peu coûteux obtenu peut atteindre dès
le démarrage des performances comparables à celles des systèmes état de
l’art reposant sur des règles expertes ou sur des approches
probabilistes sur des tâches de compréhension de la parole de référence
(tests des Dialog State Tracking Challenges, DSTC2 et DSTC3). Nous
proposons ensuite une stratégie d’adaptation en ligne permettant
d’améliorer encore les performances de notre approche à l’aide d’une
supervision faible et ajustable de l’utilisateur. Mot(s) clés libre(s) : traitement automatique du langage naturel, taln2015
|
Accéder à la ressource
|
|
06c - Mesurer la similarité entre phrases grâce à Wikipédia en utilisant une indexation aléatoire (taln2015)
/ Canal-u.fr
Voir le résumé
Voir le résumé
Sessions orales TALN 2015 – Mardi 23 juin 2015Session Classification et AlignementMesurer la similarité entre phrases grâce à Wikipédia en utilisant une indexation aléatoire
Hai Hieu Vu, Jeanne Villaneau, Farida Saïd et Pierre-François Marteau
Résumé : Ce
papier présente une méthode pour mesurer la similarité sémantique entre
phrases qui utilise Wikipédia comme unique ressource linguistique et
qui est, de ce fait, utilisable pour un grand nombre de langues. Basée
sur une représentation vectorielle, elle utilise une indexation
aléatoire pour réduire la dimension des espaces manipulés. En outre,
elle inclut une technique de calcul des vecteurs de termes qui corrige les défauts engendrés par l’utilisation d’un corpus aussi
général que Wikipédia. Le système a été évalué sur les données de
SemEval 2014 en anglais avec des résultats très encourageants, au-dessus
du niveau moyen des systèmes en compétition. Il a également été testé
sur un ensemble de paires de phrases en français, à partir de ressources
que nous avons construites et qui seront mises à la libre disposition
de la communauté scientifique. Mot(s) clés libre(s) : traitement automatique du langage naturel, taln2015
|
Accéder à la ressource
|
|
06b - Attribution d’Auteur : approche multilingue fondée sur les répétitions maximales (taln2015)
/ Canal-u.fr
Voir le résumé
Voir le résumé
Sessions orales TALN 2015 – Mardi 23 juin 2015Session Classification et AlignementAttribution d’Auteur : approche multilingue fondée sur les répétitions maximales
Romain Brixtel, Charlotte Lecluze et Gaël Lejeune
Résumé : Cet article s’attaque à la tâche d’Attribution d’Auteur en contexte multilingue.
Nous proposons une alternative aux méthodes supervisées fondées sur les
n-grammes de caractères de longueurs variables : les répétitions
maximales.
Pour un texte donné, la liste de ses n-grammes de caractères contient des informations redondantes.
A contrario, les répétitions maximales représentent l’ensemble des répétitions de ce texte de manière condensée.
Nos expériences montrent que la redondance des n-grammes contribue à
l’efficacité des techniques d’Attribution d’Auteur exploitant des
sous-chaînes de caractères.
Ce constat posé, nous proposons une fonction de pondération sur les
traits donnés en entrée aux classifieurs, en introduisant les
répétitions maximales du n-ème ordre (c-à-d des répétitions maximales
détectées dans un ensemble de répétitions maximales).
Les résultats expérimentaux montrent de meilleures performances avec des
répétitions maximales, avec moins de données que pour les approches
fondées sur les n-grammes.Cet article s’attaque à la tâche d’Attribution
d’Auteur en contexte multilingue.
Nous proposons une alternative aux méthodes supervisées fondées sur les
n-grammes de caractères de longueurs variables : les répétitions
maximales. Mot(s) clés libre(s) : traitement automatique du langage naturel, taln2015
|
Accéder à la ressource
|
|
|<
<< Page précédente
1
2
3
4
5
6
7
8
Page suivante >>
>|
|
documents par page
|