Pédagogie > Recherche thématique

Recherche thématique en passant par le pivot dewey

Recherche en cours
	Linguistique

Modifier la recherche Nouvelle recherche

76 ressources ont été trouvées. Voici les résultats 51 à 60

|< << Page précédente 1 2 3 4 5 6 7 8 Page suivante >> >|

documents par page

Tri : Date Editeur Auteur Titre
	10b - …des conférences enfin disons des causeries… Détection automatique de segments en relation de paraphrase dans les reformulations de corpus oraux (taln2015) / Canal-u.fr Voir le résumé Voir le résumé Sessions orales TALN 2015 – Mardi 23 juin 2015Session Plénière…des conférences enfin disons des causeries… Détection automatique de segments en relation de paraphrase dans les reformulations de corpus oraux Natalia Grabar et Iris Eshkol Résumé : Notre travail porte sur la détection automatique des segments en relation de reformulation paraphrastique dans les corpus oraux. L’approche proposée est une approche syntagmatique qui tient compte des marqueurs de reformulation paraphrastique et des spécificités de l’oral. Les données de référence sont consensuelles. Une méthode automatique fondée sur l’apprentissage avec les CRF est proposée afin de détecter les segments paraphrasés. Différents descripteurs sont exploités dans une fenêtre de taille variable. Les tests effectués montrent que les segments en relation de paraphrase sont assez difficiles à détecter, surtout avec leurs frontières correctes. Les meilleures moyennes atteignent 0,65 de F-mesure, 0,75 de précision et 0,63 de rappel. Nous avons plusieurs perspectives à ce travail pour améliorer la détection des segments en relation de paraphrase et pour étudier les données d’autres points de vue. Mot(s) clés libre(s) : traitement automatique du langage naturel, taln2015 \| Accéder à la ressource
	09c - Déclasser les voisins non sémantiques pour améliorer les thésaurus distributionnels (taln2015) / Canal-u.fr Voir le résumé Voir le résumé Sessions orales TALN 2015 – Mardi 23 juin 2015Session SémantiqueDéclasser les voisins non sémantiques pour améliorer les thésaurus distributionnels Olivier Ferret Résumé : La plupart des méthodes d’amélioration des thésaurus distributionnels se focalisent sur les moyens – représentations ou mesures de similarité – de mieux détecter la similarité sémantique entre les mots. Dans cet article, nous proposons un point de vue inverse : nous cherchons à détecter les voisins sémantiques associés à une entrée les moins susceptibles d’être liés sémantiquement à elle et nous utilisons cette information pour réordonner ces voisins. Pour détecter les faux voisins sémantiques d’une entrée, nous adoptons une approche s’inspirant de la désambiguïsation sémantique en construisant un classifieur permettant de différencier en contexte cette entrée des autres mots. Ce classifieur est ensuite appliqué à un échantillon des occurrences des voisins de l’entrée pour repérer ceux les plus éloignés de l’entrée. Nous évaluons cette méthode pour des thésaurus construits à partir de cooccurrents syntaxiques et nous montrons l’intérêt de la combiner avec les méthodes décrites dans (Ferret, 2013) selon une stratégie de type vote. Mot(s) clés libre(s) : traitement automatique du langage naturel, taln2015 \| Accéder à la ressource
	09b - Extraction automatique de relations sémantiques dans les définitions : approche hybride, construction d’un corpus de relations sémantiques pour le français (taln2015) / Canal-u.fr Voir le résumé Voir le résumé Sessions orales TALN 2015 – Mardi 23 juin 2015Session SémantiqueExtraction automatique de relations sémantiques dans les définitions : approche hybride, construction d’un corpus de relations sémantiques pour le français Emmanuel Cartier Résumé : Cet article présente une expérimentation visant à construire une ressource sémantique pour le français contemporain à partir d’un corpus d’environ un million de définitions tirées de deux ressources lexicographiques (Trésor de la Langue Française, Wiktionary) et d’une ressource encyclopédique (Wikipedia). L’objectif est d’extraire automatiquement dans les définitions différentes relations sémantiques : hyperonymie, synonymie, méronymie, autres relations sémantiques. La méthode suivie combine la précision des patrons lexico-syntaxiques et le rappel des méthodes statistiques, ainsi qu’un traitement inédit de canonisation et de décomposition des énoncés. Après avoir présenté les différentes approches et réalisations existantes, nous détaillons l’architecture du système et présentons les résultats : environ 900 000 relations d’hyperonymie et près de 100 000 relations de synonymie, avec un taux de précision supérieur à 90% sur un échantillon aléatoire de 500 relations. Plus de 2 millions de prédications définitoires ont également été extraites. Mot(s) clés libre(s) : traitement automatique du langage naturel, taln2015 \| Accéder à la ressource
	08c - Vers un modèle de détection des affects, appréciations et jugements dans le cadre d’interactions humain-agent (Article RECITAL) (taln2015) / Canal-u.fr Voir le résumé Voir le résumé Sessions orales TALN 2015 – Mardi 23 juin 2015Session Opinions et sentimentsVers un modèle de détection des affects, appréciations et jugements dans le cadre d’interactions humain-agent (Article RECITAL) Caroline LangletRésumé : Cet article aborde la question de la détection des expressions d’attitude — affect, d’appréciation et de jugement (Martin and White, 2005)– dans le contenu verbal de l’utilisateur au cours d’interactions en face-à-face avec un agent conversationnel animé. Il propose un positionnement en terme de modèles et de méthodes pour le développement d’un système de détection adapté aux buts communicationnels de l’agent et à une parole conversationnelle. Après une description du modèle théorique de référence choisi, l’article propose un modèle d’annotation des attitudes dédié l’exploration de ce phénomène dans un corpus d’interaction humain-agent. Il présente ensuite une première version de notre système. Cette première version se concentre sur la détection des expressions d’attitudes pouvant référer à ce qu’aime ou n’aime pas l’utilisateur. Le système est conçu selon une approche symbolique fondée sur un ensemble de règles sémantiques et de représentations logico-sémantiques des énoncés. Mot(s) clés libre(s) : traitement automatique du langage naturel, taln2015 \| Accéder à la ressource
	08b - Une méthodologie de sémantique de corpus appliquée à des tâches de fouille d’opinion et d’analyse des sentiments : étude sur l’impact de marqueurs dialogiques et dialectiques dans l’expression de la subjectivité (taln2015) / Canal-u.fr Voir le résumé Voir le résumé Sessions orales TALN 2015 – Mardi 23 juin 2015Session Opinions et sentimentsUne méthodologie de sémantique de corpus appliquée à des tâches de fouille d’opinion et d’analyse des sentiments : étude sur l’impact de marqueurs dialogiques et dialectiques dans l’expression de la subjectivité 9h30-10h00 \| Cacher le résumé Résumé : Cet article entend dresser, dans un premier temps, un panorama critique des relations entre TAL et linguistique. Puis, il esquisse une discussion sur l’apport possible d’une sémantique de corpus dans un contexte applicatif en s’appuyant sur plusieurs études en fouille de textes subjectifs (analyse de sentiments et fouille d’opinions). Ces études se démarquent des approches traditionnelles fondées sur la recherche de marqueurs axiologiques explicites par l’utilisation de critères relevant des représentations des acteurs (composante dialogique) et des structures argumentatives et narratives des textes (composante dialectique). Nous souhaitons de cette façon mettre en lumière le bénéfice d’un dialogue méthodologique entre une théorie (la sémantique textuelle), des méthodes de linguistique de corpus orientées vers l’analyse du sens (la textométrie) et les usages actuels du TAL en termes d’algorithmiques (apprentissage automatique) mais aussi de méthodologie d’évaluation des résultats. Mot(s) clés libre(s) : traitement automatique du langage naturel, taln2015 \| Accéder à la ressource
	08a - Méthode faiblement supervisée pour l’extraction d’opinion ciblée dans un domaine spécifique (taln2015) / Canal-u.fr Voir le résumé Voir le résumé Sessions orales TALN 2015 – Mardi 23 juin 2015Session Opinions et sentimentsMéthode faiblement supervisée pour l’extraction d’opinion ciblée dans un domaine spécifique Romaric Besançon Résumé : La détection d’opinion ciblée a pour but d’attribuer une opinion à une caractéristique particulière d’un produit donné. La plupart des méthodes existantes envisagent pour cela une approche non supervisée. Or, les utilisateurs ont souvent une idée a priori des caractéristiques sur lesquelles ils veulent découvrir l’opinion des gens. Nous proposons dans cet article une méthode pour une extraction d’opinion ciblée, qui exploite cette information minimale sur les caractéristiques d’intérêt. Ce modèle s’appuie sur une segmentation automatique des textes, un enrichissement des données disponibles par similarité sémantique, et une annotation de l’opinion par classification supervisée. Nous montrons l’intérêt de l’approche sur un cas d’étude dans le domaine des jeux vidéos. Mot(s) clés libre(s) : traitement automatique du langage naturel, taln2015 \| Accéder à la ressource
	07c - Analyse d’expressions temporelles dans les dossiers électroniques patients (taln2015) / Canal-u.fr Voir le résumé Voir le résumé Sessions orales TALN 2015 – Mardi 23 juin 2015Session Compréhension et paraphraseAnalyse d’expressions temporelles dans les dossiers électroniques patients Mike Donald Tapi Nzali, Aurélie Névéol et Xavier Tannier Résumé : Les références à des phénomènes du monde réel et à leur caractérisation temporelle se retrouvent dans beaucoup de types de discours en langue naturelle. Ainsi, l’analyse temporelle apparaît comme un élément important en traitement automatique de la langue. Cet article présente une analyse de textes en domaine de spécialité du point de vue temporel. En s’appuyant sur un corpus de documents issus de plusieurs dossiers électroniques patient désidentifiés, nous décrivons la construction d’une ressource annotée en expressions temporelles selon la norme TimeML. Par suite, nous utilisons cette ressource pour évaluer plusieurs méthodes d’extraction automatique d’expressions temporelles adaptées au domaine médical. Notre meilleur système statistique offre une performance de 0,91 de F-mesure, surpassant pour l’identification le système état de l’art HeidelTime. La comparaison de notre corpus de travail avec le corpus journalistique FR-Timebank permet également de caractériser les différences d’utilisation des expressions temporelles dans deux domaines de spécialité. Mot(s) clés libre(s) : traitement automatique du langage naturel, taln2015 \| Accéder à la ressource
	07a - Compréhension automatique de la parole sans données de référence (taln2015) / Canal-u.fr Voir le résumé Voir le résumé Sessions orales TALN 2015 – Mardi 23 juin 2015Session Compréhension et paraphrase Compréhension automatique de la parole sans données de référence Emmanuel Ferreira, Bassam Jabaian et Fabrice Lefèvre Résumé : La majorité des méthodes état de l’art en compréhension automatique de la parole ont en commun de devoir être apprises sur une grande quantité de données annotées. Cette dépendance aux données constitue un réel obstacle lors du développement d’un système pour une nouvelle tâche/langue. Aussi, dans cette étude, nous présentons une méthode visant à limiter ce besoin par un mécanisme d’apprentissage sans données de référence (zero-shot learning). Cette méthode combine une description ontologique minimale de la tâche visée avec l’utilisation d’un espace sémantique continu appris par des approches à base de réseaux de neurones à partir de données génériques non-annotées. Nous montrons que le modèle simple et peu coûteux obtenu peut atteindre dès le démarrage des performances comparables à celles des systèmes état de l’art reposant sur des règles expertes ou sur des approches probabilistes sur des tâches de compréhension de la parole de référence (tests des Dialog State Tracking Challenges, DSTC2 et DSTC3). Nous proposons ensuite une stratégie d’adaptation en ligne permettant d’améliorer encore les performances de notre approche à l’aide d’une supervision faible et ajustable de l’utilisateur. Mot(s) clés libre(s) : traitement automatique du langage naturel, taln2015 \| Accéder à la ressource
	06c - Mesurer la similarité entre phrases grâce à Wikipédia en utilisant une indexation aléatoire (taln2015) / Canal-u.fr Voir le résumé Voir le résumé Sessions orales TALN 2015 – Mardi 23 juin 2015Session Classification et AlignementMesurer la similarité entre phrases grâce à Wikipédia en utilisant une indexation aléatoire Hai Hieu Vu, Jeanne Villaneau, Farida Saïd et Pierre-François Marteau Résumé : Ce papier présente une méthode pour mesurer la similarité sémantique entre phrases qui utilise Wikipédia comme unique ressource linguistique et qui est, de ce fait, utilisable pour un grand nombre de langues. Basée sur une représentation vectorielle, elle utilise une indexation aléatoire pour réduire la dimension des espaces manipulés. En outre, elle inclut une technique de calcul des vecteurs de termes qui corrige les défauts engendrés par l’utilisation d’un corpus aussi général que Wikipédia. Le système a été évalué sur les données de SemEval 2014 en anglais avec des résultats très encourageants, au-dessus du niveau moyen des systèmes en compétition. Il a également été testé sur un ensemble de paires de phrases en français, à partir de ressources que nous avons construites et qui seront mises à la libre disposition de la communauté scientifique. Mot(s) clés libre(s) : traitement automatique du langage naturel, taln2015 \| Accéder à la ressource
	06b - Attribution d’Auteur : approche multilingue fondée sur les répétitions maximales (taln2015) / Canal-u.fr Voir le résumé Voir le résumé Sessions orales TALN 2015 – Mardi 23 juin 2015Session Classification et AlignementAttribution d’Auteur : approche multilingue fondée sur les répétitions maximales Romain Brixtel, Charlotte Lecluze et Gaël Lejeune Résumé : Cet article s’attaque à la tâche d’Attribution d’Auteur en contexte multilingue. Nous proposons une alternative aux méthodes supervisées fondées sur les n-grammes de caractères de longueurs variables : les répétitions maximales. Pour un texte donné, la liste de ses n-grammes de caractères contient des informations redondantes. A contrario, les répétitions maximales représentent l’ensemble des répétitions de ce texte de manière condensée. Nos expériences montrent que la redondance des n-grammes contribue à l’efficacité des techniques d’Attribution d’Auteur exploitant des sous-chaînes de caractères. Ce constat posé, nous proposons une fonction de pondération sur les traits donnés en entrée aux classifieurs, en introduisant les répétitions maximales du n-ème ordre (c-à-d des répétitions maximales détectées dans un ensemble de répétitions maximales). Les résultats expérimentaux montrent de meilleures performances avec des répétitions maximales, avec moins de données que pour les approches fondées sur les n-grammes.Cet article s’attaque à la tâche d’Attribution d’Auteur en contexte multilingue. Nous proposons une alternative aux méthodes supervisées fondées sur les n-grammes de caractères de longueurs variables : les répétitions maximales. Mot(s) clés libre(s) : traitement automatique du langage naturel, taln2015 \| Accéder à la ressource

|< << Page précédente 1 2 3 4 5 6 7 8 Page suivante >> >|

documents par page

© 2006-2010 ORI-OAI