Ressource documentaire
06b - Attribution d’Auteur : approche multilingue fondée sur les répétitions maximales (taln2015) (en Français) | |||
Droits : Droits réservés à l'éditeur et aux auteurs 23-06-2015 Description : Sessions orales TALN 2015 – Mardi 23 juin 2015Session Classification et AlignementAttribution d’Auteur : approche multilingue fondée sur les répétitions maximales Romain Brixtel, Charlotte Lecluze et Gaël Lejeune Résumé : Cet article s’attaque à la tâche d’Attribution d’Auteur en contexte multilingue. Nous proposons une alternative aux méthodes supervisées fondées sur les n-grammes de caractères de longueurs variables : les répétitions maximales. Pour un texte donné, la liste de ses n-grammes de caractères contient des informations redondantes. A contrario, les répétitions maximales représentent l’ensemble des répétitions de ce texte de manière condensée. Nos expériences montrent que la redondance des n-grammes contribue à l’efficacité des techniques d’Attribution d’Auteur exploitant des sous-chaînes de caractères. Ce constat posé, nous proposons une fonction de pondération sur les traits donnés en entrée aux classifieurs, en introduisant les répétitions maximales du n-ème ordre (c-à-d des répétitions maximales détectées dans un ensemble de répétitions maximales). Les résultats expérimentaux montrent de meilleures performances avec des répétitions maximales, avec moins de données que pour les approches fondées sur les n-grammes.Cet article s’attaque à la tâche d’Attribution d’Auteur en contexte multilingue. Nous proposons une alternative aux méthodes supervisées fondées sur les n-grammes de caractères de longueurs variables : les répétitions maximales. Mots-clés libres : traitement automatique du langage naturel,taln2015 | TECHNIQUE Type : image en mouvement Format : video/x-flv Source(s) : rtmpt://fms2.cerimes.fr:80/vod/centre_d_enseignement_multimedia_universitaire_c_e_m_u_universit/06b.attribution.da.auteur.approche.multilingue.fond.e.sur.les.r.p.titions.maximales.taln2015._18677/brixtel_sd.mp4 | ||
Entrepôt d'origine : Canal-u.fr Identifiant : oai:canal-u.fr:18677 Type de ressource : Ressource documentaire |
Exporter au format XML |
Ressource pédagogique
06b - Attribution d’Auteur : approche multilingue fondée sur les répétitions maximales (taln2015) (en Français) | |||||||||
Identifiant de la fiche : 18677 Schéma de la métadonnée : LOMv1.0, LOMFRv1.0 Droits : libre de droits, gratuit Droits réservés à l'éditeur et aux auteurs Description : Sessions orales TALN 2015 – Mardi 23 juin 2015Session Classification et AlignementAttribution d’Auteur : approche multilingue fondée sur les répétitions maximales Romain Brixtel, Charlotte Lecluze et Gaël Lejeune Résumé : Cet article s’attaque à la tâche d’Attribution d’Auteur en contexte multilingue. Nous proposons une alternative aux méthodes supervisées fondées sur les n-grammes de caractères de longueurs variables : les répétitions maximales. Pour un texte donné, la liste de ses n-grammes de caractères contient des informations redondantes. A contrario, les répétitions maximales représentent l’ensemble des répétitions de ce texte de manière condensée. Nos expériences montrent que la redondance des n-grammes contribue à l’efficacité des techniques d’Attribution d’Auteur exploitant des sous-chaînes de caractères. Ce constat posé, nous proposons une fonction de pondération sur les traits donnés en entrée aux classifieurs, en introduisant les répétitions maximales du n-ème ordre (c-à-d des répétitions maximales détectées dans un ensemble de répétitions maximales). Les résultats expérimentaux montrent de meilleures performances avec des répétitions maximales, avec moins de données que pour les approches fondées sur les n-grammes.Cet article s’attaque à la tâche d’Attribution d’Auteur en contexte multilingue. Nous proposons une alternative aux méthodes supervisées fondées sur les n-grammes de caractères de longueurs variables : les répétitions maximales. Mots-clés libres : traitement automatique du langage naturel, taln2015
| PEDAGOGIQUE Type pédagogique : cours / présentation Niveau : enseignement supérieur TECHNIQUE Type de contenu : image en mouvement Format : video/x-flv Taille : 116.78 Mo Durée d'exécution : 27 minutes 16 secondes RELATIONS Cette ressource fait partie de : | ||||||||
Entrepôt d'origine : Canal-u.fr Identifiant : oai:canal-u.fr:18677 Type de ressource : Ressource pédagogique |
Exporter au format XML |