Version imprimable |
Extraire et valider les relations complexes en sciences humaines Statistiques, motifs et règles d'association (Extraction of Complex Relations in Humanistic : Statistics, Itemsets and Association Rules) | ||
Cadot, Martine - (2006-12-12) / Université de Franche-Comté - Extraire et valider les relations complexes en sciences humaines Statistiques, motifs et règles d'association en : Français Directeur(s) de thèse: Lelu , Alain Laboratoire : LASELDI Ecole doctorale : LETS Classification : Langues et linguistique | ||
Mots-clés : fouille de données, fouille de textes, extraction de connaissances, apprentissage artificiel, motifs, règles d'association, motifs flous, règles floues, interaction statistique, significativité statistique, test de randomisation, nettoyage et prétraitement des données, codage et recodage des données. Résumé : Cette thèse concerne la fouille de données en sciences humaines. Cette branche récente de l'intelligence artificielle consiste en un ensemble de méthodes visant à extraire de la connaissance à partir de données stockées sur des supports informatiques. Parmi celles-ci, l'extraction de motifs et de règles d'association est une méthode de traitement des données qui permet de représenter de façon symbolique la structure des données, comme le font les méthodes statistiques classiques, mais qui, contrairement à celles-ci, reste opérationnelle en cas de données complexes, volumineuses. Toutefois ce modèle informatique des données, construit à partir de comptages de cooccurrences, n'est pas directement utilisable par les chercheurs en sciences humaines : il est essentiellement dédié aux données dichotomiques (vrai/faux), ses résultats directs, très morcelés, sont difficiles à interpréter, et sa validité peut paraître douteuse aux chercheurs habitués à la démarche statistique. Nous proposons trois techniques que nous avons construites puis expérimentées sur des données réelles dans le but de réduire les difficultés d’utilisation que nous venons de décrire : 1) un test de randomisation à base d’échanges en cascade dans la matrice sujets x propriétés permet d’obtenir les liaisons entre deux propriétés statistiquement significatives 2) une extension floue de la méthode d’extraction classique des motifs, ce qui donne des règles d’association floues généralisant les règles binaires et proches des règles floues définies par les chercheurs poursuivant les travaux de Zadeh 3) MIDOVA, un algorithme extrayant les seules interactions et des méta-règles pour nettoyer le jeu de règles d'association de ses principales contradictions et redondances Résumé (anglais) : This thesis is about of Data Mining in Humanistic. This branch of Artificial Intelligence is a set of methods for extracting knowledge from electronic data. Among them, the itemsets and association rules extraction is a method to build a symbolic representation of the data structure, like the classical statistical methods makes, but, unlike these ones, it can work with complex and huge data. Therefore, this computer science model, obtained by counting of cooccurrences, is not easily used by scientists : it works with dichotomics data (True/False), the interpretation of its direct results is difficult, and its validity can seem of doubt for researchers working with statistics. We propose three techniques we constructed and experimented on real data to facilitate the use of the itemsets and association rules extraction by scientists : 1) With our randomisation test based on « exchanges in cascade » in the matrix subjects x properties, one can obtain the statistically significant links between properties 2) Our fuzzification of the itemsets and association rules extraction produces fuzzy association rules close to the fuzzy rules defined by researchers of fuzzy community around Zadeh 3) With our algorithm Midova one can only extract interactions, and with our meta-rules, one can clean the association rules set of its principal contradictions and redundancies. Identifiant : UFC-415 |
Exporter au format XML |