mercredi 4 janvier 2012

Vers la deuxième partie du projet


On se dirige vers la deuxième partie du projet, laquelle on va construire "des nuages et des arbres des mots". La première phase était la constitution de notre corpus. Le but sera celui de construire un site qui présente une analyse de notre corpus et contient un lien vers notre blog.

Avec Ardas et Prof. Daube, on a réglé les problèmes que nous restaient à résoudre, en ajoutant quelque ligne de code (en gras):

egrep -i "\bjou(e|ent|er|é|ait|aient)\b|\bpla(y|ys|yed)\b|\bac(t|ts|ted)\b|\brecit|gioc|interpret(a|ano|are|ato|ava|avano)\b" ./DUMP-TEXT/$j/$i-utf8.txt > ./CONTEXTES/$j/$i-motif.txt ;
                                                           echo "<html><head><title>motif $i</title><meta http-equiv=\"Content-Type\" content=\"text/html;charset=utf-8\"/></head><body>" > ./CONTEXTES/$j/$i-motif.html;
                                                           egrep -i "\bjou(e|ent|er|é|ait|aient)\b|\bpla(y|ys|yed)\b|\bac(t|ts|ted)\b|\brecit|gioc|interpret(a|ano|are|ato|ava|avano)\b" ./DUMP-TEXT/$j/$i-utf8.txt >> ./CONTEXTES/$j/$i-motif.html ;
                                                           echo "</body></html>" >> ./CONTEXTES/$j/$i-motif.html;

Autrement dit, on a ajouté des balises .html aux fichiers.html créés dans le flux de sortie pour éviter le problème d’affichage créé par le navigateur utilisé. Il ne nous reste que créer un seul fichier qui concatène tous les fichiers .html pour pouvoir donner une représentation graphique de toutes les occurrences de mots qui nous intéressent (i.e. jouer, play, perform, giocare, recitare, interpretare...). Pour ce faire il faudra ajouter deux lignes de code, en utilisant la commande cat qui nous permet de concatener les résultats de l'extraction du motif:

cat ./CONTEXTES/$j/$i-motif.txt >> ./PROGRAMMES/fichierglobal.txt
cat ./CONTEXTES/$j/$i-motif.html >> ./PROGRAMMES/fichierglobal.html

En fait, dans la deuxième phase, on va construire des nuages, c'est-à-dire des graphes ou des représentations graphiques des mots cherchés. Au tout début, on utilisera une application qui s'appelle Wordle (http://www.wordle.net/). Wordle peut nous donner une cartographie des mots choisis et de ses co-occurrences. Il va aussi supprimer les mots communs en français, comme par exemple "de", "des", "le", "la", "les", "un", "une", etc.  (c'est-à-dire les "mots vides", qui vont contituer un "antidictionnaire"). 

Puis, on utilisera autre application, qui s'appelle Trameur (http://www.tal.univ-paris3.fr/trameur/) et nous permettra de construire des nuages de mots, c’est-à-dire des trames des mots qui ne nous donnent pas seulement la forme graphique du mot cherché, mais aussi sa fréquence lexicale et le contexte où le mot apparaît. Le programme segmente le texte donné en mots et il construit un dictionnaire (avec une lemmatisation). Le texte est un flux textuel de mots (avec quatre types d’information : leur forme graphique, leur lemme, leurs catégories et leur fréquence).

On pourra aller plus loin avec une exploration encore plus précise : des graphes de mots qui nous donnent une liste de co-occurrentes des mots qui nous intéressent, i.e. les mots qui, par un calcul statistique, sont plus fréquemment dans le même contexte. On ira calculer la fréquence des mots autour du mot choisi (ex. "jouer"), pour voir quelles sont les mots le plus présentes et on pourra visualiser les mots "attirés" par le mot choisi. Le programme nous permet une analyse de la fréquence du mot, de sa co-fréquence avec les co-occurrentes et les contextes où le mot apparaît. On pourrait aussi demander quelles sont les mots les plus fréquents quand il y a des co-occurrentes : il nous donnera le chemin qui explique la concaténation des co-occurrences des mots choisis. Le but est de proposer une analyse linguistique intéressante à "jouer" en plusieurs langues, grâce à ces outils…