On se dirige vers la deuxième partie du projet, laquelle on va construire
"des nuages et des arbres des mots". La première phase
était la constitution de notre corpus. Le but sera celui de construire un
site qui présente une analyse de notre corpus et contient un lien vers notre
blog.
Avec Ardas et
Prof. Daube, on a réglé les problèmes que nous restaient à résoudre, en
ajoutant quelque ligne de code (en gras):
egrep -i
"\bjou(e|ent|er|é|ait|aient)\b|\bpla(y|ys|yed)\b|\bac(t|ts|ted)\b|\brecit|gioc|interpret(a|ano|are|ato|ava|avano)\b"
./DUMP-TEXT/$j/$i-utf8.txt > ./CONTEXTES/$j/$i-motif.txt ;
echo
"<html><head><title>motif $i</title><meta
http-equiv=\"Content-Type\"
content=\"text/html;charset=utf-8\"/></head><body>"
> ./CONTEXTES/$j/$i-motif.html;
egrep -i
"\bjou(e|ent|er|é|ait|aient)\b|\bpla(y|ys|yed)\b|\bac(t|ts|ted)\b|\brecit|gioc|interpret(a|ano|are|ato|ava|avano)\b"
./DUMP-TEXT/$j/$i-utf8.txt >> ./CONTEXTES/$j/$i-motif.html ;
echo
"</body></html>" >> ./CONTEXTES/$j/$i-motif.html;
Autrement dit, on a ajouté des balises .html aux fichiers.html créés dans
le flux de sortie pour éviter le problème d’affichage créé par le navigateur
utilisé. Il ne nous reste que créer un seul fichier qui concatène tous les
fichiers .html pour pouvoir donner une représentation graphique de toutes les
occurrences de mots qui nous intéressent (i.e. jouer, play, perform, giocare,
recitare, interpretare...). Pour ce faire il faudra ajouter deux lignes de code, en utilisant la commande cat qui nous permet de concatener les résultats de l'extraction du motif:
cat ./CONTEXTES/$j/$i-motif.txt >> ./PROGRAMMES/fichierglobal.txt
cat ./CONTEXTES/$j/$i-motif.html >> ./PROGRAMMES/fichierglobal.html
cat ./CONTEXTES/$j/$i-motif.txt >> ./PROGRAMMES/fichierglobal.txt
cat ./CONTEXTES/$j/$i-motif.html >> ./PROGRAMMES/fichierglobal.html
En fait, dans la deuxième phase, on va construire des nuages, c'est-à-dire
des graphes ou des représentations graphiques des mots cherchés. Au tout début,
on utilisera une application qui s'appelle Wordle (http://www.wordle.net/). Wordle peut nous donner une cartographie des mots choisis et de ses
co-occurrences. Il va aussi supprimer les mots communs en français, comme
par exemple "de", "des", "le", "la", "les", "un", "une", etc. (c'est-à-dire les "mots vides", qui vont contituer un "antidictionnaire").
Puis, on utilisera autre application, qui s'appelle Trameur (http://www.tal.univ-paris3.fr/trameur/) et nous permettra de construire des
nuages de mots, c’est-à-dire des trames des mots qui ne nous donnent pas
seulement la forme graphique du mot cherché, mais aussi sa fréquence
lexicale et le contexte où le mot apparaît. Le programme segmente le texte
donné en mots et il construit un dictionnaire (avec une lemmatisation). Le texte est un flux textuel de mots (avec quatre types d’information :
leur forme graphique, leur lemme, leurs catégories et leur fréquence) .
On pourra aller plus loin avec une exploration encore plus précise :
des graphes de mots qui nous donnent une liste de co-occurrentes des mots qui
nous intéressent, i.e. les mots qui, par un calcul statistique, sont
plus fréquemment dans le même contexte. On ira calculer la fréquence
des mots autour du mot choisi (ex. "jouer"), pour voir quelles sont
les mots le plus présentes et on pourra visualiser les mots
"attirés" par le mot choisi. Le programme nous permet une analyse de
la fréquence du mot, de sa co-fréquence avec les co-occurrentes et les contextes
où le mot apparaît. On pourrait aussi demander quelles sont les mots les
plus fréquents quand il y a des co-occurrentes : il nous donnera le chemin
qui explique la concaténation des co-occurrences des mots choisis. Le but est
de proposer une analyse linguistique intéressante à "jouer" en plusieurs
langues, grâce à ces outils…
Aucun commentaire:
Enregistrer un commentaire