vendredi 30 décembre 2011

Contextes

Notre script est bientôt fini, mais il nous reste une étape importante: l'extraction de notre mot dans les trois langues avec le nombre et le contexte de l'occurrence. Pour cela on utilisera la commande egrep plus une belle expression régulière qu'on placera après les commandes lynx et iconv. Maintenant qu'on sait où écrire la commande, qu'est ce qu'on écrit?

Puisqu'on travaille avec le français, l'italien et l'anglais on n'aura pas besoin du programme minigrep disponible sur le site du cours. De plus, on n'a pas réussi à installer ce programme à cause d'une erreur du type 'permission denied' et la commande sudo ne nous ont pas aidé, mais c'est peut-être parce que le terminal ne reconnaissait pas le mot de passe de Francesca.

Voici les nouvelles lignes de commande:

egrep -i "\bjouer\b|\bplay\b|\brecitare\b" ./DUMP-TXT/$j/$i-utf8.txt > ./CONTEXTES/$j/$i-motif.txt ;

nbOccur=??;
nbOccur=$(egrep -o -i "\b$motif\b" ./DUMP-TXT/$j/$i-utf8.txt | wc -l );

-i pour ne pas prendre en compte la case
-l pour extraire la ligne avec l'occurrence du motif
wc sert à compter le nombre d'occurence
pour l'instant on veut juste tester une expression simple, donc on extrait le verbe à l'infinitif. Eventuellement l'expression (à vérifier) sera:
"\bjou[e|ent|er|é|ait|aient]\b|\bplay(s)?|ed\b|\bact(?)| (ed)?\b | \b|\brecit[a|ano|are|ato|ava|avano]\b|\b|\bgioc[a|ano|are|ato|ava|avano]\b|
\binterpret[a|ano|are|ato|ava|avano]\b"

Notre script préliminaire avec les nouvelles additions fait en partie ce qu'on lui demande à faire. Mais, il y a des lignes à modifier.

Quelques problèmes:
On a crée les fichiers txt mais ce script n'a pas crée les fichiers html. Peut-être en répetant la commande ça marchera:

egrep -i "\bjouer\b|\bplay\b|\brecitare\b" ./CONTEXTES/$j/$i-motif.txt > ./CONTEXTES/$j/$i-motif.html;



nbOccur=??;
nbOccur=$(egrep -o -i "\b$motif\b" ./DUMP-TXT/$j/$i-utf8.txt | wc -l );

Avec notre script, on n'arrive pas à accéder les liens .txt (ni les .html d'ailleurs) à partir des tableaux.

Avec certains liens le seul contexte extrait est: 'jouer au poker avec bruno' ce qui n'est pas le contexte recherché, de plus, cette publicité ne s'affiche pas quand on vérifie la page web.

On a toujours un problème avec le comptage de nos liens. La moitié commence bien par 1 et l'autre moitié par 2 au lieu de 1, mais correspond à la première lien URL .

En résumé, il y a plusieurs modifications à faire, mais on avance.

Aucun commentaire:

Enregistrer un commentaire