Puisqu'on travaille avec le français, l'italien et l'anglais on n'aura pas besoin du programme minigrep disponible sur le site du cours. De plus, on n'a pas réussi à installer ce programme à cause d'une erreur du type 'permission denied' et la commande sudo ne nous ont pas aidé, mais c'est peut-être parce que le terminal ne reconnaissait pas le mot de passe de Francesca.
Voici les nouvelles lignes de commande:
egrep -i "\bjouer\b|\bplay\b|\brecitare\b" ./DUMP-TXT/$j/$i-utf8.txt > ./CONTEXTES/$j/$i-motif.txt ;
nbOccur=??;
nbOccur=$(egrep -o -i "\b$motif\b" ./DUMP-TXT/$j/$i-utf8.txt | wc -l );
-i pour ne pas prendre en compte la case
-l pour extraire la ligne avec l'occurrence du motif
wc sert à compter le nombre d'occurence
pour l'instant on veut juste tester une expression simple, donc on extrait le verbe à l'infinitif. Eventuellement l'expression (à vérifier) sera:
"\bjou[e|ent|er|é|ait|aient]\b|\bplay(s)?|ed\b|\bact(?)| (ed)?\b | \b|\brecit[a|ano|are|ato|ava|avano]\b|\b|\bgioc[a|ano|are|ato|ava|avano]\b|
\binterpret[a|ano|are|ato|ava|avano]\b"
Notre script préliminaire avec les nouvelles additions fait en partie ce qu'on lui demande à faire. Mais, il y a des lignes à modifier.
Quelques problèmes:
On a crée les fichiers txt mais ce script n'a pas crée les fichiers html. Peut-être en répetant la commande ça marchera:
egrep -i "\bjouer\b|\bplay\b|\brecitare\b" ./CONTEXTES/$j/$i-motif.txt > ./CONTEXTES/$j/$i-motif.html;
nbOccur=??;
nbOccur=$(egrep -o -i "\b$motif\b" ./DUMP-TXT/$j/$i-utf8.txt | wc -l );
Avec notre script, on n'arrive pas à accéder les liens .txt (ni les .html d'ailleurs) à partir des tableaux.
Avec certains liens le seul contexte extrait est: 'jouer au poker avec bruno' ce qui n'est pas le contexte recherché, de plus, cette publicité ne s'affiche pas quand on vérifie la page web.
On a toujours un problème avec le comptage de nos liens. La moitié commence bien par 1 et l'autre moitié par 2 au lieu de 1, mais correspond à la première lien URL .
En résumé, il y a plusieurs modifications à faire, mais on avance.