dimanche 1 janvier 2012

Un très joli tableau à 9 colonnes!

Nouvel an, nouvel tableau! ;-)
Notre aventure continue et on se dirige vers la fin de la première partie du projet.

Dans ces jours de vacance on a crée les fichiers .html qui manquaient dans la huitième colonne (et qu'on a appelé motif.html), en ajoutant les lignes de commande qu'on avait écrit dans le post précédente.

On a aussi réussi à régler les problèmes d'accès aux fichiers .txt et .html à partir des tableaux. Le problème était dû au fait que je ne m'étais pas placée dans le bon endroit pour lancer le programme, donc par conséquence tous les répertoires crées par le programme étaient à l'intérieur du seul répertoire "Programmes" et le programme ne pouvait pas trouver le chemin vers les fichiers...

Pour extraire les motifs cherchés dans les trois langues (français, anglais, italien), on a du ajuster l'expression régulière pour deux raisons :

1) au tout début on avait mal fermé les balises et le terminal nous donnait comme type d'erreur: "grep: Echec du pairage de ) ou de \)". Pour résoudre le problème, j'ai cherché sur le web et j'ai trouvé la réponse dans un forum des informaticiens (http://forum.hardware.fr/hfr/OSAlternatifs/Codes-scripts/erreur-tests-sujet_67610_1.htm)

2) puis la machine acceptait comme motif des mots comme "Jour", qu'on ne veut pas. Le problème  était dû au fait qu'on avait utilisé les parenthèses carrées (qui sélectionnent les caractères) à la place des parenthèses rondes (qui sélectionnent une suite des caractères).

Donc l'expression régulière qu'on a utilisé est:

"\bjou(e|ent|er|é|ait|aient)\b|\bpla(y|ys|yed)\b|\bac(t|ts|ted)\b|\brecit(a|ano|are|ato|ava|avano)\b|\bgioc(a|ano|are|ato|ava|avano)\b|\binterpret(a|ano|are|ato|ava|avano)\b"

et finalement on l'a simplifié comme ça :

"\bjou(e|ent|er|é|ait|aient)\b|\bpla(y|ys|yed)\b|\bac(t|ts|ted)\b|\brecit|gioc|interpret(a|ano|are|ato|ava|avano)\b" 

On pourrait encore affiner notre analyse, par exemple incluant des locutions comme "jouer un rôle", "to play a role", "interpretare un ruolo"... Mais on verra...

Voici le résultat pour ce qui concerne notre tableau final à 9 colonnes :


Deux problèmes nous restent encore à resoudre:

1) Il y a encore un problème avec le comptage de nos liens, on a essayé de changer la commande pour la variable "i" qui compte les fichiers (par contre, la variable "j" qui compte les répertoires est ok), mais on n'a pas trouvé une bonne solution...

2) Il y a 7 URLs avec 0 occurrences des motifs cherchés (plus ou moins 2 liens par langue). Le problème est crée par le fait que la page correspondant (en format .txt et en utf-8.txt) contient des (non)mots comme "joué", donc la commande egrep ne peut pas reconnaître le bon motif... ça veut dire qu'il y a encore des problèmes d'encodage à régler...