lundi 28 novembre 2011

Phase 3: lynx, egrep

Objectif : Lire un fichier contenant une liste d'URL, produire un fichier HTMLcontenant un tableau (à 3 colonnes) regroupant (1) ces URLs, (2)les pages aspiréescorrespondantes,(3) les DUMPS des pages aspirées obtenus avec lynx. Etablir les liens vers les 3 ressources (URL, page locale,dump).

Pour réaliser la prochaine étape de notre projet, nous avons d'abord modifier notre script en
ajoutant les commandes lynx et egrep en espérant récupérer le texte de nos liens https, ensuite identifier l'encodage et le convertir en UTF-8 si ce n'était pas déjà le cas. Ces deux dernières phases nous ont posé des problèmes.

Voici le script (pour voir les premières lignes, redirigez-vous vers les posts précédents) :

Et voici le résultat:
Mais l'encodage de plusieurs liens ne sont pas détéctés et par conséquence ils n'ont pas été converti en UTF-8. Dans notre script original on avait inclus la vérification suivante:
#---------------------avant de continuer on va vérifier si le charset est connu de iconv---------------
VERIFENCODAGEDANSICONV=$(iconv -l | egrep -io $encodage | sort -u);
if [[ $VERIFENCODAGEDANSICONV == "" ]]
then
#-------------------------------------------
# le charset n'est pas connu de iconv : on fait rien....
#-------------------------------------------
echo "VERIF : <$VERIFENCODAGEDANSICONV> ==> inconnu par inconv, on ne fait rien"

Mais avec l'inclusion de cette commande, aucun URL a été détécté.
Voici une image du Terminal avec l'opération ci-dessus:

Notre script n'est pas complet et nous n'arrivons pas pour l'instant à détécter avec succès tous les URLS et ensuite les convertir.

Un autre petit souci concernant la mise en page: nous souhaitons mettre en place à l'extérieur des tableaux un fond de couleur mais nous n'y arrivons pas. Devons-nous l'écrire entre les bâlises table ou style? Est-ce que c'est bg color ou background ou ça n'a pas d'importance?