mardi 22 novembre 2011

Prochaine étape: la commande Lynx

L'étape suivante de notre aventure est de créer des fichiers contenant le texte brut des pages aspirées et correspondant à nos URLs. Pour ce faire, nous allons utiliser une nouvelle commande : Lynx.

Le script: On a ajouté, grace à l'aide de notre camarade Thomas, la commande retourcurl et la commande lynx au script qu'on avait écrit pour aspirer les pages pour tous nos tableaux.



L'execution: D'abord, j'ai du installer la commande Lynx en tapant sudo apt-get install Lynx parce que le terminal disait que la commande était introuvable. Parfois, il n'a pas pu récupérer le texte, parce qu'il ne pouvait pas joindre le "host" ou il n'avait pas d'accès au fichier texte.


Le résultat: On a ajouté une colonne qui affiche le "status du curl" et une colonne qui affiche le link au texte brut.


On a créé des fichiers contenant le texte brut des pages aspirées dans le répertoire DUMP-TEXTE: