Jouer avec les verbes: 15 nov. 2011

mardi 15 novembre 2011

A la récherche du contenu des nos liens!

L'étape suivante de notre aventure est d'aspirer les sites Internet correspondant à nos URLs, pour télécharger leur contenu. Pour se faire, nous allons utiliser deux nouvelles commandes : wget et curl.

wget permet d'aspirer le contenu d'un site web, qui sont enregistrées dans un server on line, depuis la ligne de commande.

curl permet d'ajouter une colonne indiquant si le téléchargement des pages web s'est bien passé (0), ou s’il y a eu un erreur.

Le script: on utilise d'abord la commande wget pour aspirer le contenu des nos liens. On ajoute la commande au script qu'on vien d'écrir pour tous nos tableaux.

L'exécution donne des problèmes: pour chaque ligne des fichiers, le terminal dit qu'il n'y a aucun fichier à aspirer... On va réfléchir pour résoudre ce problème!