Dans la lignée du billet sur le plugin Site Archive pour SPIP, un script de base pour la copie miroir d’un site web via la commande wget :
#!/bin/sh
if [ ! -n "$1" ]
then
echo "Usage: `basename $0` url"
exit
fi
wget -r --page-requisites \
--convert-links \
--backup-converted \
--cut-dirs=1 \
--restrict-file-names=windows \
"$1"Cet exemple permet de recopier un site web, ou un extrait de site, donné en paramètre dans un dossier qui porte le nom du site de ce paramètre.
Les options wget utilisées
- -r pour le mode récursif ;
- —page-requisites télécharger tous les fichiers nécessaires à l’affichage de la page ;
- —backup-converted conserver une copie du fichier converti ;
- —cut-dirs=1 ignorer le premier répertoire dans la restitution. Permet de raccourcir les liens ;
- —restrict-file-names=windows renomme les fichiers pour être exploitables par Windows. Besoin cruel pour les URL du type http://foo.bar/?spip.php ou le ? est incompris par l’outil de (dé)compression sous XP. Avec cette option, le ? est converti en @.
Documentations wget
A lire, parfois en français :
- La page officielle de wget sur GNU.org (en) ;
- La page wget sur Wikipedia (fr) ;
- Guide de Pierre-Yves Landuré : Utiliser wget pour réaliser le miroir d’un site Internet (fr) ;
- Traduction du manuel wget par Sébastien Blanchet (fr) ;
- Un billet de Stéphane Bortzmeyer, wget et approche httrack (fr) ;
- Comparatif curl vs wget, par Daniel (en) ;
- Site httrack (fr).