miércoles, 13 de abril de 2011

¿Cómo descargar un página web completa desde consola?

wget -r http://www.nombre_de_la_página.com/
 Ahora veremos algunas opciones:
  • ­r indica a wget que haga la descarga de forma recursiva, es decir va a una URL, y sigue cada enlace que encuentra.
  • ­l1 esto le dice a wget que siga los enlaces, pero solo hasta 1 nivel, es decir que no siga los enlaces encontrados en las páginas enlazadas.
  • ­H esto se usa para que baje archivos en otros dominios, no sólo en el actual.
  • ­np indica que no siga enlaces a directorios padre.
  • ­A .mp3 le dice a wget que sólo baje archivos terminados en mp3, evidentemente podemos indicarle el patrón que queramos, pero en este caso sólo nos interesan los mp3.
  • ­nd esta opción sirve para que wget no nos cree la estructura de directorios, sino que lo descarge todo en el mismo directorio.
  • ­t1 se usa para que si falla una descarga haga solo 1 reintento más, así no se nos atascará en un archivo si este falla.
  • ­erobots=off es para que ignore los archivos robots.txt
  • ­N esto es para no descargar el mismo archivo 2 veces, a menos que sea una copia más reciente.
  • ­i listurl.txt este último comando sirve para indicarle cual es el archivo en el que tenemos la lista de URL's que queremos saquear
Cualquier otra duda desde consola: man wget

Fuente:
http://rosauroweb.blogspot.com/2006/12/descargas-masivas-con-wget-mp3-videos.html

No hay comentarios:

Publicar un comentario