linux user group brescia

immagine del castello

Archivio della mailing list

Senza oggetto

Giorgio Pasini Ruffoni giorgio a yoda.ing.unibs.it
Gio 9 Mar 2000 10:13:06 UTC
****************************************************************
*   Mini_How_to sull'uso veloce e immediato di wget.           *
****************************************************************

a cura di:
Pasini Ruffoni Giorgio
Presidente Associazione Studenti in Ingegneria Gestionale
Pro.Gest (PROgetto GESTionali)
c/o Aula Rappresentanti 
Facolta' di Ingegneria,
Universita' degli studi di Brescia
email: giorgio a yoda.ing.unibs.it

***********************************************************************
COS'E'

Wget (webget) e' un potentissimo programma
utilizzato per scaricare interi siti o file attraverso
i principali protocolli utilizzati su internet.

Sviluppato con l'apposita funzione di fare mirror di siti,
nell'ottica Open Source, e' il software piu' aggionrato 
ed in continuo sviluppo e comprende una 
quasi  totale compatibilita' per cgi-bin, asp, javascript.

Lo si puo' usare per:

-Fare mirror di siti
-Prendere dall'intererzza del sito solo particolari file
(es. tutte le foto dell'ultimo gp in www.f1-live.com)
-Scaricare file (e, alla getright, ripartire da dove era
  	arrivato in caso di errori)
-Scaricare alberi ftp
-Controllare se dei file su un sito sono stati aggiornati
-altro, con varie combinazioni delle opzioni a disposizione

e soprattutto poter navigare offline il sito scaricato senza
fretta! (ehehe) - con un browser di supporto
------------------------------------------------



***********************************************************************
DOVE LO TROVO?


E' compreso nelle piu' comuni disitrubuzioni.
Nella redhat se avete una versione precedente alla 6 ve lo troverete 
gia' installato.
Altrimenti nella 6.0 lo avete sul CD in /RPMS/wget*.rpm
oppure lo trovate a:
ftp://ftp.redhat.com/redhat/redhat-5.2/i386/RedHat/RPMS/wget-1.5.3-2.i386.rpm

installatelo con 
rpm -i wget*.rpm





***********************************************************************
IN BREVE, COME SI USA?
***********************************************************************
***********************************************************************
SCARICARE I FILE (anche in piu' parti)
******************

Iniziamo con un esmepio:
per scaricare il nuovo cdrecord sul sito www.linuxberg.com
nella directory linuxsoftware

in http
wget http://www.linuxberg.com/linuxsoftware/cdrecord-1.tar.gz

in ftp
wget ftp://ftp.linuxberg.com/linuxsoftware/cdrecord-1.tar.gz

se vi siete sconnessi o c'e' stato un errore prima della fine dello
scaricamento,
con
wget -N http://www.linuxberg.com/linuxsoftware/cdrecord-1.tar.gz
potete continuare a scaricare il file da dove eravate arrivati.




***********************************************************************
SCARICARE UN SITO
*******************

usate sempre:
wget -N -r -l6 -k -t10 -T60 -A htm,html http://www.ferrari.it

spiegazione:
-T 60 : quando la rete vi da' errore, o il trasferimento e' interrotto per
qualche motivo, riparte dopo 60 secondi massimo di inattivita'

-t 10 : dopo 10 errori smette di provare -t0 significa tentativi infiniti

-N : dopo ogni errore o file scaricato per meta', riparte da dove era
arrivato

-r -l 6: fa il mirror seguendo i link (-r) fino a una prfondita' di 6 (-l)

-k : se nelle pagine web trovo riferimenti assoluti, li trasformo in
relativi, per poterci navigare tranquillamente poi offline

**** LA KIKKA ****
-A htm,html specifica di scaricare solo i file che finiscono per htm e
html.
Se ad esempio volete scaricare da un sito tutte le immagini della ferrari
senza scaricare le gif (che di solito sono i banner), specificate

wget -N -r -l1 -k -t10 -T 60 -A jpg http://www.ferari.it/images/immag.html


aggiungete un
--no-parent se non volete scaricare senza le immagini del sito nella 
directory antecedente a images nel caso fossero linkate
(es. per la presenza di un link che punti alla home page)



************************************************************************
AGGIORNARE UN SITO GIA' SCARICATO
*********************************

ripetete il comando di quando avete scaricato il sito.
l'opzione -N fa anche da controllo sulla data dei file.
wget li passa tutti e quando vede un file aggiornato lo scarica,
altrimenti lo ignora.






************************************************************************
COME SCARICARE DI NOTTE A UN ORA CHE VOLETE 
(ovvero quando la rete non e' intasata)
*******************

Avete un potentissimo sistema linux.
Fate allora questo, se siete utenti dialup:
da root aggiornate il crontab in modo che, ad esempio, alle
5.00 di mattina parta il collegamento ad internet, con lo script da
voi creato per collegarvi
(es.)
00 5 * * * /etc/ppp/ppp-on
30 5 * * * /bin/killall pppd
31 5 * * * /sbin/shutdown -h now

oppure
31 5 * * * /sbin/apm -s

in modo che alle 5 si connetta e alle 5 e 30 si sconnetta
e alle 5 e 31 si spenga oppure vada in standby

se avete quindi programmato 30 minuti di connessione
(a queste ore la velocita' della connessione e' solo limitata
dalla velocita' del vostro modem)

mentre non da root ma da utente create un crontab di questo tipo:
01 5 * * * /home/utente/scaricami.job

in modo che parta il batch scaricami.job che avete creato
precedentemente

pico scaricami.job
inserite
wget -N [...] http://quellochevolete
e rendetelo eseguibile con
chmod a+x scaricami.job

Quindi il computer si colleghera' ad internet alle 5 e alla massima
velocita' possibile fino a che finisce di scaricare (se lo fa entro le 5 e
30). se finisce prima potreste fare in modo che utente possa
uccidere il pppd in modo da non far rimanere connesso il computer
inutilmente.



P.S: Sarebbe utile la mattina capire cosa e' successo,
per fare questo fare scrivere a wget un file di log.

wget -o logfile.text -N [...] http://www......



**************************************************************************
PROGRAMMARE AGGIORNAMENTI SETTIMANALI DI UN SITO
************************************************

Se siete perennemente connessi
usate il cron da utente in modo che il wget venga eseguito
una volta alla settimana.

Se avete un account dialup
programmate settimanalmente (esempio tutti i lunedi')
lo scaricamento notturno fatto al punto precedente.
Ricordatevi il lunedi' notte di lasciare acceso il computer!






**************************************************************************
Doveri finali
**************

wget e' compreso in tutte le maggiori distribuzioni.
se non e' installato trovate l'RPM o il tar.gz e
installatelo nei soliti metodi.
Per maggiori infomazioni una volta installato
usate il comando 
man wget


Non si assume nessuna responsabilita' dei danni eventualmente al vostro
computer, ai vostri dati, alla vostra bolletta del telefono per le
informazioni trovate in questo file.


Giorgio Pasini Ruffoni.



Maggiori informazioni sulla lista Lug