linux user group brescia

immagine del castello

Archivio della mailing list

[LugBS] estrarre stringhe da files html

8557 Livio Remondini 8557 a aruba.it
Ven 18 Feb 2011 16:48:10 UTC
Ciao ragazzi, avrei un problema di questo tipo se qualcuno mi può aiutare.
Per conto dei frati di Rovato, dovrei creare un indirizzario dei 
compositori di musica italiani; il problema non è creare e gestire il 
database, ma reperire i dati. Esiste una apposita banca dati presso il 
CIDIM (www.cidim.it) ma questo ente non fornisce l'elenco; rimanda al 
suo sito dove i dati si possono trovare uno ad uno.
Sto scaricando con wget l'intero sito che contiene, oltre a tutto il 
resto, circa 1500 files html ciascuno contenente, in due delle 500 
righe, i dati di un autore.

1a domanda forse alquanto stupida: è possibile scaricare in altro modo 
il database dal sito in modo da avere già i dati estratti?

Ho rispolverato i miei vecchi attrezzi del mestiere (io sono fermo 
all'archeologico Clipper) per far scandire automaticamente ciascun file 
ed estrarre quanto mi serve. Il problema è che il testo dei files .html 
non viene correttamente importato nei files .dbf e blocca la macchina.

2a domanda forse più stupida della prima: c'è qualche "attrezzo" che 
permetta di fare il lavoro, anche parzialmente, senza dover imparare un 
linguaggio di programmazione?

Grazie comunque

Livio




Maggiori informazioni sulla lista Lug