linux user group brescia

immagine del castello

Archivio della mailing list

[LugBS] estrarre stringhe da files html

Andrea Gelmini andrea.gelmini a gmail.com
Ven 18 Feb 2011 17:05:37 UTC
Il 18 febbraio 2011 17:48, 8557 Livio Remondini <8557 a aruba.it> ha scritto:
> 1a domanda forse alquanto stupida: è possibile scaricare in altro modo il
> database dal sito in modo da avere già i dati estratti?

Dipende da come/dove sono messi i dati.
Se questi fosse in un file/db locale, accessibile attraverso il server web, sì.
Diversamente no.

Tanto per fare un esempio sciocco, gli eventi dell'homepage del lug sono
estratti dal file log_eventi.txt.
Questo rende possibile richiedere direttamente lo stesso file in forma non
renderizzata.

> 2a domanda forse più stupida della prima: c'è qualche "attrezzo" che
> permetta di fare il lavoro, anche parzialmente, senza dover imparare un
> linguaggio di programmazione?

Oddio, vedo due strade:
a) un uso sapiente (se possibile, ovviamente, ma questo dipende dal
formato sorgente) di
regexp. E questo lo puoi fare, a questo punto, con qualsiasi strumenti
ti garbi (sia esso perl, AWK, sed, VI);
b) usi una qualche classe preposta tipo questa:
http://www.crummy.com/software/BeautifulSoup/

Se mandi un pezzo di html con dentro i dati che vuoi estrarre,
possiamo darti delle indicazioni più precise.
Oppure l'URL degli stessi, ancora meglio.

Ovviamente mi interessa l'esercizio tecnico, se questi dati siano
recuperabili e usabili legalmente è cosa tua.

Ciao,
Gelma




Maggiori informazioni sulla lista Lug