Raccolgo volentieri il consiglio e vi espongo il problema.
Devo far per motivi accademici un programma che effettua :
- Il download di file testuali contenenti libri
- rintracciare su questi file testuali il titolo, i personaggi e
costruirci
un file xml.
Come punto 1 ho preso il sito di riferimento che contiene una lista di
link
alcuni con alt=[DIR] che contengono un link ad un altra directory e
altri con
alt=[TXT]. I devo scaricare tutti i file txt contenuti nelle varie
directory .
Per fare ciò sto cercando di ripulire il codice html con esprssioni
regolari, e
successivamente creare due file txt uno con i file da scaricare e
l’altro con
le directory da visitare.
Tutto questo aprendo le varie pagine html con la gemma open-uri.
Ma c’è un modo più elegante per il download dei file testuali?
Per il punto due ancora non ho messo mano. Suggerimenti?