R: Re: Buon 2009 e Consigli

casper_the_ghost · January 2, 2009, 2:34pm

Raccolgo volentieri il consiglio e vi espongo il problema.
Devo far per motivi accademici un programma che effettua :

Il download di file testuali contenenti libri
rintracciare su questi file testuali il titolo, i personaggi e
costruirci
un file xml.

Come punto 1 ho preso il sito di riferimento che contiene una lista di
link
alcuni con alt=[DIR] che contengono un link ad un altra directory e
altri con
alt=[TXT]. I devo scaricare tutti i file txt contenuti nelle varie
directory .
Per fare ciò sto cercando di ripulire il codice html con esprssioni
regolari, e
successivamente creare due file txt uno con i file da scaricare e
l’altro con
le directory da visitare.
Tutto questo aprendo le varie pagine html con la gemma open-uri.
Ma c’è un modo più elegante per il download dei file testuali?

Per il punto due ancora non ho messo mano. Suggerimenti?

casper_the_ghost · January 2, 2009, 3:19pm

Per scaricare / navigare ed estrapolare infos da file xml/html ti
consiglio
scrubyt E’ fantastico !!
Ti passo un pò di esempi che ho trovato su github:

casper_the_ghost · January 3, 2009, 1:56am

On 1/2/09, Sandro P. [email protected] wrote:

Per scaricare / navigare ed estrapolare infos da file xml/html ti consiglio
scrubyt E’ fantastico !!
Ti passo un pò di esempi che ho trovato su github:

GitHub - scrubber/scrubyt_examples: A handful (but hopefully growing amount) of scRUBYt! examples

scrubyt e’ grande quando va. ci sono dei casi in cui non funzionava ed
era
indebuggabile.
la dsl di scrubyt e’ molto fichetta, ma in molti casi un metodo +
brutale
con un po di regexp e hpricot e’ piu’ debuggabile.