R: Re: Buon 2009 e Consigli


#1

Raccolgo volentieri il consiglio e vi espongo il problema.
Devo far per motivi accademici un programma che effettua :

  1. Il download di file testuali contenenti libri
  2. rintracciare su questi file testuali il titolo, i personaggi e
    costruirci
    un file xml.

Come punto 1 ho preso il sito di riferimento che contiene una lista di
link
alcuni con alt=[DIR] che contengono un link ad un altra directory e
altri con
alt=[TXT]. I devo scaricare tutti i file txt contenuti nelle varie
directory .
Per fare ciò sto cercando di ripulire il codice html con esprssioni
regolari, e
successivamente creare due file txt uno con i file da scaricare e
l’altro con
le directory da visitare.
Tutto questo aprendo le varie pagine html con la gemma open-uri.
Ma c’è un modo più elegante per il download dei file testuali?

Per il punto due ancora non ho messo mano. Suggerimenti?


#2

Per scaricare / navigare ed estrapolare infos da file xml/html ti
consiglio
scrubyt :smiley: E’ fantastico !!
Ti passo un pò di esempi che ho trovato su github:

http://github.com/scrubber/scrubyt_examples/tree/master


#3

On 1/2/09, Sandro P. removed_email_address@domain.invalid wrote:

Per scaricare / navigare ed estrapolare infos da file xml/html ti consiglio
scrubyt :smiley: E’ fantastico !!
Ti passo un pò di esempi che ho trovato su github:

http://github.com/scrubber/scrubyt_examples/tree/master

scrubyt e’ grande quando va. ci sono dei casi in cui non funzionava ed
era
indebuggabile.
la dsl di scrubyt e’ molto fichetta, ma in molti casi un metodo +
brutale
con un po di regexp e hpricot e’ piu’ debuggabile.