Elaborazione testo, sul web!

dubstep · March 15, 2012, 10:00pm

Ciao a tutti, mi rivolgo a voi con una richiesta.
Ruby è ideale per elaborare una buona mole di dati TESTUALI?
Per “buona”, intendo la capacità di accedere alle pagine via web, e
poterne ricavare il contenuto testuale.
Non conosco minimamente le pontezialità del linguaggio.
Grazie a tutti

reis · March 15, 2012, 10:11pm

Ciao,
se cerchi una buona libreria per fare web scraping ti consiglio
l’eccellente nokogiri: supporta anche i percorsi CSS!
Ho scritto un post su come utilizzarla al meglio qualche tempo fa, prova
a dargli un’occhiata:
http://razielgn.github.com/blog/2011/07/29/effective-webscraping/

Federico R.
[email protected]

reis · March 15, 2012, 10:24pm

Federico R. wrote in post #1051716:

Ciao,
se cerchi una buona libreria per fare web scraping ti consiglio
l’eccellente nokogiri: supporta anche i percorsi CSS!
Ho scritto un post su come utilizzarla al meglio qualche tempo fa, prova
a dargli un’occhiata:
http://razielgn.github.com/blog/2011/07/29/effective-webscraping/

Federico R.
[email protected]

In pratica, mi permette di fare un parsing da una pagina html, dandogli
il “template” della pagina stessa? POWER!

reis · March 15, 2012, 11:05pm

Capito!
ho un lieve problema: utilizzando questo script
http://razielgn.github.com/downloads/code/webscraping/complete.rb
Mi da questo errore:
masterthebest@Presario-CQ56:~/Eclipse/Indigo/Parsing$ ruby test.rb
/usr/local/lib/site_ruby/1.9.1/rubygems/custom_require.rb:36:in
require': no such file to load -- nokogiri (LoadError) from /usr/local/lib/site_ruby/1.9.1/rubygems/custom_require.rb:36:in require’
from test.rb:2:in `’
Cosa sto sbagliando?

reis · March 15, 2012, 11:24pm

Nel frattempo ho risolto, almeno il download, usando questa risorsa
http://www.rubytips.org/2008/01/09/using-rubys-http-library-download-and-process-web-pages-i/

reis · March 15, 2012, 11:35pm

Ciao,
io ho costruito uno spider pi scraper usando Anemone e Nokogiri, va
piuttosto bene.
Prova invece Mechanize se vuoi eseguire la parte di spidering in manier
pi manuale.
Per la ricerca Solr pi Sunspots!
Il tutto alla base del sito job360.it, migliorabile ma efficace.
Saluti,
Luca

Inviato da iPad

Il giorno 15/mar/2012, alle ore 23:24, Andrea R. [email protected]
ha scritto:

reis · March 15, 2012, 10:31pm

In pratica, mi permette di fare un parsing da una pagina html, dandogli
il “template” della pagina stessa? POWER!

Ti basta leggere i percorsi giusti ad esempio dai developer tools di
chrome, dopodich praticamente tutta in discesa.
Le pagine secondo me pi ostiche da parsare sono quelle che usano le
tabelle per ogni layout e posizionamento.

–
Federico R.
Sent with Sparrow (http://www.sparrowmailapp.com/?sig)