Ciao a tutti, mi rivolgo a voi con una richiesta.
Ruby è ideale per elaborare una buona mole di dati TESTUALI?
Per “buona”, intendo la capacità di accedere alle pagine via web, e
poterne ricavare il contenuto testuale.
Non conosco minimamente le pontezialità del linguaggio.
Grazie a tutti
Ciao,
se cerchi una buona libreria per fare web scraping ti consiglio
l’eccellente nokogiri: supporta anche i percorsi CSS!
Ho scritto un post su come utilizzarla al meglio qualche tempo fa, prova
a dargli un’occhiata:
http://razielgn.github.com/blog/2011/07/29/effective-webscraping/
Federico R.
[email protected]
Federico R. wrote in post #1051716:
Ciao,
se cerchi una buona libreria per fare web scraping ti consiglio
l’eccellente nokogiri: supporta anche i percorsi CSS!
Ho scritto un post su come utilizzarla al meglio qualche tempo fa, prova
a dargli un’occhiata:
http://razielgn.github.com/blog/2011/07/29/effective-webscraping/Federico R.
[email protected]
In pratica, mi permette di fare un parsing da una pagina html, dandogli
il “template” della pagina stessa? POWER!
Capito!
ho un lieve problema: utilizzando questo script
http://razielgn.github.com/downloads/code/webscraping/complete.rb
Mi da questo errore:
masterthebest@Presario-CQ56:~/Eclipse/Indigo/Parsing$ ruby test.rb
/usr/local/lib/site_ruby/1.9.1/rubygems/custom_require.rb:36:in
require': no such file to load -- nokogiri (LoadError) from /usr/local/lib/site_ruby/1.9.1/rubygems/custom_require.rb:36:in
require’
from test.rb:2:in `’
Cosa sto sbagliando?
Nel frattempo ho risolto, almeno il download, usando questa risorsa
http://www.rubytips.org/2008/01/09/using-rubys-http-library-download-and-process-web-pages-i/
Ciao,
io ho costruito uno spider pi scraper usando Anemone e Nokogiri, va
piuttosto bene.
Prova invece Mechanize se vuoi eseguire la parte di spidering in manier
pi manuale.
Per la ricerca Solr pi Sunspots!
Il tutto alla base del sito job360.it, migliorabile ma efficace.
Saluti,
Luca
Inviato da iPad
Il giorno 15/mar/2012, alle ore 23:24, Andrea R. [email protected]
ha scritto:
In pratica, mi permette di fare un parsing da una pagina html, dandogli
il “template” della pagina stessa? POWER!
Ti basta leggere i percorsi giusti ad esempio dai developer tools di
chrome, dopodich praticamente tutta in discesa.
Le pagine secondo me pi ostiche da parsare sono quelle che usano le
tabelle per ogni layout e posizionamento.
–
Federico R.
Sent with Sparrow (http://www.sparrowmailapp.com/?sig)