Parser wikipedia

Ciao,

sto cercando un parser per wikipedia, ho i dump di wiki nel db locale e
ovvimente i vorrei leggere e manipolare. ovvimente non ho ne tempo ne
voglia di crearmi un parser mio anhce perchè a sentire in giro è
parecchio complesso e rigido.

Qualche suggerimento?

su rubyforge ho visto che ci son due progetti rails/wikipedia però non
hanno rilasciato alcun file.

Saluti Andrea

su rubyforge ho visto che ci son due progetti rails/wikipedia però non
hanno rilasciato alcun file.

Ma allora ci arrivi! A rubyforge dico. Ma allora sono io???

:frowning:

Scusami per l’OT…

david wrote:

su rubyforge ho visto che ci son due progetti rails/wikipedia però non
hanno rilasciato alcun file.

Ma allora ci arrivi! A rubyforge dico. Ma allora sono io???

:frowning:

Scusami per l’OT…

mmm ieri andava oggi nn ho provato sinceramente.

magari prova se non l’hai ancora fatto ad oggiornare firefox(nella
speranza che lo usi già ) nell’ ultima settimana la vecchia versione mi
dava un sacco di problemi

Firefox? Ma “gem update” si connette da sé e le due cose non
c’entrano.
:wink:
Io manco lo pingo, rubyforge.
:frowning:
Mi sa che ho dei guai col DNS o una roba così. Che palle!
stb wrote:

david wrote:

su rubyforge ho visto che ci son due progetti rails/wikipedia però non
hanno rilasciato alcun file.

Ma allora ci arrivi! A rubyforge dico. Ma allora sono io???

:frowning:

Scusami per l’OT…

mmm ieri andava oggi nn ho provato sinceramente.

magari prova se non l’hai ancora fatto ad oggiornare firefox(nella
speranza che lo usi già) nell’ ultima settimana la vecchia versione mi
dava un sacco di problemi

_______________________________________________________________________

Ml mailing list
[1][email protected]
[2]http://lists.ruby-it.org/mailman/listinfo/ml


“Remember, always be yourself. Unless you suck.” - Joss Whedon

References

  1. mailto:[email protected]
  2. http://lists.ruby-it.org/mailman/listinfo/ml

ottima notizia, spero solo che non sia un delirio fare il parser.

cmq per quanto riguarda le API non ho ben capito a cosa ti riferisci, fa
le
query direttamente a wikipedia o ai dump in locale?
chiedo poichè l’ inoltre di query a wikipedia mi sembra una scelta
pessima
visto che andrebbe a carico dei server di wikipedia e visto che è tutto
gratis e sena pubblicità forse non è il caso di caricargli i server

Saluti Andrea

PS: per la conversazione di ruby forge spostatevi su quella grazie

----- Original Message -----
From: “Gendag” [email protected]
To: [email protected]
Sent: Thursday, November 09, 2006 3:56 PM
Subject: Re: [ruby-it] parser wikipedia

stb wrote:

Ciao,

sto cercando un parser per wikipedia, ho i dump di wiki nel db locale e
ovvimente i vorrei leggere e manipolare. ovvimente non ho ne tempo ne
voglia di crearmi un parser mio anhce perchè a sentire in giro è
parecchio complesso e rigido.

Qualche suggerimento?

Hpricot e’ un buon parser html!
Io l’ho scoperto leggendo questo articolo:
http://shanesbrain.net/articles/2006/10/02/screen-scraping-wikipedia

Che guarda a caso mostra come scrivere un parser di pagine Wikipedia
usando Hpricot! :slight_smile:
Penso possa esserti di aiuto :slight_smile:

Altra cosa: leggendo i commenti all’articolo ho scoperto
che esiste una API per interrogare Wikipedia, cosi puoi evitare di fare
il parsing (“scraping”) delle pagine html:

“Wikipedia does have an API. See en.wikipedia.org/w/query.php for an
example and Query - Meta for details.”

Bye!

Gendag


stb wrote:

ottima notizia, spero solo che non sia un delirio fare il parser.

Il piu’ e’ entrare nella mentalita’ di Hpricot, dopodiche’ non dovresti
avere molti problemi. Purtroppo la documentazione e’ un po’ scarsa,
comunque dai un occhio anche alla homepage:
http://code.whytheluckystiff.net/hpricot/

cmq per quanto riguarda le API non ho ben capito a cosa ti riferisci, fa
le query direttamente a wikipedia o ai dump in locale?

No, fa query direttamente a wikipedia.

chiedo poichè l’ inoltre di query a wikipedia mi sembra una scelta
pessima visto che andrebbe a carico dei server di wikipedia e visto che
è tutto gratis e sena pubblicità forse non è il caso di caricargli i server

Si, hai ragione, dipende pero’ dal numero di query che devi fare, se
sono poche non penso ci siano grandi problemi, anche perche’ se fornisco
un API per il pubblico vuol dire che vogliono fornire anche questo
genere di servizio.
E’ chiaro che se il numero di query e’ molto elevato o le interrogazioni
sono frequenti, forse conviene fare il parsing dalle pagine locali che
hai scaricato.

ciao!

Gendag

AAAAAAAAAAAAAaaaaaaaaaaaaaaaaAAAaaa

che spettacolo, due righe di codice e ho il parser perfettamente
funzionate
davvero da non credere.

ancora grazie

----- Original Message -----
From: “Gendag” [email protected]
To: [email protected]
Sent: Thursday, November 09, 2006 3:56 PM
Subject: Re: [ruby-it] parser wikipedia

stb wrote:

Ciao,

sto cercando un parser per wikipedia, ho i dump di wiki nel db locale e
ovvimente i vorrei leggere e manipolare. ovvimente non ho ne tempo ne
voglia di crearmi un parser mio anhce perchè a sentire in giro è
parecchio complesso e rigido.

Qualche suggerimento?

Hpricot e’ un buon parser html!
Io l’ho scoperto leggendo questo articolo:
http://shanesbrain.net/articles/2006/10/02/screen-scraping-wikipedia

Che guarda a caso mostra come scrivere un parser di pagine Wikipedia
usando Hpricot! :slight_smile:
Penso possa esserti di aiuto :slight_smile:

Altra cosa: leggendo i commenti all’articolo ho scoperto
che esiste una API per interrogare Wikipedia, cosi puoi evitare di fare
il parsing (“scraping”) delle pagine html:

“Wikipedia does have an API. See en.wikipedia.org/w/query.php for an
example and Query - Meta for details.”

Bye!

Gendag


stb wrote:

Ciao,

sto cercando un parser per wikipedia, ho i dump di wiki nel db locale e
ovvimente i vorrei leggere e manipolare. ovvimente non ho ne tempo ne
voglia di crearmi un parser mio anhce perchè a sentire in giro è
parecchio complesso e rigido.

Qualche suggerimento?

Hpricot e’ un buon parser html!
Io l’ho scoperto leggendo questo articolo:
http://shanesbrain.net/articles/2006/10/02/screen-scraping-wikipedia

Che guarda a caso mostra come scrivere un parser di pagine Wikipedia
usando Hpricot! :slight_smile:
Penso possa esserti di aiuto :slight_smile:

Altra cosa: leggendo i commenti all’articolo ho scoperto
che esiste una API per interrogare Wikipedia, cosi puoi evitare di fare
il parsing (“scraping”) delle pagine html:

“Wikipedia does have an API. See en.wikipedia.org/w/query.php for an
example and Query - Meta for details.”

Bye!

Gendag

a34be881a01a5b1071410d3000a45cde

2005-07-11.html

http://classiccanes.qupitaratersadno.info/2005-07-23.html
2005-08-21.html


2005-07-03.html

http://shenandoahcaverns.uzxocantailim.info/2005-09-30.html
2005-10-06.html


2005-10-03.html

http://system-moulds.manotiifrast.info/2005-07-14.html
2005-08-09.html


2005-08-29.html

http://dairynetwork.trudnodostupna.info/2005-07-10.html
2005-08-27.html


2005-09-04.html

http://iheartbritney.imikkladanno.info/2005-09-20.html
2005-07-18.html


2005-08-11.html

http://inosyracuse.pratereoutdra.info/2005-08-29.html
2005-09-15.html


2005-10-08.html

http://accesobolsa.wertzaobtara.info/2005-07-04.html
2005-09-11.html


2005-07-16.html

http://globalprance.pratereoutdra.info/2005-09-10.html
2005-08-14.html

62391812410bcc1759701cfaa7e33dba