Gema o código para calculo de PageRank

Buenas lista,

este es mi primer mensaje en esta lista, y aunque llevo haciendo mis
proyectillos en rails desde hace ya algo más de un año y medio, nuncahe
necesitado preguntar en la lista ya que San Google me lo ha resuelto o
bien ya se había comentado en la lista.

Digamos que soy un vampirillo de la lista, escondido en la oscuridad.

Bueno voy a la pregunta que me lio.
Estoy haciendo un proyectito casero que consiste en crear un buscador de
páginas catalogado por tags. En el cual mediante un crawler voy arañando
la Web buscando cosillas que me interesen.
Llegado este momento he pensado que poder obtener el Pagerank de Google
para priorizar páginas sobre otras estaría genial.

He buscado en internetes un script para calcularlo y ahorrarme el
trabajo y lo único que he encontrado fue esto
http://www.math.kobe-u.ac.jp/~kodama/gprank.rb la pregunta es evidente.
Sabe alguien de un sistema para consultar el pagerank que le da google a
un dominio o subdominio?¿?

Espero no gastar demasiado de vuestro tiempo.
Saudiños e grazas

El 9/04/08, Francisco Di?eguez [email protected]
escribió:> Buenas lista,

Hola Francisco!

Bueno voy a la pregunta que me lio.
Estoy haciendo un proyectito casero que consiste en crear un buscador de
páginas catalogado por tags. En el cual mediante un crawler voy arañando
la Web buscando cosillas que me interesen.

Anda! Como mi Boris, la
araña!
http://www.borispider.com
http://2007.conferenciarails.org/archivos/jaime_iniesta_taller_arana_web.zip
http://www.jaimeiniesta.com/2008/01/30/como-programar-una-arana-web-con-rails/

Llegado este momento he pensado que poder obtener el Pagerank de Google
para priorizar páginas sobre otras estaría genial.

Ostras! Como mi PageRankAlert!

He buscado en internetes un script para calcularlo y ahorrarme el
trabajo y lo único que he encontrado fue esto
http://www.math.kobe-u.ac.jp/~kodama/gprank.rb la pregunta es evidente.

Hace un par de años es lo único que encontré, y es lo que uso
actualmente en Pagerankalert.

Sabe alguien de un sistema para consultar el pagerank que le da google a
un dominio o subdominio?¿?

Sí, la librería esa. Yo lo que hice fué meterla en un módulo que va en
la carpeta /lib de mi
aplicación:
http://pastie.caboo.se/178448

Y después en tu modelo Pagina:

class Pagina < ActiveRecord::Base
require “googlepagerank”

def google_pagerank
GooglePageRank.get(address,80,nil,nil)
end

end

Espero no gastar demasiado de vuestro tiempo.

Para nada! Así aprendemos entre todos. Esto de las arañas y pagerank
es muy divertido, es mi hobby personal…

A Boris ya la abandoné hace tiempo, era un experimento del que al
final me quedé con la esencia, concentrada en mi gema MetaInspector:

http://rubyforge.org/projects/metainspector/

Pagerankalert continúa funcionando, con más de 7.000 URLs
monitorizadas diariamente… ahora quiero preparar una versión 2, a
ver si saco tiempo.

Saudiños e grazas

Adeu!

Wala Jaime, está chulo Boris!

Tengo una preguntilla (quizá un poco offtopic, pero bueno), como se
inicia
“el proceso” de rastreo? Con una lista inicial de sitios?

El día 10/04/08, Jaime I. [email protected] escribió:

El 10/04/08, Dani D. [email protected]
escribió:> Wala Jaime, está chulo Boris!

Gracias! :slight_smile:

Tengo una preguntilla (quizá un poco offtopic, pero bueno), como se inicia
“el proceso” de rastreo? Con una lista inicial de sitios?

Comencé introduciendo mi web y a partir de ahí, siguiendo enlaces,
llegué a cientos de miles de urls y paré porque ya estaba satisfecho
:)… Está todo explicado en el vídeo y pdf del taller.

Esa Boris¡¡ :slight_smile:

Hola Jaime,

no conocía tu gema y la verdad es que he echado un vistazo y está
genial. Yo tengo un módulo que además de recogerme el título y todoeso,
me araña microformatos, relaciones entre dominios, enlaces y algunas
cosas más.

Mi idea es poder hacerla pública para poder añadir páginas de forma
manual, actualmente solo saca enlaces de las páginas, y ponerla en un
server casero para ver como se comporta. Lo malo es que esto crece como
yo no había pensado.

Además tengo pensado programar el crawler en C y así hacer que vaya
másrápido, además de por fin aprender los bindings entre C y Ruby.

La verdad es que es muy entretenido y además aprendes mucho.

Muchas gracias por tu ayuda y por el modulo de PageRank

Jaime I. escribiu:

El 10/04/08, Fran Dieguez (GLUG) [email protected]
escribió:> Hola Jaime,

no conocía tu gema y la verdad es que he echado un vistazo y está
genial. Yo tengo un módulo que además de recogerme el título y todoeso,
me araña microformatos, relaciones entre dominios, enlaces y algunas
cosas más.

Mi idea es poder hacerla pública para poder añadir páginas de forma
manual, actualmente solo saca enlaces de las páginas, y ponerla en un
server casero para ver como se comporta. Lo malo es que esto crece como
yo no había pensado.

Suena interesante! Cuando la liberes le echaré un vistazo.

Claro, el crecimiento es lo que tienen las arañas… Por eso la
paré,no tenía sentido indexar todo internet :slight_smile: … pero es interesante el
saber cómo indexar las páginas que te interesan en un proyecto,
quedarse con un subconjunto.

Además tengo pensado programar el crawler en C y así hacer que vaya más
rápido, además de por fin aprender los bindings entre C y Ruby.

Yo en MetaInspector uso hpricot, que a su vez usa C por debajo.

La verdad es que es muy entretenido y además aprendes mucho.

Ya te digo.

Muchas gracias por tu ayuda y por el modulo de PageRank

De nada!

Me he hecho una gema para calcular el PageRank de Google basada en el
módulo que venimos hablando. Funciona bastante bien.
Decir que es la primera gema que me curro por lo que me gustaría que le
echaseis un vistazo para ver que se puede mejorar.
En cuanto estea disponible en rubyforge os aviso.

Jaime I. escribiu:

El 10/04/08, Fran Dieguez (GLUG) [email protected]
escribió:> Me he hecho una gema para calcular el PageRank de Google basada en el

módulo que venimos hablando. Funciona bastante bien.
Decir que es la primera gema que me curro por lo que me gustaría que le
echaseis un vistazo para ver que se puede mejorar.
En cuanto estea disponible en rubyforge os aviso.

Genial! Seré uno de tus usuarios :slight_smile:

Si necesitas ayuda ya sabes dónde encontrarme!

Ya he liberado y subido la gema GooglePageRank a RubyForge.
Aquí os dejo el enlace a la página oficial de la gema, que me hice en
unos minutillos

http://googlepagerank.rubyforge.org/

Ademas teneis también la documentación por
aquí:
http://googlepagerank.rubyforge.org/rdoc

Si teneis cualquier duda, sugerencia (espero que le echeis un vistazo y
valoreis), o cualquier otro comentario estaré por aquí

Espero os sea de valor en algún momento.

Jaime I. escribiu: