Top 100 mundial y optimizaciÃ³n

fernan2 · October 9, 2008, 2:28pm

VÃa el blog de Emili ParreÃ±o, he descubierto un wiki con el top100
mundial de aplicaciones Rails:
http://www.eparreno.com/2008/09/05/las-100-aplicaciones-rails-con-mas-trafico

Y jugando con el Google Trends, descubro que mi verema.com estÃ¡ en el
cincuentaytantos… moooolaaaaa!!
http://www.verema.com
http://trends.google.com/websites?q=verema.com%2C+communitywalk.com%2C+howcast.com%2C+ma.gnolia.com%2C+basecamphq.com
Aunque dudo de su fiabilidad, porque lacoctelera nos da mil vueltas y
sin embargo sale mÃ¡s abajo…

Por cierto, del blog de Emili, me ha gustado mucho su Ãºltimo post sobre
optimizaciÃ³n:
http://www.eparreno.com/2008/09/13/optimizacion-mejorando-las-consultas-mysql-en-rails-i/

Algunos de los consejos que da han quedado desfasados con la versiÃ³n de
rails 2.1.1, que es mucho mÃ¡s eficiente construyendo SQLs que las
versiones anteriores (particularmente find_by_sql ha perdido mucho
interÃ©s), pero hay temas como los Ãndices que son terriblemente
efectivos… y lo del cache de modelos es un descubrimiento para mÃ,
pero tiene muy pero que muy buena pinta, y tengo un caso perfecto para
probarlo con el gestor de banners de mi aplicaciÃ³n, que se usa en casi
todas las pÃ¡ginas pero cambia muy poco.

Por cierto, si alguien tiene que mejorar las prestaciones de una
aplicaciÃ³n:
1.- Si no estÃ¡ en Rails 2.1.1, es hora de migrarla.
2.- Buscad los puntos dÃ©biles con New Relic, http://www.newrelic.com/ .
Incluso la versiÃ³n gratuita es una pasada.
3.- Cuidado con el will_paginate; si tenÃ©is tablas muy grandes y os pone
un enlace a la Ãºltima pÃ¡gina, normalmente eso obligarÃ¡ a recorrer todos
los registros y serÃ¡ una consulta extremadamente pesada (y no hay forma
de optimizarla); y lo peor de todo es que, debido a ese enlace, Google
os indexara esas pÃ¡ginas, y tendrÃ©is trÃ¡fico en ellas… con sÃ³lo
limitar los enlaces a las 10 primeras pÃ¡ginas, y permitir acceder al
resto pero con NOINDEX, he rebajado el nivel de carga de la Base de
Datos a menos de la tercera parte!! Y sÃ³lo he tocado una secciÃ³n, que
era el cuello de botella del sistema.

s2

fernan2 · October 9, 2008, 11:36pm

2008/10/9 Fernando C. [email protected]

3.- Cuidado con el will_paginate; si tenÃ©is tablas muy grandes y os pone
un enlace a la Ãºltima pÃ¡gina, normalmente eso obligarÃ¡ a recorrer todos
los registros y serÃ¡ una consulta extremadamente pesada (y no hay forma
de optimizarla); y lo peor de todo es que, debido a ese enlace, Google
os indexara esas pÃ¡ginas, y tendrÃ©is trÃ¡fico en ellas… con sÃ³lo
limitar los enlaces a las 10 primeras pÃ¡ginas, y permitir acceder al
resto pero con NOINDEX, he rebajado el nivel de carga de la Base de
Datos a menos de la tercera parte!! Y sÃ³lo he tocado una secciÃ³n, que
era el cuello de botella del sistema.

Lo de que no hay forma de optimizarla… discrepo.

Un collection de will_paginate, tiene tres
camposhttp://github.com/mislav/will_paginate/tree/master/lib/will_paginate/collection.rb#L49
(per_page,page
y total). En la mayorÃa de los casos, una buena definiciÃ³n de modelo,
con
counter_cache deberÃa bastar para proporcionar al usuario contadores y
al
paginador totales.

A veces me ha venido bien usar una tabla de contadores con
counter_cache. El
registro que trae el contador en la mayorÃa de los casos estÃ¡
cargado/cacheado, por lo que mostrar no supone carga (efectivamente en
el
momento de crear el registro, implica tardar un poquito mÃ¡s).

Para resultados de bÃºsqueda, muchas veces el valor es estimado (Como
hace
google, gmail o sphinx) y no interesa dar el esacto por el coste.

Para situaciones en las que counter cache no se puede usar, muestro
siguiente, y si tengo una mÃnima estimaciÃ³n, a veces me he planteado
usar la
filosofia de gmail de poner: cientos, miles, millones, etc…

Respecto a la indexaciÃ³n de google, me gusta desactivarla para todo
aquello
que no sea contenido, incluso limitando solo a acciones show mediante
plantilla, (if action != show => meta noindex) SEO o no, es como a mi me
gusta y la indexaciÃ³n va en gustos.

Espero a ver aportado algo.

Un Saludo.

fernan2 · October 9, 2008, 11:59pm

Otra idea es para optimizar paginadores es cargar de golpe las 3
primeras pÃ¡ginas y guardarlas en memoria: el 90% de los usuarios no
pasarÃ¡n de la 3Âª pÃ¡gina, asÃ que te estÃ¡s ahorrando 2 requests mÃ¡s
ademÃ¡s de que para la base de datos, una vez tiene ordenados los
registros que te va a devolver, la de la mismo si te devuelve 10 o 30.

Esto es lo que hace la gente de Google, Facebook y demÃ¡s…

2008/10/9 Guillermo [email protected]:

fernan2 · October 10, 2008, 2:43am

Fernando, gracias por la menciÃ³n. En cuanto a lo que comentas de Google
Trends, este tipo de aplicaciones (alexa, compete…) no son muy
exactas, simplemente dan una orientaciÃ³n de por donde van los tiros.
Sobre Newrelic estuvimos hablando en la ultima reuniÃ³n del BCN on Rails,
yo tengo una cuenta bronze desde hace tiempo ya que tengo una aplicaciÃ³n
en EY y nos la regalan, y la verdad es que vale la pena pagar los 40$
por lo menos durante un mes para optimizar al mÃ¡ximo la aplicaciÃ³n y
luego volver a la cuenta lite. Te da una visiÃ³n global sobre el
comportamiento de la aplicaciÃ³n que no tienes con otras herramientas ni
mirando los logs.

Respecto a lo que estÃ¡is comentando de la paginaciÃ³n, otra detalle a
tener en cuenta es utilizar indices decrementales si estamos ordenando
por fecha, en una tabla muy grande se nota la diferencia entre ordenar
ascendentemente y ordenar descendentemente.

Saludos

Emili ParreÃ±o
www.eparreno.com

fernan2 · October 11, 2008, 1:14am

Os cuento con detalle mi caso concreto, por si a alguien le sirve,
porque en mi caso la diferencia de rendimiento ha sido muy importante.

El will_paginate, en una pÃ¡gina “normal”, pone enlaces a las primeras 9
pÃ¡ginas y a las 2 Ãºltimas:

Eso no es problema en una pÃ¡gina Ãndice del foro, que ademÃ¡s sÃ³lo hay
una; pero fijaos que tengo una pÃ¡gina con “lo que han escrito mis
usuarios favoritos”, y esa no es sÃ³lo una, sino que es una para cada
usuario, lo que acaba siendo muchas:
http://www.verema.com/usuarios/favoritos/fernan2

No necesito cachÃ© de contadores para saber el nÂº de registros; contarlos
es sencillo, pues puedo filtrar por el conjunto de usuarios y es una
consulta rÃ¡pida. Acceder a los datos recientes tambiÃ©n es sencillo,
ordenando por fecha es rÃ¡pido encontrar los 25 primeros de mis usuarios
(quiza estÃ©n entre los 1000 primeros totales), pero si me tengo que ir a
histÃ³ricos con nÃºmeros de pÃ¡gina elevados… la consulta es una pasada,
porque no puedo filtrar por un Ãºnico campo (ni es sÃ³lo mensajes de foro,
o sÃ³lo notas de cata, ni es sÃ³lo el usuario X); dado que filtro por un
conjunto de usuarios (no por un sÃ³lo usuario) y ordeno por fecha, me
tiene que recorrer la tabla de contenidos entera:
http://www.verema.com/usuarios/favoritos/fernan2?page=634
SELECT xx FROM contenidos FORCE INDEX (cnt_fecha_ix) inner join
favoritismos f on contenidos.usuario_id = f.favorito_id WHERE
(f.usuario_id = 12256) ORDER BY contenidos.created_at desc LIMIT 15825,
25;
Rows_examined: 460340

Â¿HabÃ©is visto? Para encontrar el registro 15.825 de mis usuarios
favoritos, se tiene que recorrer casi la tabla de contenidos entera, que
es el nÃºcleo de la aplicaciÃ³n con cientos de miles de registros (sin el
FORCE INDEX es aun peor). AlgÃºn acceso esporÃ¡dico no es problema, pero
si Google indexa esto… entre las consultas del robot y las bÃºsquedas
de la gente, me hacen polvo, para una cosa que total ya estÃ¡ accesible
por otras vÃas (el foro, las catas, etc). Por eso, quitar los enlaces a
las Ãºltimas pÃ¡ginas y aÃ±adir el NOINDEX para registros de la pÃ¡gina 100
en adelante ha sido una mejora de prestaciones crucial.

AsÃ que, si alguna vez os encontrÃ¡is con una consulta que no podÃ©is
optimizar, y que recorre muchÃsimas filas accediendo a la Ãºltima pÃ¡gina,
ya sabÃ©is: se pone el will_paginate con sÃ³lo 10 pÃ¡ginas, y NOINDEX si
(params[:page] and params[:page] > 100)…

s2

fernan2 · October 13, 2008, 2:49pm

El día 10 de octubre de 2008 20:14, Fernando C.
[email protected]
escribió:> usuario, lo que acaba siendo muchas:

conjunto de usuarios (no por un sólo usuario) y ordeno por fecha, me
es el núcleo de la aplicación con cientos de miles de registros (sin el
(params[:page] and params[:page] > 100)…
Hola Fernando.
Disculpá que te haga una pregunta totalmente offtopic: ¿Está el índice
sobre el campo contenidos.usuario_id y favoritos.usuario_id?
Te hago la pregunta, porque el forzado de índice te puede servir para
algunos casos y para otros no. Para el caso de un usuario con pocos
“favoritos” y pocos “contenidos” para dichos favoritos, es
infinitamente mejor que el motor primero filtre los contenidos para
luego ordenar por el campo fecha, antes de recorrer la tabla completa.
Yo revisaría los índices para ver porqué el motor no elige la mejor
forma antes de forzar.

Saludos
Silvio

fernan2 · October 13, 2008, 5:11pm

Hola, Silvio, el Ãndice es por contenidos.created_at; si vamos a la
primera pÃ¡gina, ese Ãndice da muy buenos resultados, porque la gente
tiene indefectiblemente entre sus usuarios favoritos a alguno que
participa mucho, y por tanto podemos razonablemente suponer que los 25
Ãºltimos contenidos de mis favoritos estarÃ¡n entre los 1000 Ãºltimos
contenidos. El supuesto que tÃº planteas, de que alguien tenga pocos y
malos favoritos, es muy improbable en la prÃ¡ctica… la gente a quien se
guarda es a los usuarios que mÃ¡s participan, como es lÃ³gico. Y para ese
patrÃ³n, si queremos irnos a la pÃ¡gina 1000, no hay forma de optimizarlo
(que yo sepa, y he probado bastantes cosas).

Probablemente, la no-optimizaciÃ³n del motor se debe a que no entiende de
ingenierÃa social, y piensa que las probabilidades de que yo me guarde a
un usuario que ha escrito un mensaje son iguales que las de que yo me
guarde al tÃo que mÃ¡s escribe; pero en realidad, no es asÃ… y cuanto
mÃ¡s probable sea que me guarde al tÃo que mÃ¡s escribe, mejor serÃ¡ el
enfoque por fecha (rÃ¡pidamente encontrarÃ© los 25 primeros de mis
favoritos) y peor el enfoque por usuario (la cantidad de contenidos de
mis usuarios favoritos serÃ¡ muy grande).

s2