Evitar indexación (además de robots.txt)

Hola, en algunos sitios quiero sacar una “versión para imprimir” de
determinados contenidos, pero no me interesa que Google indexe esta
página (que además sería un duplicado). Ya sé que el sitio donde se
indica es el robots.txt, pero estaría más tranquilo si la aplicación
también le cerrara el paso a la araña, por si nos olvidamos de
actualizar el robots.txt en un momento dado. Y manejo estas opciones:

1.- Servir la “versión para imprimir” sólo para usuarios registrados
(esto sería definitivo, claro).

2.- Poner los enlaces a “versión para imprimir” con POST, en vez de GET.

3.- Poner los enlaces a “versión para imprimir” con nofollow.

¿Algún comentario a favor o en contra sobre alguna de las opciones, o
sobre combinar 2 + 3?

s2

La opción de utilizar una hoja de estilo de impresión la contemplas?

2008/9/9 Fernando C. [email protected]:

2008/9/9 Fernando C. [email protected]

2.- Poner los enlaces a “versión para imprimir” con POST, en vez de GET.

3.- Poner los enlaces a “versión para imprimir” con nofollow.

¿Algún comentario a favor o en contra sobre alguna de las opciones, o
sobre combinar 2 + 3?

Al no decir nada, he de suponer que la versión para imprimir consiste en
otro html.

Puedes filtrar por user-agent, si contiene la palabra bot, le mandas un
404.

Por otra parte… ¿Te es muy dificil usar galaerías css para la versión
impresa?.. Te puedes quitar muchos quebraderos de cabeza, y ni para el
usuario habría contenido duplicado.

Actualmente está bastante bien soportado, y si mal no recuerdo puedes
hacer
que los h1 contengan salto de página.

Guillermo wrote:

2008/9/9 Fernando C. [email protected]

2.- Poner los enlaces a “versión para imprimir” con POST, en vez de GET.

3.- Poner los enlaces a “versión para imprimir” con nofollow.

¿Algún comentario a favor o en contra sobre alguna de las opciones, o
sobre combinar 2 + 3?

Al no decir nada, he de suponer que la versión para imprimir consiste en
otro html.

Puedes filtrar por user-agent, si contiene la palabra bot, le mandas un
404.

Esto me gusta

Por otra parte… ¿Te es muy dificil usar galaerías css para la versión
impresa?.. Te puedes quitar muchos quebraderos de cabeza, y ni para el
usuario habría contenido duplicado.

Actualmente está bastante bien soportado, y si mal no recuerdo puedes
hacer
que los h1 contengan salto de página.

Lo que hago es sacar el mismo contenido, pero quitando la cabecera, el
pie y los menús de navegación; más sencillo que galerías de css, ¿no?
Por ejemplo:

Esto es muy fácil de hacer poniendo en el layout: <%- if
@plantilla!=“imprimir” -%> … <% end -%>

El tema no es cómo hacerlo, sino cómo poner el enlace para que no
indexe. Ahora mismo, Google considera esto dos URLs diferentes, y me
puede indexar la segunda, y es lo que quiero evitar. Por eso creo que lo
del 404 si el user-agent contiene bot y params[:plantilla]==“imprimir”
sí que funcionaría…

s2

s2

Si haces una plantilla CSS puedes hacer un:

#header { display: none; }

On 09/09/2008, at 18:34, Fernando C.
<[email protected]

Hola,

Hola, en algunos sitios quiero sacar una “versión para imprimir” de
determinados contenidos, pero no me interesa que Google indexe esta
página (que además sería un duplicado). Ya sé que el sitio donde se

supongo que todas las páginas con versión para imprimir usan un layout
especial. En el HEAD de ese layout puedes usar la directiva meta

que viene a ser lo mismo que ponerlo en el robots.txt

obviamente un robot díscolo podría saltarse ese meta, igual que se
saltaría el fichero robotx.txt,
pero los estándar como google, yahoo, alexa, etc… parece que lo
respetan

saludos,


javier ramírez

…i do ruby on rails development in madrid, spain, at
http://www.aspgems.com
…you can find out more about me on http://formatinternet.wordpress.com
and http://workingwithrails.com/person/5987-javier-ramirez

2008/9/9 Manuel González Noriega [email protected]

Lo que te proponen, y parece mejor idea, es utilizar un CSS de impresión. A
mi me parece más elegante por regla general que las plantillas alternativas.
Y para evitar que indexe simplemente tendrías que poner el elemento en un condicional logged_in?

Se me ha ido la cabeza totalmente (cosas de estar trabajando en festivo)
y
he dicho una estupidez mayúscula :smiley: Quería decir que desaparecen los
problemas de indexación, y lo que evitas es que los usuarios no logados
tengan la hoja de estilo de impresión disponible (aunque esto suena raro
:slight_smile:

El día 9 de septiembre de 2008 18:01, Fernando C.
[email protected]
escribió:

3.- Poner los enlaces a “versión para imprimir” con nofollow.

Creo que el “nofollow” hace que se le transmita pagerank al destino
del link, pero no esto seguro de si la araña indexadora lo sigue.

2008/9/9 Fernando C. [email protected]

Esto es muy fácil de hacer poniendo en el layout: <%- if
@plantilla!=“imprimir” -%> … <% end -%>

El tema no es cómo hacerlo, sino cómo poner el enlace para que no
indexe. Ahora mismo, Google considera esto dos URLs diferentes, y me
puede indexar la segunda, y es lo que quiero evitar. Por eso creo que lo
del 404 si el user-agent contiene bot y params[:plantilla]==“imprimir”
sí que funcionaría…

Lo que te proponen, y parece mejor idea, es utilizar un CSS de
impresión. A
mi me parece más elegante por regla general que las plantillas
alternativas.
Y para evitar que indexe simplemente tendrías que poner el elemento

en un condicional logged_in?

2008/9/9 Fernando C. [email protected]

Puedes filtrar por user-agent, si contiene la palabra bot, le mandas un
404.

Esto me gusta

A mi no

Lo que hago es sacar el mismo contenido, pero quitando la cabecera, el
pie y los menús de navegación; más sencillo que galerías de css, ¿no?

No.

Es más facil hacer
print.css
.menu, .logo, .pie, .vinculos, .barra_lateral {
display: none
}

Y en el html
Imprimir

Y no abría que liarse con plantillas y cosas chungas.

El tema no es cómo hacerlo, sino cómo poner el enlace para que no
indexe. Ahora mismo, Google considera esto dos URLs diferentes, y me
puede indexar la segunda, y es lo que quiero evitar. Por eso creo que lo
del 404 si el user-agent contiene bot y params[:plantilla]==“imprimir”
sí que funcionaría…

El problema de esto es que los indexadores, que indexan contenido para
humanos, les discrimines por que ellos no lo son. Me extrañaría mucho
que no
lo hiciesen. Conscuentemente, te podría penalizar.

javier ramirez wrote:

Hola,

Hola, en algunos sitios quiero sacar una “versión para imprimir” de
determinados contenidos, pero no me interesa que Google indexe esta
página (que además sería un duplicado). Ya sé que el sitio donde se

supongo que todas las páginas con versión para imprimir usan un layout
especial. En el HEAD de ese layout puedes usar la directiva meta

que viene a ser lo mismo que ponerlo en el robots.txt

obviamente un robot díscolo podría saltarse ese meta, igual que se
saltaría el fichero robotx.txt,
pero los estándar como google, yahoo, alexa, etc… parece que lo
respetan

saludos,


javier ramírez

…i do ruby on rails development in madrid, spain, at
http://www.aspgems.com
…you can find out more about me on http://formatinternet.wordpress.com
and http://workingwithrails.com/person/5987-javier-ramirez

Me parece que has dado en el clavo!! Las páginas para imprimir no usan
un layout especial, pero es que no es necesario para aplicar tu
solución: Cojo la plantilla maestra, le añado
<%= ‘’ if
params[:plantilla]==“imprimir” %>

Y en una línea tengo el problema resuelto para toda la web!! Y si más
adelante se sacan versiones para imprimir de otras secciones, el sistema
funcionará sin tener que hacer nada ni acordarse de nada…

s2 y gracias!!

Y por supuesto, gracias tb a to2; otras propuestas también son buenas
(mejores que las mías iniciales), pero me quedo con esta por su
simplicidad…