Seo urls: permalink_fu o friendly_id

calabriama · October 15, 2008, 3:04pm

On Oct 15, 2008, at 7:33 AM, Xavier N. wrote:

normalize_for_url es un metodo propio que normaliza la cadena para que
quede limpia en una URL:

def self.normalize(str)
return ‘’ if str.nil?
n = str.chars.downcase.strip.to_s
n.gsub!(/[Ã Ã¡Ã¢Ã£Ã¤Ã¥ÄÄƒ]/, ‘a’)
n.gsub!(/Ã¦/, ‘ae’)
n.gsub!(/[ÄÄ‘]/, ‘d’)
n.gsub!(/[Ã§Ä‡ÄÄ‰Ä‹]/, ‘c’)

Xavier,

En tiempos de Unicode, ahora que hay puntos de cÃ³digo, caracteres,
composiciones, descomposiciones, etc. creo que hacer eso “a mano” tal
vez no sea la mejor recomendaciÃ³n.

Saludos

calabriama · October 15, 2008, 3:30pm

2008/10/15 AdriÃ¡n Mugnolo [email protected]:

En tiempos de Unicode, ahora que hay puntos de cÃ³digo, caracteres,
composiciones, descomposiciones, etc. creo que hacer eso “a mano” tal
vez no sea la mejor recomendaciÃ³n.

Te refieres a que el input puede venir en distintas normalizaciones?

calabriama · October 15, 2008, 3:38pm

On Oct 15, 2008, at 10:30 AM, Xavier N. wrote:

Te refieres a que el input puede venir en distintas normalizaciones?

Sí, eventualmente.

Un método como ese (que también los vi posteados por ahí) necesitaría
de mucho testing para dormir tranquilo. Quiero decir, eran cosas que
se hacían y estaban bien en tiempos de ISO-8859-1 adonde sabías
positivamente cuáles (y cuántos) eran todos los casos posibles.

calabriama · October 15, 2008, 5:35pm

2008/10/15 AdriÃ¡n Mugnolo [email protected]:

On Oct 15, 2008, at 10:30 AM, Xavier N. wrote:

Te refieres a que el input puede venir en distintas normalizaciones?

SÃ, eventualmente.

Un mÃ©todo como ese (que tambiÃ©n los vi posteados por ahÃ) necesitarÃa
de mucho testing para dormir tranquilo. Quiero decir, eran cosas que
se hacÃan y estaban bien en tiempos de ISO-8859-1 adonde sabÃas
positivamente cuÃ¡les (y cuÃ¡ntos) eran todos los casos posibles.

SÃ en eso tienes razon.

Las regexps en Ruby 1.8 saben algo de Unicode, pero no creo que tenga
soporte completo para equivalencias. No me consta ningun problema en
los dos aÃ±os que hace que uso esa transliteracion, pero no es prueba
de que sea robusta ante cualquier input. De hecho tratare de buscar un
contraejemplo porque creo que debe haberlo.

calabriama · October 15, 2008, 5:37pm

2008/10/15 Xavier N. [email protected]:

Las regexps en Ruby 1.8 saben algo de Unicode, pero no creo que tenga
soporte completo para equivalencias. No me consta ningun problema en
los dos aÃ±os que hace que uso esa transliteracion, pero no es prueba
de que sea robusta ante cualquier input. De hecho tratare de buscar un
contraejemplo porque creo que debe haberlo.

Eso lo teneis testeado?

calabriama · October 15, 2008, 5:48pm

2008/10/15 Francesc E. [email protected]:

2008/10/15 Xavier N. [email protected]:

Las regexps en Ruby 1.8 saben algo de Unicode, pero no creo que tenga
soporte completo para equivalencias. No me consta ningun problema en
los dos aÃ±os que hace que uso esa transliteracion, pero no es prueba
de que sea robusta ante cualquier input. De hecho tratare de buscar un
contraejemplo porque creo que debe haberlo.

Eso lo teneis testeado?

No con todas las normalizaciones posibles.

calabriama · October 15, 2008, 6:43pm

2008/10/15 Xavier N. [email protected]:

No con todas las normalizaciones posibles.

Visto. Habia tres caracters en los que la normalizacion de la
aplicacion dependia de la normalizacion Unicode del input, eran: Ä…, Ä¯,
Ä³.

He aÃ±adido ligaduras y la letra ÃŸ a la transliteracion. He factorizado
tambien la tabla para poder automatizar esto sin repetirla en el test
(es posible que en codigo final cachee las regexps en lugar de
interpolar).

Os paso el modulo y el test abajo, son 120 aserciones.

– fxn

test/unit/normalization_test.rb

require ‘test_helper’

class NormalizationTest < ActiveSupport::TestCase
def test_normalization
MyAppUtils::TRANSLITERATIONS.each do |from, to|
expected = to * from.chars.length
ActiveSupport::Multibyte::NORMALIZATIONS_FORMS.each do |f|
normalized_from = from.chars.normalize(f)
assert_equal expected, MyAppUtils.normalize(normalized_from)
end
end
end
end

lib/my_app_utils.rb

module MyAppUtils
TRANSLITERATIONS = {
“Ã Ã¡Ã¢Ã£Ã¤Ã¥ÄÄƒÄ…” => ‘a’,
“ÃŸ” => ‘ss’,
“Ã¦” => ‘ae’,
“ÄÄ‘” => ‘d’,
“Ã§Ä‡ÄÄ‰Ä‹” => ‘c’,
“Ã¨Ã©ÃªÃ«Ä“Ä™Ä›Ä•Ä—” => ‘e’,
“Æ’” => ‘f’,
“ï¬€” => ‘ff’,
“ï¬” => ‘fi’,
“ï¬‚” => ‘fl’,
“ï¬ƒ” => ‘ffi’,
“ï¬„” => ‘ffl’,
“ï¬…” => ‘st’,
“ÄÄŸÄ¡Ä£” => ‘g’,
“Ä¥Ä§” => ‘h’,
“Ã¬Ã¬ÃÃ®Ã¯Ä«Ä©ÄÄ¯” => ‘i’,
“Ä³” => ‘ij’,
“Ä±Äµ” => ‘j’,
“Ä·Ä¸” => ‘k’,
“Å‚Ä¾ÄºÄ¼Å€” => ‘l’,
“Ã±Å„ÅˆÅ†Å‰Å‹” => ‘n’,
“Ã²Ã³Ã´ÃµÃ¶Ã¸ÅÅ‘ÅÅ” => ‘o’,
“Å“” => ‘oe’,
“Å•Å™Å—” => ‘r’,
“Å›Å¡ÅŸÅÈ™” => ‘s’,
“Å¥Å£Å§È›” => ‘t’,
“Ã¹ÃºÃ»Ã¼Å«Å¯Å±ÅÅ©Å³” => ‘u’,
“Åµ” => ‘w’,
“Ã½Ã¿Å·” => ‘y’,
“Å¾Å¼Åº” => ‘z’,
}

def self.normalize(str)
return ‘’ if str.nil?
n = str.chars.downcase.strip.to_s
TRANSLITERATIONS.each do |from, to|
n.gsub!(/[#{from}]/, to)
end
n.gsub!(/\s+/, ’ ‘)
n.delete!(’^ a-z0-9_/\-.')
n
end
end

calabriama · October 15, 2008, 6:51pm

2008/10/15 Xavier N. [email protected]

JeroglÃficos raros.

Acabo de descubrir nuevas letras. Me faltarÃa saber como se pronuncian.
Para los pocos casos en los que se da (salvo en el lenguaje cani, donde
los
chavales encuentran no se como una rosa en el utf-8), o me como el
caracter
o informo al usuario de las limitaciones. (al margen de tildes cedillas,
etc… que obviamente si convierto).

Por cierto, te falta este:
“ï£¿” => “apple”

calabriama · October 15, 2008, 6:47pm

Ah, dandole vueltas al tema veo que quiza podria cambiar esta
aproximacion por usar el truco de la normalizacion Unicode +
tratamiento de excepciones a mano. Con este test como base vere lo que
supondria, os cuento las pesquisas.

calabriama · October 15, 2008, 9:37pm

2008/10/15 Guillermo [email protected]:

2008/10/15 Xavier N. [email protected]

JeroglÃficos raros.

Acabo de descubrir nuevas letras. Me faltarÃa saber como se pronuncian.
Para los pocos casos en los que se da (salvo en el lenguaje cani, donde los
chavales encuentran no se como una rosa en el utf-8), o me como el caracter
o informo al usuario de las limitaciones. (al margen de tildes cedillas,
etc… que obviamente si convierto).

Eso para algunas aplicaciones esta OK y naturalmente es una decision
que te corresponde y esta bien.

Yo lo hago de otro modo porque el nombre de una persona es muy
importante para mi y trato de respetarlo en la interfaz lo maximo
posible. Si se registra alguien con apellido Åos o WeierstraÃŸ
intentare por todos lo medios que su nombre aparezca lo mas entero
posible. Por eso que trato de tener una tabla controlada sabiendo lo
que mapeo (modulo la prueba que os dije antes que hare).

Para que se entienda la posible percepcion del usuario, en WWR salvo
que lo hayan cambiado se cepillan letras acentuadas. Si uno ve que su
URL es 34-ngel-lpez pues… coÃ±o no esta fino eso para mi gusto. Es
algo tecnico pero yo prefiero que veas 34-angel-lopez en la medida de
lo posible, eso llevado a caracteres que se usan en otros paises
europeos.

calabriama · October 15, 2008, 11:09pm

2008/10/15 Xavier N. [email protected]

o informo al usuario de las limitaciones. (al margen de tildes cedillas,
etc… que obviamente si convierto).

Eso para algunas aplicaciones esta OK y naturalmente es una decision
que te corresponde y esta bien.

Yo lo hago de otro modo porque el nombre de una persona es muy
importante para mi y trato de respetarlo en la interfaz lo maximo
posible.

Depende del tipo de aplicaciÃ³n/cliente. A mi los usuarios me han
demostrado
que suelen pasar de la url. Creo que prueba de ello es el tono gris que
toma
todo lo que no es el dominio en google chrome. Al margen si es correcta
o no
esa filosofÃa, es una realidad que el usuario por sencilla que sea la
url,
va ha acabar copiando y pegando. 34-ngel-lpez, 34-angel-lopez o
34-%C3%81ngel-L%C3%B3pez, para al final, arrastrar el icono del
navegador al
email/messenger.

El otro motivo que podrÃa existir es SEO. Pero la verdad, me parece que
se
le ha dado mÃ¡s importancia de la que tiene. Hace mil veces mÃ¡s un buen
contenido que el mejor de los seo.

Desde el punto de vista purista, te doy toda la razÃ³n del mundo, pero
siguendo las guÃas de diseÃ±o de apple (por poner algunas), utilizo la
regla
del 80/20. Cualquier funcionalidad vÃ¡lida solo para el 20% no me merece
la
pena. Me centrarÃ© en el 80% de los espaÃ±oles que no tienen tÃlde en su
nombre (y eso que me discrimino). A lo que voy, que con poner solo las
tÃldes y cedillas, ya soluciono el problema a mi 80% de usuarios. Al
resto,
sinceramente. Â¡que les den!

Espero que mi respuesta no haya quedado muy hostil.

Un Saludo.

calabriama · October 15, 2008, 6:53pm

2008/10/15 Guillermo [email protected]:

Por cierto, te falta este:
“ï£¿” => “apple”

Y este â˜ƒ => ‘snowman’

http://â˜ƒ.net/

calabriama · October 15, 2008, 11:34pm

El día 15 de octubre de 2008 23:08, Guillermo
[email protected]
escribió:> Depende del tipo de aplicación/cliente.

Tienes razón en esto, hay usuarios con un perfil muy distinto al de
los tuyos: al migrar los usuarios de una web anterior hemos tenido
varios casos en los que nos pedían actualizar el nombre de usuario y
además (explícitamente) el identificador de sus URLs.

Yo creo que además la URL gana peso en cuanto la sacas del navegador a
otro medio. Hay gente que aloja su web en algún servicio online y
siempre preferirá aparecer en sus tarjetas de visita o en las
reseñasde medios impresos como:

artistas.com/angel-lopez

en lugar de:

artistas.com/C3�ngel-López

calabriama · October 16, 2008, 1:52am

Mi opiniÃ³n sobre las urls y el seo es…

Las url cuanto mas cortas y mostrando menos palabras no

significativas
mejor, por lo que quizÃ¡s el tema de:
/category/pelis/post/los-supervillanos-de-texas/ sea peor que
/pelis/supervillanos-de-texas

Luego viene el tema de las stop-words

La primera opciÃ³n suele ser la mÃ¡s habitual para como trabajamos
normalmente en rails, pero si nos curramos un poco el routes y
redefinimos
algunos metodos como ya se ha comentado pueden quedar urls mÃ¡s simples
como
la segunda.

Todo esto depende de cual sea tu objetivo, si necesitas buen
posicionamiento
apuesta por la segunda, todo lo que valla detrÃ¡s del login, es decir,
que no
sea pÃºblico no tendrÃa necesidad de configurar las url, a menos que sea
por
una elecciÃ³n estÃ©tica o por mantener alguna coherencia que tu veas
necesÃ¡ria.

2008/10/15 Miguel Angel Calleja L. [email protected]

calabriama · October 15, 2008, 11:13pm

Vale, hecha la prueba con

n = str.chars.downcase.normalize(:kd).to_s
n.gsub!(/[^\x00-\x7F]+/, ‘’)

segun el test analogo al que envie antes se borra algun caracter de
cada una de estas asignaciones (12 sobre 30):

#'ÃŸ'          => 'ss',
#'Ã¦'          => 'ae',
#'ÄÄ‘'         => 'd',
#'Æ’'          => 'f',
#'Ä¥Ä§'         => 'h',
#'Ä±Äµ'         => 'j',
#'Ä·Ä¸'         => 'k',
#'Å‚Ä¾ÄºÄ¼Å€'      => 'l',
#'Ã±Å„ÅˆÅ†Å‰Å‹'     => 'n',
#'Ã²Ã³Ã´ÃµÃ¶Ã¸ÅÅ‘ÅÅ' => 'o',
#'Å“'          => 'oe',
#'Å¥Å£Å§È›'       => 't',

Entre esto y que el mapping es explicito creo que seguire usando el
mapping.