Sustituir tildes en String

cesardiaz · April 11, 2009, 5:52pm

Hola,

Llevo varios dÃas intentando sustituir las letras con tildes o
caracteres latinos de una palabra y ya he probado con varias soluciones
que he encontrado por Internet sin Ã©xito.

Lo que quiero es dada por ejemplo la palabra “camiÃ³n”, transformarla en
“camion”, o “EspaÃ±a” por “Espana”. El caso es que con varias soluciones
que he encontrado por Internet consigo que todo funcione correctamente
desde la consola de Ruby, pero luego cuando ejecuto mi aplicaciÃ³n RoR en
Netbeans no funciona. Desde el entorno Netbeans “camiÃ³n” me retornarÃa
“camon”, es decir, me trunca los caracteres en vez de sustituirlos.

AquÃ os dejo un ejemplo del cÃ³digo que estoy utilizando para hacer esta
conversiÃ³n. (Hago alguna cosa mÃ¡s como sustituir los espacios en blanco
por ‘-’ y pasarlo todo a minÃºsculas, pero eso sÃ funciona)

def nice_slug(str)

accents = {
  ['Ã¡','Ã ','Ã¢','Ã¤','Ã£'] => 'a',
  ['Ãƒ','Ã„','Ã‚','Ã€','Ã'] => 'A',
  ['Ã©','Ã¨','Ãª','Ã«'] => 'e',
  ['Ã‹','Ã‰','Ãˆ','ÃŠ'] => 'E',
  ['Ã','Ã¬','Ã®','Ã¯'] => 'i',
  ['Ã','ÃŽ','ÃŒ','Ã'] => 'I',
  ['Ã³','Ã²','Ã´','Ã¶','Ãµ'] => 'o',
  ['Ã•','Ã–','Ã”','Ã’','Ã“'] => 'O',
  ['Ãº','Ã¹','Ã»','Ã¼'] => 'u',
  ['Ãš','Ã›','Ã™','Ãœ'] => 'U',
  ['Ã§'] => 'c', ['Ã‡'] => 'C',
  ['Ã±'] => 'n', ['Ã‘'] => 'N'
  }
accents.each do |ac,rep|
  ac.each do |s|
  str = str.gsub(s, rep)
  end
end
str = str.gsub(/[^a-zA-Z0-9 ]/,"")

str = str.gsub(/[ ]+/," ")


str = str.gsub(/ /,"-")

str = str.downcase

end

Â¿Alguna idea?

cesardiaz · April 11, 2009, 6:11pm

Tal vez algo como esto podria ayudar:

“camiÃ³n”.mb_chars.decompose.scan(/[a-zA-Z0-9]/).join
=> “camion”

Saludos.

cesardiaz · April 11, 2009, 6:11pm

Rails aÃ±adiÃ³ el mÃ©todo ‘parameterize’ a la clase String:
“camiÃ³n”.parameterize
Mira a ver si te sirve

Saludos

cesardiaz · April 12, 2009, 4:17pm

Borja MartÃn wrote:

Rails aÃ±adiÃ³ el mÃ©todo ‘parameterize’ a la clase String:
“camiÃ³n”.parameterize
Mira a ver si te sirve

Saludos

Ya lo he probado y sigue sin funcionar :(. Si la cadena a convertir no
lleva tilde, funciona correctamente, en cambio, si lo intento con una
cadena con una tilde el error es el siguiente:

undefined method `normalize’ for "Te Contarï¿½n:String

c:/ruby/lib/ruby/gems/1.8/gems/activesupport-2.2.2/lib/active_support/inflector.rb:283:in
transliterate' c:/ruby/lib/ruby/gems/1.8/gems/activesupport-2.2.2/lib/active_support/inflector.rb:262:inparameterize’
c:/ruby/lib/ruby/gems/1.8/gems/activesupport-2.2.2/lib/active_support/core_ext/string/inflections.rb:106:in
`parameterize’

cesardiaz · April 12, 2009, 4:23pm

Ruben Davila wrote:

Tal vez algo como esto podria ayudar:

“camiÃ³n”.mb_chars.decompose.scan(/[a-zA-Z0-9]/).join
=> “camion”

Saludos.

Hola,

En efecto, desde la consola de Rails me funciona, pero cuando lanzo la
aplicaciÃ³n y depuro con Netbeans me da error:

undefined method `decompose’ for "La Travesï¿½a:String

Â¿DÃ³nde estÃ¡ el problema? Â¿Por quÃ© en consola sÃ funciona y cuando
ejecuto la aplicaciÃ³n en Mongrel no?

Un saludo.

cesardiaz · April 12, 2009, 9:03pm

2009/4/12 Gunnar W. [email protected]:

Umh… Nuevamente -y se darán cuenta que es una óptica que me ha
marcado- creo que lo que tienes que hacer es preguntarte para qué
estás haciendo esto. Si bien hasta hace unos años (antes de que
Unicode fuera aceptado comunmente) sí podías hablar de ventajas de
quitar los diacríticos, reduciendo los caracteres de 8 a 7 bits (esto
es, para caber en el subconjunto US-ASCII), hoy esto ya no tiene
sentido.

Por el código de ejemplo diría que quiere usar algo más que ids en las
URLs con el truco del to_param[1]. Yo creo que en ese caso concreto sí
tiene sentido.

César: he probado el “camión”.parameterize que te proponía Borja en
consola y parece funcionar tanto en rails2.2.2 como en la 2.3.2… (No
lo he probado en Windows, quizá la consola te esté jugando una mala
pasada?

Si no te sirve ese método te recomendaría testear alguno de los
múltiples plugins[2] que realizan esa conversión para ver si te
encajan (recalco lo de testear porque algunos directamente ignoran los
caracteres acentuados y no parece que te conformes con eso). Si
ninguno te encaja o lo quieres usar para otra cosa, puedes ver
cómohacen la conversión examinando su código fuente y aplicarlo en tu
proyecto:

[1] http://www.notsostupid.com/blog/2006/07/07/urls-on-rails/
[2]
Search · slug OR permalink · GitHub

cesardiaz · April 13, 2009, 8:52am

Buenas CÃ©sar,

Si en la consola funciona bien seguramente el problema estÃ© en tus
archivos. Comprueba que el encoding es correcto. Rails no se lleva muy
bien con las tildes si el encoding del archivo no es utf8.

P.d. Si este es el problema y los archivos implicados no estÃ¡n en utf8 y
los conviertes, seguramente se te descorromoÃ±en las palabras con tildes,
comiÃ©ndose alguna letra pegada a ellas (parecido a lo que te pasa cuando
pruebas desde rails y que no pasa desde consola). Espero que ayude.

cesardiaz · April 13, 2009, 11:44am

Â¿Has provado ha hacer: ?

Iconv.iconv(‘ascii//ignore//translit’, ‘utf-8’, string).to_s

Es lo que usa internamente rails para hacer la (inflector.rb:277 aprox)

Es lo que usa parameterize.

Y ademÃ¡s estÃ¡ encapsulado en un mÃ©todo documentado llamado transliterate

Para llamarla desde consola puedes hacer
ActiveSupport::Inflector.transliterate(string)

A mi me funciona bastante bien, y nunca he tenido ningÃºn problema.

Un Saludo.

cesardiaz · April 13, 2009, 5:38pm

Hola,

DespuÃ©s de probar algunas de las soluciones aquÃ propuestas, he
conseguido el resultado que querÃa utilizando el cÃ³digo del mÃ©todo
transliterate:

string.mb_chars.normalize(:kd).gsub(/[^\x00-\x7F]+/, ‘’)

Respondiendo a Gunnar W. acerca de si realmente tengo necesidad de
realizar esa conversiÃ³n la respuesta es que necesito construir unas URLs
para extraer datos de determinadas pÃ¡ginas web de terceros a travÃ©s de
screen scraping, y las URLs de estas pÃ¡ginas no utilizan caracteres
acentuados y demÃ¡s (obviamente).

Un saludo, y muchas gracias a todos por vuestras respuestas.

cesardiaz · April 12, 2009, 8:23pm

CÃ©sar DÃaz dijo [Sat, Apr 11, 2009 at 05:52:37PM +0200]:

Hola,

Llevo varios dÃas intentando sustituir las letras con tildes o
caracteres latinos de una palabra y ya he probado con varias soluciones
que he encontrado por Internet sin Ã©xito.

Lo que quiero es dada por ejemplo la palabra “camiÃ³n”, transformarla en
“camion”, o “EspaÃ±a” por “Espana”. El caso es que con varias soluciones
(…)

Umh… Nuevamente -y se darÃ¡n cuenta que es una Ã³ptica que me ha
marcado- creo que lo que tienes que hacer es preguntarte para quÃ©
estÃ¡s haciendo esto. Si bien hasta hace unos aÃ±os (antes de que
Unicode fuera aceptado comunmente) sÃ podÃas hablar de ventajas de
quitar los diacrÃticos, reduciendo los caracteres de 8 a 7 bits (esto
es, para caber en el subconjunto US-ASCII), hoy esto ya no tiene
sentido.

Para ahorrarme el escribir lo que mucha gente ha escrito sin duda
mejor que yo respecto a Unicode, te sugiero fuertemente asomarte a la
siguiente liga:

http://www.joelonsoftware.com/articles/Unicode.html
The Absolute Minimum Every Software Developer Absolutely,
Positively Must Know About Unicode and Character Sets (No
Excuses!) (Joel Spolsky)

Y un poquito para poderte refirir a lo que escribo a continuaciÃ³n:

http://inamidst.com/stuff/unidata/
Unicode Codepoint Chart

Una de las peculiaridades que nos impone Unicode es que… ya no
existe una sÃ³la manera de escribir las cosas. Me arriesgo a enviar
aquÃ caracteres que algunos clientes de correo mal configurados no
mostrarÃ¡n bien. Pero bueno - Â¿Ves alguna diferencia entre las
siguientes letras?

Ã¡  aÌ

Son completamente distintas. La primera es un sÃ³lo caracter, una a
acentuada (U+00E1). El segundo debe verse igual, pero son dos
caracteres: Una ‘a’ sencilla (U+0061) seguida de un acento agudo
combinante (U+0301).

Una cuestiÃ³n muy importante de los caracteres combinantes es que
varios de ellos pueden caer sobre de la misma letra:

aÌ…ÌÌ

Esa es una ‘a’ (U+0061) con acento agudo (U+0301), grave (U+0300) y
lÃnea superior (U+0305).

Y claro, hay muchos otros que pueden verse muy similares. Este correo
lo escribo en texto plano (no cambio de tipo de letra ni nada por el
estilo), y si el font con que lees el correo lo soporta, verÃ¡s algunas
variaciones:

ï¼¥ï½“ï½”ï½ ï½…ï½“ ï½”ï½…ï½˜ï½”ï½ ï½“ï½‰ï½ï½ï½Œï½…

Â¿Y por quÃ© te insisto en todo esto? Porque para Ruby y para la base de
datos, naturalmente, estas cadenas se van a representar con la
secuencia de caracteres (tÃpicamente con una codificaciÃ³n UTF8)
correspondiente. Incluso si los ves en la consola de Ruby (cabe
mencionar que los puntos UTF normalmente los expresas como U+xxxx,
donde xxxx es un nÃºmero de 32 bits en representaciÃ³n hexadecimal; lo
que ves en la representaciÃ³n interna de Ruby en este caso es el
Unicode representado como un conjunto de bytes en UTF8, con los bytes
no-imprimibles representados en octales - La primer liga que mencionÃ©
lo explica), te los muestra explicitando su descomposiciÃ³n. Por
ejemplo:

[‘Ã¡’, ‘Ã¡’, ‘aÌ€ÌÌ…’, ‘ï¼¥ï½“ï½”ï½ ï½…ï½“ ï½”ï½…ï½˜ï½”ï½ ï½“ï½‰ï½ï½ï½Œï½…’]
=> ["\303\241", “a\314\201”, “a\314\200\314\201\314\205”,
“\357\274\245\357\275\223\357\275\224\357\275\217
\357\275\205\357\275\223
\357\275\224\357\275\205\357\275\230\357\275\224\357\275\217
\357\275\223\357\275\211\357\275\215\357\275\220\357\275\214\357\275\205”]

[‘Ã¡’, ‘Ã¡’, ‘aÌ€ÌÌ…’, ‘ï¼¥ï½“ï½”ï½ ï½…ï½“ ï½”ï½…ï½˜ï½”ï½ ï½“ï½‰ï½ï½ï½Œï½…’].map {|str| str.size}
=> [2, 3, 7, 54]

Y, por Ãºltimo, a punto al que iba: Â¿CÃ³mo puedes compararlas o
asegurarte que una Ã¡ es realmente el caracter que creÃas? Obviamente
los elementos primero y segundo -que se ven idÃ©nticos- son diferentes,
dado que su longitud en bytes es distinta. Ahora, si agregamos
caracteres de composiciÃ³n (tomo la aÌ€ÌÌ… como ejemplo), Â¿quÃ© pasa si
los aplicamos en un Ã³rden distinto?

comp = [‘aÌ€ÌÌ…’, ‘aÌ…ÌÌ€’, ‘Ã¡Ì…Ì€’]
=> [“a\314\200\314\201\314\205”, “a\314\205\314\201\314\200”,
“\303\241\314\205\314\200”]

comp[0] == comp[1]
=> false

comp[0] == comp[2]
=> false

comp[1] == comp[2]
=> false

Las tres grafÃas son semÃ¡nticamente equivalentes, pero su
representaciÃ³n varÃa dado que el Ã³rden en que les puse los acentos es
distinto.

… Y nuevamente, Â¿todo esto para quÃ©? Para demostrar que no tiene
sentido intentar encontrar la Ãºnica representaciÃ³n base, al menos no
con una sencilla tabla de equivalencias. MÃ¡s bien, habrÃa que
preguntarnos si tiene sentido quitar los diacrÃticos. Â¿Para quÃ©
quieres hacerlo? Si es para facilitar las bÃºsquedas, mÃ¡s bien querrÃ¡s
usar una biblioteca como Soundex, mucho mÃ¡s elaborada que los esquemas
que han presentado ante tu pregunta.

Saludos,

–
Gunnar W. - [email protected] - (+52-55)5623-0154 / 1451-2244
PGP key 1024D/8BB527AF 2001-10-23
Fingerprint: 0C79 D2D1 2C4E 9CE4 5973 F800 D80E F35A 8BB5 27AF

cesardiaz · April 13, 2009, 8:09pm

para extraer datos de determinadas pÃ¡ginas web de terceros a travÃ©s de
screen scraping, y las URLs de estas pÃ¡ginas no utilizan caracteres
acentuados y demÃ¡s (obviamente).

Los URLs pueden contener texto acentuado sin ningÃºn problema. Para un
buen ejemplo, asÃ³mate a http://www.tinyarro.ws/ - o, aunque tu cliente
de correo no lo muestre correctamente (o sÃ, no lo sÃ©), en la
siguiente direcciÃ³n:

http://âœ©.ws/âž¡âž¨âž¯âž”âžžâž½âž¹âœ©âœ¿â¥â€ºâŒ˜â€½â˜

Saludos,

–
Gunnar W. - [email protected] - (+52-55)5623-0154 / 1451-2244
PGP key 1024D/8BB527AF 2001-10-23
Fingerprint: 0C79 D2D1 2C4E 9CE4 5973 F800 D80E F35A 8BB5 27AF