Remplacer les accents d'un enregistrement en utf8

friofool · March 3, 2008, 1:34am

Salut,

Je souhaiterai remplacer les accents d’une chaine provenant d’une table
encodÃ©e en UTF8 pour formater des urls correctes.

Evidement Ã§a ne marche pas.

Mon code :

source = “Ã Ã¢Ã©Ã¨”
dest = “aaee”

option = Option.find(:all)

nomOption = option.libelle_option
nomOption = nomOption.tr(source,dest)

Les accents ne sont pas remplacÃ©s avec cette mÃ©thode.

Est ce qu’il y a un moyen diffÃ©rent de le faire ?
Est ce que l’encodage pose problÃ¨me et si oui comment contourner le
problÃ¨me ?

Merci…

friofool · March 3, 2008, 8:00am

Le 3 mars 08 à 01:34, Frioffol F. a écrit :

Les accents ne sont pas remplacés avec cette méthode.

Est ce qu’il y a un moyen différent de le faire ?
Est ce que l’encodage pose problème et si oui comment contourner le
problème ?

Merci…

Bonjour

J’utilise ça dans Typo :

 accents = { ['á','à','â','ä','ã','Ã','Ä','Â','À'] => 'a',
   ['é','è','ê','ë','Ë','É','È','Ê'] => 'e',
   ['í','ì','î','ï','I','Î','Ì'] => 'i',
   ['ó','ò','ô','ö','õ','Õ','Ö','Ô','Ò'] => 'o',
   ['œ'] => 'oe',
   ['ß'] => 'ss',
   ['ú','ù','û','ü','U','Û','Ù'] => 'u',
   ['ç','Ç'] => 'c'
   }
 accents.each do |ac,rep|
   ac.each do |s|
     str.gsub!(s, rep)
   end
 end

Et ça marche plutôt bien (sans compter le nombre important de
caract`eres pris en compte)

Bonne
journéeFred

friofool · March 3, 2008, 2:08pm

J’utilise le gem “unicode” pour faire ça.

require ‘unicode’

class String
def to_slug
str = Unicode.normalize_KD(self).gsub(/[^\x00-\x7F]/n,‘’)
str = str.gsub(/\W+/, ‘-’).gsub(/^-+/,‘’).gsub(/-+$/,‘’).downcase
end
end

++

yk

Le 03/03/08, Frioffol F.[email protected] a écrit :

friofool · March 4, 2008, 4:18pm

Hello,

une solution de plus si tu es dans Rails (je m’en sers dans Comatose):

module DiacriticsFu
def self.escape(str)

ActiveSupport::Multibyte::Handlers::UTF8Handler.normalize(str,:d).split(//
u).reject { |e| e.length > 1 }.join
end
end

la RSpec en bas de ce message si tu es intÃ©ressÃ©!

Thibaut BarrÃ¨re / LoGeek

http://blog.logeek.fr - learning content for developers
http://evolvingworker.com - tools for a better day

============= diacritics_fu_spec.rb =========================

require File.dirname(FILE) + ‘/…/spec_helper’
require ‘diacritics_fu’

describe “DiacriticsFu.escape” do

it “should remove the accents with grace” do
DiacriticsFu::escape(“Ã©phÃ©mÃ¨re”).should eql(“ephemere”)
DiacriticsFu::escape(“Ã©ÃªÃ¨Ã¯Ã®Ã¹”).should eql(“eeeiiu”)
end

it “should work” do
DiacriticsFu::escape(“rÃ¤ksmÃ¶rgÃ¥s”).should eql(“raksmorgas”)
end

KNOWN_DIACRITICS = { “a” => “Ã Ã¤Ã¢”, “e” => “Ã©Ã¨ÃªÃ«”, “i” => “Ã®Ã¯”, “o”
=> “Ã´Ã¶”, “u” => “Ã¼Ã»”, “c” => “Ã§”,
“I” => “ÃÃŽ”, “E” => “ÃŠÃ‹”, “n” => “Ã±”, “O” =>
“Ã”Ã–”, “Y” => “Å¸”, “y” => “Ã¿”, “N” => “Ã‘” }

KNOWN_DIACRITICS.each do |expected_replacement,originals|
it “should transform any of ‘#{originals}’ into
‘#{expected_replacement}’” do
originals.split(//).each do |original|
DiacriticsFu.escape(original).should eql(expected_replacement)
end
end
end

end

friofool · March 4, 2008, 9:33pm

Bonjour Thibaut,

J’ai essayé d’implémenter votre code comme monkeypatch au plugin
PermalinkFu, mais cela n’a pas fonctionné. L’avez-vous déjà fait? En
avez-vous parlé à Rick O. l’auteur du plugin?

Je ne comprends pas comment est structuré le plugin PermalinkFu car il
n’y a aucun commentaires.

friofool · March 4, 2008, 9:37pm

Ha ben en fait je viens d’y arriver. J’avais oublié qu’il fallait
redémarrer le serveur Mongrel pour recharger le plugin. Par contre
c’est dommage par défaut, votre patch transform les espaces en %20.

friofool · March 5, 2008, 9:27am

Hello,

voici un patch possible :

http://pastie.caboo.se/161676

En pratique je l’injecte dans PermalinkFu (il ne fait que supprimer
les accents).

J’en profite: vu que les français ont fréquemment ce souci d’accents
dans les urls, je me dis que ça pourrait être intéressant de publier
une bonne fois pour toute une gem ou un plugin rails pour gérer ça.
Qu’en pensez-vous ?

– Thibaut

friofool · March 5, 2008, 3:23pm

On 5 mar, 09:25, Thibaut BarrÃ¨re [email protected] wrote:

dans les urls, je me dis que Ã§a pourrait Ãªtre intÃ©ressant de publier
une bonne fois pour toute une gem ou un plugin rails pour gÃ©rer Ã§a.
Qu’en pensez-vous ?

J’aime bien je remarque juste que cette mÃ©thode a 2 petits defaults:

elle est 4 fois plus lente qu’une methode Ã base de regex trÃ¨s
complÃ¨te et sans doute encore pire pour une version Ã base de regexp
simple. Suivant l’usage qu’on en fait ca n’est pas forcement
dramatique
les translitÃ©rations qu’elle supporte ne sont pas exhautive non plus
bien que loin d’Ãªtre mauvaise. Pas de Å“ de ÃŸ .

Ca marche bien sur ‘Ã¢Ã¤Ã Ã£Ã¡Ã¤Ã¥ÄÄƒÄ…ÇŽÇŸÇ¡Ç»ÈÈƒÈ§áºµáº·’ ou
‘Ã²Ã³Ã´ÃµÅÅÈ¯Ã¶á»Å‘Ç’ÈÈÆ¡Ç«á»ÉµÃ¸á»“á»‘á»—á»•È±È«Èá¹á¹á¹‘á¹“á»á»›á»¡á»Ÿá»£Çá»™Ç¿’ et mÃªme ‘Ã‡Ä†ÄŒÄˆÄŠ’ en revanche.
Et c’est clair que c’est plus esthÃ©tique que gÃ©rer des tableau de
correspondance de caractÃ¨re. Et Ã©videmment c’est rÃ©servÃ© exclusivement
aux langues occidendales.

Reste Ã espÃ©rer que la solution miracle viendra du cotÃ© de ruby 1.9

friofool · March 6, 2008, 2:35pm

Et ï¿½a marche plutï¿½t bien (sans compter le nombre important de
caract`eres pris en compte)

Bonne
journï¿½eFred

Bonjour,

J’ai voulu implÃ©menter la fonction de Fred ci-dessous, mais
l’interprÃ©teur Ruby n’aime pas… les accents, justement !

def remove_accents( str )

accents = { ['Ã¡','Ã ','Ã¢','Ã¤','Ã£','Ãƒ','Ã„','Ã‚','Ã€'] => 'a',
            ['Ã©','Ã¨','Ãª','Ã«','Ã‹','Ã‰','Ãˆ','ÃŠ'] => 'e',
            ['Ã','Ã¬','Ã®','Ã¯','I','ÃŽ','ÃŒ'] => 'i',
            ['Ã³','Ã²','Ã´','Ã¶','Ãµ','Ã•','Ã–','Ã”','Ã’'] => 'o',
            ['Å“'] => 'oe',
            ['ÃŸ'] => 'ss',
            ['Ãº','Ã¹','Ã»','Ã¼','U','Ã›','Ã™'] => 'u'
}
accents.each do |ac,rep|
  ac.each do |s|
    str.gsub!(s, rep)
  end
end
return str

end

Est-ce un problÃ¨me dÃ» Ã mon environnement de dÃ©veloppement (Eclipse) ?

Merci,

Christophe.

friofool · March 5, 2008, 4:23pm

Salut Renaud!

J’aime bien je remarque juste que cette méthode a 2 petits defaults:

elle est 4 fois plus lente qu’une methode à base de regex très
complète et sans doute encore pire pour une version à base de regexp
simple. Suivant l’usage qu’on en fait ca n’est pas forcement
dramatique

les translitérations qu’elle supporte ne sont pas exhautive non plus
bien que loin d’être mauvaise. Pas de OE de ß .

Merci pour les retours!

En pratique je me sers de cette méthode lors de la création d’articles
dans un CMS (la perf ne pose pas de problème dans mon cas, le facteur
limitant étant le rédacteur :-).

Reste à espérer que la solution miracle viendra du coté de ruby 1.9

J’aimerais autant - car malgré tout ça fait un peu bricolage!

– Thibaut

friofool · March 6, 2008, 2:39pm

On Thu, Mar 6, 2008 at 2:35 PM, Chris Gers32
[email protected] wrote:

J’ai voulu implÃ©menter la fonction de Fred ci-dessous, mais
[‘ÃŸ’] => ‘ss’,
end

Est-ce un problÃ¨me dÃ» Ã mon environnement de dÃ©veloppement (Eclipse) ?

Ton fichier est-il bien encodÃ© en UTF-8 justement ?

–
Cyril M.

friofool · March 6, 2008, 3:30pm

Aha ! Eh non, il ne l’Ã©tait pas, justement… C’est maintenant chose
faite.

Merci,

Christophe.

friofool · March 6, 2008, 5:24pm

J’ai voulu implémenter la fonction de Fred ci-dessous, mais
[‘ú’,‘ù’,‘û’,‘ü’,‘U’,‘Û’,‘Ù’] => ‘u’
}
accents.each do |ac,rep|
ac.each do |s|
str.gsub!(s, rep)
end
end
return str

end

IMHO l’implémentation de cette méthode n’est pas optimale, au niveau
performance elle est a peu près équivalente à la méthode de Thibault
avec un support de caractère bien moindre.

La table de correspondance est redéfinie à chaque execution, donc +
de GC et du temps perdu.
Et il y a beaucoup trop d’itération, précompiler un nombre limité de
regexp serait beaucoup plus performant et éviterait que gsub le fasse
à chaque execution.

Si c’est executé une fois de temps en temps ca n’a pas d’importance
mais en cas d’utilisation intensive ca n’est pas terrible.

friofool · February 19, 2009, 9:13am

Cela fait bientÃ´t un an… J’ai Ã©tÃ© occupÃ© Ã faire de la gestion de
projets, mais me re-voici avec le mÃªme problÃ¨me :

Cette fois, j’ai fait la substitution dans irb et elle fonctionne :

C:\Users\Christophe>irb
irb(main):001:0> str = “Ã©thanol”
=> “\202thanol”
irb(main):002:0> str.gsub(‘Ã©’, ‘e’)
=> “ethanol”

Quelqu’un peut-il m’expliquer pourquoi Ã§a ne fonctionne pas dans la
mÃ©thode de Fred ci-dessous ? Comme je l’ai indiquÃ© plus haut, mon
fichier source est bien encodÃ© en UTF-8.

def ApplicationHelper.remove_accents( str )

accents = { ['Ã¡','Ã ','Ã¢','Ã¤','Ã£','Ãƒ','Ã„','Ã‚','Ã€'] => 'a',
            ['Ã©','Ã¨','Ãª','Ã«','Ã‹','Ã‰','Ãˆ','ÃŠ'] => 'e',
            ['Ã','Ã¬','Ã®','Ã¯','I','ÃŽ','ÃŒ'] => 'i',
            ['Ã³','Ã²','Ã´','Ã¶','Ãµ','Ã•','Ã–','Ã”','Ã’'] => 'o',
            ['Å“'] => 'oe',
            ['ÃŸ'] => 'ss',
            ['Ãº','Ã¹','Ã»','Ã¼','U','Ã›','Ã™'] => 'u'
}
accents.each do |ac,rep|
  ac.each do |s|
    str.gsub!(s, rep)
  end
end
return str

end

J’ai Ã©galement essayÃ© la mÃ©thode escape( str ) de Thibaud (au-dessus),
mais l’exÃ©cution de l’application semble s’interrompre (je n’ai sÃ»rement
pas su m’en servir…).

Merci,

Christophe.

friofool · March 7, 2008, 9:24am

Oui, je rÃ©alise que cette fonction n’est pas optimale, mais Ã©tant peu
expÃ©rimentÃ© en Ruby, c’Ã©tait la solution la plus claire.

Mais de toute faÃ§on, elle ne marche pas dans mon cas : lorsque je fais
tourner l’application dans le dÃ©bogueur, je vois que Ruby ne reconnaÃ®t
pas les caractÃ¨res accentuÃ©s reÃ§us via une URL et les affiche comme des
donnÃ©es binaires… Pourtant, ils semblent bien encodÃ©s dans l’URL ; la
console affiche ceci :

http://localhost/wrk_vpreparations/by_multi_criteria_xml?description=��…

Donc on voit bien que toutes les lettres accentuÃ©es sont bien passÃ©es
via l’URL, mais dans le SELECT, elles devraient avoir Ã©tÃ© converties en
AAEEEECIIIOU (j’applique d’abord la fonction remove_accents(), puis
upcase).

C’est bien au niveau de Ruby que Ã§a dÃ©conne, parce que si j’essaie de
faire un simple “Ã©”.upcase dans script/console (irb de RadRails), Ã§a
plante… En revanche, la mÃªme chose dans irb en ligne de commande
renvoie “\202” ; je n’y comprends plus rien !

friofool · February 19, 2009, 10:48am

irb(main):017:0> def remove_accents( str )
irb(main):018:1> accents = { [‘Ã©’] => ‘e’}
irb(main):019:1> accents.each do |ac, rep|
irb(main):020:2* ac.each do |s|
irb(main):021:3* str.gsub!(s, rep)
irb(main):022:3> end
irb(main):023:2> end
irb(main):024:1> return str
irb(main):025:1> end
=> nil
irb(main):026:0> remove_accents( “Ã©thanol” )
=> “ethanol”

Christophe.

friofool · February 19, 2009, 5:10pm

Fernando P. wrote:

irb(main):026:0> remove_accents( “Ã©thanol” )
=> “ethanol”

Pourrait-il y avoir un paramÃ©trage de l’encodage dans un fichier de
configuration quelque part ou au niveau d’Eclipse ?

Christophe.

“Ã Ã¢Ã©Ã¨”.parameterize.to_s

NoMethodError (undefined method normalize' for "ï¿½thanol":String): c:/ruby/lib/ruby/gems/1.8/gems/activesupport-2.2.2/lib/active_support/inflector.rb:283:intransliterate’
c:/ruby/lib/ruby/gems/1.8/gems/activesupport-2.2.2/lib/active_support/inflector.rb:262:in
parameterize' c:/ruby/lib/ruby/gems/1.8/gems/activesupport-2.2.2/lib/active_support/core_ext/string/inflections.rb:106:inparameterize’
…

Alors que j’ai passÃ© le paramÃ¨tre “Ã©thanol” qui s’est transformÃ© en
“%E9” dans l’URL provenant d’une application Flex tournant dans un
plugin Flash. Et lorsque je passe simplement “ethanol”, je n’ai pas
l’erreur. On dirait bien que la transcodification du “%E9” en “Ã©” a
dÃ©connÃ©, mais je ne sais pas Ã quel niveau.

friofool · February 19, 2009, 12:43pm

irb(main):026:0> remove_accents( “Ã©thanol” )
=> “ethanol”

Pourrait-il y avoir un paramÃ©trage de l’encodage dans un fichier de
configuration quelque part ou au niveau d’Eclipse ?

Christophe.

friofool · February 21, 2009, 1:55pm

Hello,

tu utilises activesupport 2.2.2, je crois que parameterize n’existait
pas encore dans cette release.

Je crois que tu as gagné le droit de te rabattre sur diacritics_fu
(github.com/thbar/diacritics_fu/tree).

– Thibaut

friofool · June 2, 2009, 9:09am

Voici un exemple dans irb. Lorsque l’encodage n’est pas spÃ©cifiÃ©, la
fonction “normalize” n’est pas trouvÃ©e pour la chaÃ®ne de caractÃ¨res “a b
c”. Puis, lorsque je spÃ©cifie l’encodage (UTF8), Ã§a fonctionne avec “a b
c”, mais pas avec "Ã© Ã¨ Ã§ Ã ". Or, les seuls encodages disponibles sont
“NONE”, “UTF8” et deux encodages japonais “EUC” et “SJIS”…

irb(main):002:0> require ‘active_support’
=> true
irb(main):003:0> “a b c”.parameterize
NoMethodError: undefined method normalize' for "a b c":String from c:/ruby/lib/ruby/gems/1.8/gems/activesupport-2.3.2/lib/active_support/inflector.rb:292:intransliterate’
from
c:/ruby/lib/ruby/gems/1.8/gems/activesupport-2.3.2/lib/active_support/inflector.rb:261:in
parameterize' from c:/ruby/lib/ruby/gems/1.8/gems/activesupport-2.3.2/lib/active_support/core_ext/string/inflections.rb:106:inparameterize’
from (irb):3
irb(main):004:0> $KCODE = ‘u’
=> “u”
irb(main):005:0> “a b c”.parameterize
=> #<ActiveSupport::Multibyte::Chars:0x40fc07c @wrapped_string=“a-b-c”>
irb(main):006:0> "Ã© Ã¨ Ã§ Ã ".parameterize
NoMethodError: undefined method normalize' for "\202 \212 \207 \205":String from c:/ruby/lib/ruby/gems/1.8/gems/activesupport-2.3.2/lib/active_support/inflector.rb:292:intransliterate’
from
c:/ruby/lib/ruby/gems/1.8/gems/activesupport-2.3.2/lib/active_support/inflector.rb:261:in
parameterize' from c:/ruby/lib/ruby/gems/1.8/gems/activesupport-2.3.2/lib/active_support/core_ext/string/inflections.rb:106:inparameterize’
from (irb):6