Remplacer les accents d'un enregistrement en utf8

friofool · June 2, 2009, 8:42am

Thibaut BarrÃ¨re wrote:

tu utilises activesupport 2.2.2, je crois que parameterize n’existait
pas encore dans cette release.

Bonjour Thibaut,

Ca fait un bail, mais j’ai dÃ» laisser tomber le dÃ©veloppement pour faire
de la gestion de projets… Je me suis donc remis au “vrai” travail et
ai mis Ã jour mes gems, pour inclure activesupport 2.3.2 ; pourtant,
lorsque j’essaie d’utiliser “parameterize”, j’ai toujours un message
d’erreur sur la non existence de la fonction “normalize”. J’ai trouvÃ© un
post qui mentionnait le problÃ¨me et recommandait de le rÃ©soudre avec un
“$KCODE = ‘u’” (Unicode). Malheureusement, Ã§a ne change rien pour moi…

Merci de vos suggestions,

Christophe.

friofool · June 2, 2009, 9:29am

Chris Gers32 a Ã©crit :

    from 
=> “u”
parameterize' from c:/ruby/lib/ruby/gems/1.8/gems/activesupport-2.3.2/lib/active_support/core_ext/string/inflections.rb:106:in parameterize’
from (irb):6

As-tu le fichier :

c:/ruby/lib/ruby/gems/1.8/gems/activesupport-2.3.2/lib/active_support/chars.rb
http://api.rubyonrails.org/files/vendor/rails/activesupport/lib/active_support/multibyte/chars_rb.html

En effet, la mÃ©thode
normalize(ActiveSupport::Multibyte::Chars)
est dans ce fichier.

Sinon peut-Ãªtre un problÃ¨me de Windows. Typiquement la mÃ©thode qui est
appelÃ© dans ton cas n’est appelÃ© que quand Iconv ne fonctionne pas

cf :

github.com

rails/rails/blob/196f780e30fcece25e4d09c12f9b9f7374ebed29/activesupport/lib/active_support/inflector.rb#L293


      
          
          
if RUBY_VERSION >= '1.9'
            undef_method :transliterate
            def transliterate(string)
              warn "Ruby 1.9 doesn't support Unicode normalization yet"
              string.dup
            end
          
          
# The iconv transliteration code doesn't function correctly
          # on some platforms, but it's very fast where it does function.
          elsif "foo" != (Inflector.transliterate("föö") rescue nil)
            undef_method :transliterate
            def transliterate(string)
              string.mb_chars.normalize(:kd). # Decompose accented characters
                gsub(/[^\x00-\x7F]+/, '')     # Remove anything non-ASCII entirely (e.g. diacritics).
            end
          end
          
          
# Create the name of a table like Rails does for models to table names. This method
          # uses the +pluralize+ method on the last word in the string.
          #

–
Cyril M.

friofool · June 18, 2009, 1:26am

Attention, une chaîne avec accents tapé dans la ligne de commande de
windows n’est pas traitée de la même manière qu’une même chaîne écrite
dans un fichier par exemple (dans le détail je ne sais pas trop
pourquoi, mais il vaut mieux le savoir quand on fait des essais).

Exemples que j’ai pondu ce matin, et je viens de rajouter le KCODE qui
fait que ça marche bien sous win aussi :

gist.github.com

https://gist.github.com/130606

inflector_transliterate.rb

# Ok, forget the other method, just use ActiveSupport Inflector (from which version ?)
$KCODE = 'UTF-8' # For Windows.
# But a string with accents typed in the Windows command line will still have a NoMethodError 'normalize'.

require 'rubygems'
gem 'activesupport'
require 'activesupport'

txt = "Hé hoé Huhuh, tu as déjà vu du kawaï sur une [email protected] ? CAPitALE !"

This file has been truncated. show original

trans_special_chars.rb

class String
  # A way to remove accents, I haven't try it yet.
  def translit
   ActiveSupport::Multibyte::Handlers::UTF8Handler.normalize(self,:d).split(//u).reject { |e| e.length > 1 }.join
 end
end

Pas besoin de préciser le KCODE dans le contexte de rails, je pense
qu’il le fait comme un grand.

friofool · June 18, 2009, 9:45am

Qui dit fichier sous windows sans se prÃ©occuper de l’encodage dit
encodage
CP1252 par dÃ©faut, et le CP ce n’est ni de l’UTF, ni de l’ISO, c’est
leur
vilaine norme pÃ©nible juste Ã eux pour Ãªtre pas compatible.

Michel B.

2009/6/18 AlSquire [email protected]

friofool · June 2, 2009, 9:56am

Cyril M. wrote:

En effet, la mÃ©thode
normalize(ActiveSupport::Multibyte::Chars)
est dans ce fichier.

Sinon peut-Ãªtre un problÃ¨me de Windows. Typiquement la mÃ©thode qui est
appelÃ© dans ton cas n’est appelÃ© que quand Iconv ne fonctionne pas

Bonjour Cyril,

La mÃ©thode “normalize” est bien dÃ©finie dans le fichier que tu dÃ©cris,
mais elle ne semble pas fonctionner pour les caractÃ¨res accentuÃ©s. J’ai
repris un exemple dudit fichier, pour illustrer le problÃ¨me :

irb(main):004:0> require ‘active_support’
=> true
irb(main):005:0> $KCODE = ‘u’
=> “u”
irb(main):006:0> "The Perfect String ".mb_chars.downcase.strip.normalize
=> #<ActiveSupport::Multibyte::Chars:0x40f117c @wrapped_string=“the
perfect string”>
irb(main):007:0> “La ChaÃ®ne Parfaite”.mb_chars.downcase.strip.normalize
NoMethodError: undefined method `normalize’ for “la cha\214ne
parfaite”:String
from (irb):7

Et pour ce qui est de “iconv”, les lettres accentuÃ©es sont carrÃ©ment
supprimÃ©es : Iconv.iconv(‘ascii//ignore//translit’, ‘utf-8’,
“Ã©thanol”).to_s retourne “thanol”…

friofool · June 18, 2009, 10:11am

le CP ce n’est ni de l’UTF, ni de l’ISO, c’est leur vilaine norme pénible juste à eux pour être pas compatible.

Le CP 1252 s’appuyait sur ce qui était disponible à ce moment là de la
standardisation, c’est à dire un draft ANSI, draft qui a ensuite été
amendé pour devenir le latin-1 qu’on connait aujourd’hui, incompatible
sur un certain nombre de points.

C’est toujours la même histoire, pour Microsoft, Google ou Mozilla: ou
bien ils font un pari avant que les drafts soient finalisés et ils
sortent des produits (win95, webkit ou autre), ou ils ne sortent pas
de produits et quelqu’un d’autre les sort à la place

– Thibaut

friofool · June 18, 2009, 10:28am

Non c’Ã©tait bien l’ANSI quand il n’y avait que l’ANSI. Et puis il y a eu
l’ISO (oups, loupÃ© le changement de cap) et puis il y a eu l’UTF
(carramba,
encore ratÃ©).

Moi je vois plutÃ´t Ã§a comme Ã§a : il y a les gens qui sortent un bon
produit
Ã peu prÃ¨s fini une fois tous les 6-7 ans, avec quelques bugs qui
nÃ©cessitent un service pack, ou deux, ou trois, et qui sortent beaucoup
de
merdes entre temps juste pour occuper l’espace, sans se prÃ©occuper des
standards, et trÃ¨s cher, et d’un autre cÃ´tÃ© il y a les autres, dont
certains
font des produits gratuits, open-source, puissants, Ã©volutifs,
modulables,
et respectueux des standards.

D’oÃ¹ l’absence de comparaison entre par exemple Microsoft et Google ou
Mozilla. Dans les trois, il y en a un qui sera toujours loin derriÃ¨re
tant
qu’il se conduira de la mÃªme faÃ§on.

Michel B.

2009/6/18 Thibaut BarrÃ¨re [email protected]

friofool · June 18, 2009, 10:46am

qu’il se conduira de la même façon.
Houla - y’a du lourd pour de la flamewar

Je retourne à mon développement Silverlight IronRuby Google Wave Qui
Tourne Dans FireFox ™.

– Thibaut

friofool · June 18, 2009, 10:29am

Michel B.

2009/6/18 Michel B. [email protected]

friofool · June 18, 2009, 3:24pm

PlutÃ´t que de convertir des caractÃ¨res accentuÃ©s en caractÃ¨res non
accentuÃ©s dans mon application Rails, je les ai finalement gardÃ©s et du
coup, mon problÃ¨me principal Ã©tait de passer des accents Ã une base
Oracle via une requÃªte SQL. Les problÃ¨mes d’encodage ont Ã©tÃ© rÃ©solus
grÃ¢ce Ã l’insertion du code suivant dans application_controller.rb :

class ApplicationController < ActionController::Base
…
…

before_filter :headers_iso

def headers_iso
# make sure the charset matches the default Oracle NLS setting
headers[“content-type”]= “text/xml; charset=windows-1252”
end
end

Merci,

Christophe.