Yann :
Sinon tu peux laisser faire le boulot de conversion à un programme
Python puisque la bibliothèque “chardet” est un peu plus “accessible”
que ce que l’on trouve dans le monde Ruby (amis trolleurs, bonsoir).
Qu’est-ce que tu entends par “accessible” ? La doc est insuffisante,
le code pas clair ? Le fait que ce soit codé par un Chinois ??? L’Api
est la même que la version Python puisque la version Ruby est un
port de la version Python, elle même un port de la lib C++ Universal
Chardet.
La version Ruby marche chez moi (mais charguess est ptêtre mieux
(et sûrement plus rapide)), voici les résultats que j’obtiens avec les
exemples Python :
-
http://google.cn
Detection…
http://google.cn → {“encoding”=>“GB2312”, “confidence”=>0.99} -
http://yahoo.co.jp
Detection…
http://yahoo.co.jp → {“encoding”=>“EUC-JP”, “confidence”=>0.99} -
http://amazon.co.jp
Detection…
http://amazon.co.jp → {“encoding”=>“SHIFT_JIS”, “confidence”=>0.99} -
http://pravda.ru
Detection…
http://pravda.ru → {“encoding”=>“windows-1251”,
“confidence”=>0.934317299003389} -
http://auction.co.kr
Detection…
http://auction.co.kr → {“encoding”=>“EUC-KR”, “confidence”=>0.99} -
http://haaretz.co.il
Detection…
http://haaretz.co.il → {“encoding”=>“windows-1255”,
“confidence”=>0.998643275301392} -
http://www.nectec.or.th/tindex.html
Detection…
http://www.nectec.or.th/tindex.html → {“encoding”=>“TIS-620”,
“confidence”=>0.770854850816224} -
http://feedparser.org/docs/
Detection…
http://feedparser.org/docs/ → {“encoding”=>“utf-8”, “confidence”=>0.99}– Jean-François.