Issue #6351 has been reported by usa (Usaku NAKAMURA). ---------------------------------------- Bug #6351: transcode table generator does not support multi characters of Unicode https://bugs.ruby-lang.org/issues/6351 Author: usa (Usaku NAKAMURA) Status: Assigned Priority: Normal Assignee: duerst (Martin Dürst) Category: build Target version: 2.0.0 ruby -v: ruby 2.0.0dev (2012-04-24 trunk 35457) 改めてチケット起こします。[ruby-dev:45576] より。 On 2012/04/24 17:11, "Martin J. Dürst" wrote: > On 2012/04/24 17:02, U.Nakamura wrote: > >> データは例によってNetBSDのものが利用できそうです。 >> なのですが、transcodeってUnicodeの第0面(BMP)以外はサポートし >> てましたっけ? > > もちろんです :-) もうちょっと調べました。BMP 以外は transcode の最初から全く問題ないです が、現時点で引っかかるのは次のものです (http://x0213.org/codetable/euc-jis-2004-std.txt から抜粋): 0xA4F7 U+304B+309A # [2000] 0xA4F8 U+304D+309A # [2000] 0xA4F9 U+304F+309A # [2000] 0xA4FA U+3051+309A # [2000] 0xA4FB U+3053+309A # [2000] 0xA5F7 U+30AB+309A # [2000] 0xA5F8 U+30AD+309A # [2000] 0xA5F9 U+30AF+309A # [2000] 0xA5FA U+30B1+309A # [2000] 0xA5FB U+30B3+309A # [2000] 0xA5FC U+30BB+309A # [2000] 0xA5FD U+30C4+309A # [2000] 0xA5FE U+30C8+309A # [2000] 0xA6F8 U+31F7+309A # [2000] 0xABC4 U+00E6+0300 # [2000] 0xABC8 U+0254+0300 # [2000] 0xABC9 U+0254+0301 # [2000] 0xABCA U+028C+0300 # [2000] 0xABCB U+028C+0301 # [2000] 0xABCC U+0259+0300 # [2000] 0xABCD U+0259+0301 # [2000] 0xABCE U+025A+0300 # [2000] 0xABCF U+025A+0301 # [2000] 0xABE5 U+02E9+02E5 # [2000] 0xABE6 U+02E5+02E9 # [2000] ようするに、JIS X 0213 で一文字になっているが、Unicode で二文字になって いるものです。EUC-JISX0213 から UTF-8 は問題ないですが、逆は現在引っかか ります。windows-1258 も (逆ですが) 同じ問題がありますので、いずれはなく さないといけないと思いましたが、今回はいいきっかけのではないかと思います。 よろしくお願いします。 Martin.
[ruby-trunk - Bug #6351][Assigned] transcode table generator does not support multi characters of Un
on 2012-04-24 13:42
on 2013-02-18 13:38
Issue #6351 has been updated by mame (Yusuke Endoh). Target version changed from 2.0.0 to next minor ---------------------------------------- Bug #6351: transcode table generator does not support multi characters of Unicode https://bugs.ruby-lang.org/issues/6351#change-36518 Author: usa (Usaku NAKAMURA) Status: Assigned Priority: Normal Assignee: duerst (Martin Dürst) Category: build Target version: next minor ruby -v: ruby 2.0.0dev (2012-04-24 trunk 35457) 改めてチケット起こします。[ruby-dev:45576] より。 On 2012/04/24 17:11, "Martin J. Dürst" wrote: > On 2012/04/24 17:02, U.Nakamura wrote: > >> データは例によってNetBSDのものが利用できそうです。 >> なのですが、transcodeってUnicodeの第0面(BMP)以外はサポートし >> てましたっけ? > > もちろんです :-) もうちょっと調べました。BMP 以外は transcode の最初から全く問題ないです が、現時点で引っかかるのは次のものです (http://x0213.org/codetable/euc-jis-2004-std.txt から抜粋): 0xA4F7 U+304B+309A # [2000] 0xA4F8 U+304D+309A # [2000] 0xA4F9 U+304F+309A # [2000] 0xA4FA U+3051+309A # [2000] 0xA4FB U+3053+309A # [2000] 0xA5F7 U+30AB+309A # [2000] 0xA5F8 U+30AD+309A # [2000] 0xA5F9 U+30AF+309A # [2000] 0xA5FA U+30B1+309A # [2000] 0xA5FB U+30B3+309A # [2000] 0xA5FC U+30BB+309A # [2000] 0xA5FD U+30C4+309A # [2000] 0xA5FE U+30C8+309A # [2000] 0xA6F8 U+31F7+309A # [2000] 0xABC4 U+00E6+0300 # [2000] 0xABC8 U+0254+0300 # [2000] 0xABC9 U+0254+0301 # [2000] 0xABCA U+028C+0300 # [2000] 0xABCB U+028C+0301 # [2000] 0xABCC U+0259+0300 # [2000] 0xABCD U+0259+0301 # [2000] 0xABCE U+025A+0300 # [2000] 0xABCF U+025A+0301 # [2000] 0xABE5 U+02E9+02E5 # [2000] 0xABE6 U+02E5+02E9 # [2000] ようするに、JIS X 0213 で一文字になっているが、Unicode で二文字になって いるものです。EUC-JISX0213 から UTF-8 は問題ないですが、逆は現在引っかか ります。windows-1258 も (逆ですが) 同じ問題がありますので、いずれはなく さないといけないと思いましたが、今回はいいきっかけのではないかと思います。 よろしくお願いします。 Martin.
Please log in before posting. Registration is free and takes only a minute.
Existing account
(Switch to SSL-encrypted connection)
NEW: Do you have a Google/GoogleMail or Yahoo account? No registration required!
Log in with Google account | Log in with Yahoo account
Log in with Google account | Log in with Yahoo account
No account? Register here.