Forum: Ruby-dev [ruby-trunk - Bug #6351][Assigned] transcode table generator does not support multi characters of Un

Posted by usa (Usaku NAKAMURA) (Guest)
on 2012-04-24 13:42
(Received via mailing list)
Issue #6351 has been reported by usa (Usaku NAKAMURA).

----------------------------------------
Bug #6351: transcode table generator does not support multi characters 
of Unicode
https://bugs.ruby-lang.org/issues/6351

Author: usa (Usaku NAKAMURA)
Status: Assigned
Priority: Normal
Assignee: duerst (Martin Dürst)
Category: build
Target version: 2.0.0
ruby -v: ruby 2.0.0dev (2012-04-24 trunk 35457)


改めてチケット起こします。[ruby-dev:45576] より。

On 2012/04/24 17:11, "Martin J. Dürst" wrote:
> On 2012/04/24 17:02, U.Nakamura wrote:
>
>> データは例によってNetBSDのものが利用できそうです。
>> なのですが、transcodeってUnicodeの第0面(BMP)以外はサポートし
>> てましたっけ?
>
> もちろんです :-)

もうちょっと調べました。BMP 以外は transcode の最初から全く問題ないです
が、現時点で引っかかるのは次のものです
(http://x0213.org/codetable/euc-jis-2004-std.txt から抜粋):

0xA4F7  U+304B+309A  #   [2000]
0xA4F8  U+304D+309A  #   [2000]
0xA4F9  U+304F+309A  #   [2000]
0xA4FA  U+3051+309A  #   [2000]
0xA4FB  U+3053+309A  #   [2000]

0xA5F7  U+30AB+309A  #   [2000]
0xA5F8  U+30AD+309A  #   [2000]
0xA5F9  U+30AF+309A  #   [2000]
0xA5FA  U+30B1+309A  #   [2000]
0xA5FB  U+30B3+309A  #   [2000]
0xA5FC  U+30BB+309A  #   [2000]
0xA5FD  U+30C4+309A  #   [2000]
0xA5FE  U+30C8+309A  #   [2000]

0xA6F8  U+31F7+309A  #   [2000]

0xABC4  U+00E6+0300  #   [2000]

0xABC8  U+0254+0300  #   [2000]
0xABC9  U+0254+0301  #   [2000]
0xABCA  U+028C+0300  #   [2000]
0xABCB  U+028C+0301  #   [2000]
0xABCC  U+0259+0300  #   [2000]
0xABCD  U+0259+0301  #   [2000]
0xABCE  U+025A+0300  #   [2000]
0xABCF  U+025A+0301  #   [2000]

0xABE5  U+02E9+02E5  #   [2000]
0xABE6  U+02E5+02E9  #   [2000]

ようするに、JIS X 0213 で一文字になっているが、Unicode で二文字になって
いるものです。EUC-JISX0213 から UTF-8 は問題ないですが、逆は現在引っかか
ります。windows-1258 も (逆ですが) 同じ問題がありますので、いずれはなく
さないといけないと思いましたが、今回はいいきっかけのではないかと思います。

よろしくお願いします。    Martin.
Posted by mame (Yusuke Endoh) (Guest)
on 2013-02-18 13:38
(Received via mailing list)
Issue #6351 has been updated by mame (Yusuke Endoh).

Target version changed from 2.0.0 to next minor


----------------------------------------
Bug #6351: transcode table generator does not support multi characters 
of Unicode
https://bugs.ruby-lang.org/issues/6351#change-36518

Author: usa (Usaku NAKAMURA)
Status: Assigned
Priority: Normal
Assignee: duerst (Martin Dürst)
Category: build
Target version: next minor
ruby -v: ruby 2.0.0dev (2012-04-24 trunk 35457)


改めてチケット起こします。[ruby-dev:45576] より。

On 2012/04/24 17:11, "Martin J. Dürst" wrote:
> On 2012/04/24 17:02, U.Nakamura wrote:
>
>> データは例によってNetBSDのものが利用できそうです。
>> なのですが、transcodeってUnicodeの第0面(BMP)以外はサポートし
>> てましたっけ?
>
> もちろんです :-)

もうちょっと調べました。BMP 以外は transcode の最初から全く問題ないです
が、現時点で引っかかるのは次のものです
(http://x0213.org/codetable/euc-jis-2004-std.txt から抜粋):

0xA4F7  U+304B+309A  #   [2000]
0xA4F8  U+304D+309A  #   [2000]
0xA4F9  U+304F+309A  #   [2000]
0xA4FA  U+3051+309A  #   [2000]
0xA4FB  U+3053+309A  #   [2000]

0xA5F7  U+30AB+309A  #   [2000]
0xA5F8  U+30AD+309A  #   [2000]
0xA5F9  U+30AF+309A  #   [2000]
0xA5FA  U+30B1+309A  #   [2000]
0xA5FB  U+30B3+309A  #   [2000]
0xA5FC  U+30BB+309A  #   [2000]
0xA5FD  U+30C4+309A  #   [2000]
0xA5FE  U+30C8+309A  #   [2000]

0xA6F8  U+31F7+309A  #   [2000]

0xABC4  U+00E6+0300  #   [2000]

0xABC8  U+0254+0300  #   [2000]
0xABC9  U+0254+0301  #   [2000]
0xABCA  U+028C+0300  #   [2000]
0xABCB  U+028C+0301  #   [2000]
0xABCC  U+0259+0300  #   [2000]
0xABCD  U+0259+0301  #   [2000]
0xABCE  U+025A+0300  #   [2000]
0xABCF  U+025A+0301  #   [2000]

0xABE5  U+02E9+02E5  #   [2000]
0xABE6  U+02E5+02E9  #   [2000]

ようするに、JIS X 0213 で一文字になっているが、Unicode で二文字になって
いるものです。EUC-JISX0213 から UTF-8 は問題ないですが、逆は現在引っかか
ります。windows-1258 も (逆ですが) 同じ問題がありますので、いずれはなく
さないといけないと思いましたが、今回はいいきっかけのではないかと思います。

よろしくお願いします。    Martin.
Please log in before posting. Registration is free and takes only a minute.
Existing account (Switch to SSL-encrypted connection)
NEW: Do you have a Google/GoogleMail or Yahoo account? No registration required!
Log in with Google account | Log in with Yahoo account
No account? Register here.