Forum: Ruby-dev [ruby-trunk - Feature #9816] 文字列内の数字を数値として比較するメソッド

8e497efbe99e2fa051316337d03624d9?d=identicon&s=25 unknown (Guest)
on 2014-05-08 12:16
(Received via mailing list)
Issue #9816 has been updated by Kazuhiro NISHIYAMA.


numericcmp だと複数の数値が入っている文字列を比較するものというのがわかりにくいと思いました。

最初に思いついたのは versioncmp という名前でしたが、
puppet などで使われているようです。
https://github.com/puppetlabs/puppet/blob/master/l...

coreutils だと filevercmp という名前のようです。
https://www.gnu.org/software/coreutils/manual/html...

rpm だと rpmvercmp という名前のようです。
http://rpm.org/api/4.4.2.2/rpmlib_8h.html

----------------------------------------
Feature #9816: 文字列内の数字を数値として比較するメソッド
https://bugs.ruby-lang.org/issues/9816#change-46617

* Author: Yui NARUSE
* Status: Assigned
* Priority: Normal
* Assignee: Yukihiro Matsumoto
* Category: core
* Target version:
----------------------------------------
文字列内の数字を数値として比較するメソッドを追加しませんか

そのような比較は一般的な用途としてはGUIシェルのファイラーが比較に用いており、
Windows では StrCmpLogicalW が、OS X では
NSString:compare:options:へのNSNumericSearch定数が提供されています。
http://msdn.microsoft.com/en-us/library/windows/de...
https://developer.apple.com/library/mac/documentat...

上記のような処理自体はさほど難しいものではありませんが、Rubyレベルで実装すると大量のオブジェクトを作ってしまいます。
例えば
`Gem::Version.new("2.1.10".freeze)<=>Gem::Version.new("2.1.9".freeze)`
は47個、
`"2.1.10".freeze.split('.').map(&:to_i)<=>"2.1.9".freeze.split('.').map(&:to_i)`
だと16個のオブジェクトを作ります。
`"2.1.10".freeze.numericcmp"2.1.9".freeze` ならば、もちろんオブジェクトは一つも作りません。

なお、上記の例でも示唆していますが、本メソッドは Ruby のバージョン表記の TEENY が2桁になった場合の比較に用いることができます。

パッチは以下の通りです。
なお、メソッド名は String#numericcmp としています。
(String#casecmpを念頭に置いた)

```
diff --git a/string.c b/string.c
index c589c80..66f667f 100644
--- a/string.c
+++ b/string.c
@@ -2569,6 +2569,131 @@ rb_str_casecmp(VALUE str1, VALUE str2)
     return INT2FIX(-1);
 }

+VALUE
+numerical_compare(const char **pp1, const char *p1end, const char
**pp2, const char *p2end)
+{
+    const char *s1 = *pp1, *p1, *s2 = *pp2, *p2;
+    ptrdiff_t len1, len2;
+    int r;
+
+    while (s1 < p1end && *s1 == '0') s1++;
+    p1 = s1;
+    while (p1 < p1end && ISDIGIT(*p1)) p1++;
+    len1 = p1 - s1;
+
+    while (s2 < p2end && *s2 == '0') s2++;
+    p2 = s2;
+    while (p2 < p2end && ISDIGIT(*p2)) p2++;
+    len2 = p2 - s2;
+
+    if (len1 != len2) {
+  return INT2FIX(len1 < len2 ? -1 : 1);
+    }
+
+    r = memcmp(s1, s2, len1);
+    if (r) return r < 0 ? INT2FIX(-1) : INT2FIX(1);
+
+    len1 = s1 - *pp1;
+    len2 = s2 - *pp2;
+    if (len1 != len2) {
+  return INT2FIX(len1 < len2 ? -1 : 1);
+    }
+
+    *pp1 = p1;
+    *pp2 = p2;
+    return Qnil;
+}
+
+/*
+ *  call-seq:
+ *     str.numericcmp(other_str)   -> -1, 0, +1 or nil
+ *
+ *  Variant of <code>String#<=></code>, which considers digits in
strings
+ *  are numeric value..
+ *
+ *     "a1".numericcmp("a1")            #=> 0
+ *     "aa".numericcmp("a1")            #=> 1
+ *     "a1".numericcmp("aa")            #=> -1
+ *     "a1".numericcmp("a01")           #=> -1
+ *     "2.1.2".numericcmp("2.1.10")     #=> 1
+ */
+
+static VALUE
+rb_str_numericcmp(VALUE str1, VALUE str2)
+{
+    long len;
+    rb_encoding *enc;
+    const char *p1, *p1end, *p2, *p2end;
+
+    StringValue(str2);
+    enc = rb_enc_compatible(str1, str2);
+    if (!enc) {
+  return Qnil;
+    }
+
+    p1 = RSTRING_PTR(str1); p1end = RSTRING_END(str1);
+    p2 = RSTRING_PTR(str2); p2end = RSTRING_END(str2);
+    if (single_byte_optimizable(str1) && single_byte_optimizable(str2))
{
+  while (p1 < p1end && p2 < p2end) {
+      if (ISDIGIT(*p1)) {
+    if (ISDIGIT(*p2)) {
+        VALUE r = numerical_compare(&p1, p1end, &p2, p2end);
+        if (!NIL_P(r)) return r;
+    }
+    else {
+        return INT2FIX(-1);
+    }
+      }
+      else if (ISDIGIT(*p2)) {
+    return INT2FIX(1);
+      }
+      if (*p1 != *p2) return INT2FIX(*p1 < *p2 ? -1 : 1);
+      p1++;
+      p2++;
+  }
+    }
+    else {
+  while (p1 < p1end && p2 < p2end) {
+            int l1, c1 = rb_enc_ascget(p1, p1end, &l1, enc);
+            int l2, c2 = rb_enc_ascget(p2, p2end, &l2, enc);
+
+            if (0 <= c1 && 0 <= c2) {
+    if (ISDIGIT(*p1)) {
+        if (ISDIGIT(*p2)) {
+      VALUE r = numerical_compare(&p1, p1end, &p2, p2end);
+      if (!NIL_P(r)) return r;
+        }
+        else {
+      return INT2FIX(-1);
+        }
+    }
+    else if (ISDIGIT(*p2)) {
+        return INT2FIX(1);
+    }
+    if (*p1 != *p2) return INT2FIX(*p1 < *p2 ? -1 : 1);
+    p1++;
+    p2++;
+            }
+            else {
+                int r;
+                l1 = rb_enc_mbclen(p1, p1end, enc);
+                l2 = rb_enc_mbclen(p2, p2end, enc);
+                len = l1 < l2 ? l1 : l2;
+                r = memcmp(p1, p2, len);
+                if (r != 0)
+                    return INT2FIX(r < 0 ? -1 : 1);
+                if (l1 != l2)
+                    return INT2FIX(l1 < l2 ? -1 : 1);
+            }
+      p1 += l1;
+      p2 += l2;
+  }
+    }
+    if (RSTRING_LEN(str1) == RSTRING_LEN(str2)) return INT2FIX(0);
+    if (RSTRING_LEN(str1) > RSTRING_LEN(str2)) return INT2FIX(1);
+    return INT2FIX(-1);
+}
+
 static long
 rb_str_index(VALUE str, VALUE sub, long offset)
 {
@@ -8721,6 +8846,7 @@ Init_String(void)
     rb_define_method(rb_cString, "eql?", rb_str_eql, 1);
     rb_define_method(rb_cString, "hash", rb_str_hash_m, 0);
     rb_define_method(rb_cString, "casecmp", rb_str_casecmp, 1);
+    rb_define_method(rb_cString, "numericcmp", rb_str_numericcmp, 1);
     rb_define_method(rb_cString, "+", rb_str_plus, 1);
     rb_define_method(rb_cString, "*", rb_str_times, 1);
     rb_define_method(rb_cString, "%", rb_str_format_m, 1);
diff --git a/test/ruby/test_string.rb b/test/ruby/test_string.rb
index 8366424..f9c788b 100644
--- a/test/ruby/test_string.rb
+++ b/test/ruby/test_string.rb
@@ -2104,6 +2104,29 @@ class TestString < Test::Unit::TestCase
     assert_equal(1, "\u3042B".casecmp("\u3042a"))
   end

+  def test_numericcmp
+    assert_equal(-1, "2.1.0".numericcmp("2.1.1"))
+    assert_equal(-1, "2.1.9".numericcmp("2.1.10"))
+    assert_equal( 0, "a1".numericcmp("a1"))
+    assert_equal( 1, "aa".numericcmp("a1"))
+    assert_equal(-1, "a1".numericcmp("aa"))
+    assert_equal(-1, "a1".numericcmp("a01"))
+    assert_equal(-1, "a0001".numericcmp("a00001"))
+    assert_equal( 0, "a1a".numericcmp("a1a"))
+    assert_equal( 1, "a1b".numericcmp("a1a"))
+    assert_equal(-1, "a9a".numericcmp("a10a"))
+    assert_equal( 1, "b".numericcmp("a"))
+    assert_equal( 0, "\u30421".numericcmp("\u30421"))
+    assert_equal( 1, "\u3042\u3042".numericcmp("\u30421"))
+    assert_equal(-1, "\u30421".numericcmp("\u3042\u3042"))
+    assert_equal(-1, "\u30421".numericcmp("\u304201"))
+    assert_equal(-1, "\u30420001".numericcmp("\u304200001"))
+    assert_equal( 0, "\u30421\u3042".numericcmp("\u30421\u3042"))
+    assert_equal( 1, "\u30421\u3044".numericcmp("\u30421\u3042"))
+    assert_equal(-1, "\u30429\u3042".numericcmp("\u304210\u3042"))
+    assert_equal( 1, "\u3044".numericcmp("\u3042"))
+  end
+
   def test_upcase2
     assert_equal("\u3042AB", "\u3042aB".upcase)
   end
```
31e9336577dcba34f9ea8025a763c900?d=identicon&s=25 Tadayoshi Funaba (Guest)
on 2014-05-08 13:55
(Received via mailing list)
$BL>A0$O$H$b$+$/26$,M_$7$$$N$O(B filevercmp $B$N$[$&$+$b$7$l$J$$!#(B

x #=> ["2.1.10", "2.1.2", "8 layers", "8 layers 2", "8 layers 2.nki", "8
layers.nki", "a16", "a17"]
puts x.sort{|a,b| a.numericcmp(b)}
2.1.2
2.1.10
8 layers
8 layers 2
8 layers 2.nki
8 layers.nki
a16
a17
#=> nil

$ ls -1v
2.1.2
2.1.10
8 layers
8 layers.nki
8 layers 2
8 layers 2.nki
a16
a17
02da662c083396641da96c1d32fc86ed?d=identicon&s=25 KOSAKI Motohiro (Guest)
on 2014-05-09 04:40
(Received via mailing list)
2014-05-08 7:54 GMT-04:00 Tadayoshi Funaba <tadf@dotrb.org>:
> a16
> a16
> a17

ためしたところ、Windows Explorerはまたちょっと違う順序を示すようです(Windows8で確認)

05/08/2014  10:34 PM                 0 2.1.10.txt
05/08/2014  10:34 PM                 0 2.1.2.txt
05/08/2014  10:35 PM                 0 8 layers 2.nki.txt
05/08/2014  10:35 PM                 0 8 layers 2.txt
05/08/2014  10:35 PM                 0 8 layers.nki.txt
05/08/2014  10:35 PM                 0 8 layers.txt
05/08/2014  10:35 PM                 0 a16.txt
05/08/2014  10:36 PM                 0 a17.txt

でも "8 layers 2" が "8 layers" より前に来て嬉しいケースが思いつかないので無視していいと
思ってます。(ドキュメントに多少追記しておくと親切かもだけど)

usaさん、コメントありますか?
This topic is locked and can not be replied to.