[ruby-trunk - Bug #4387][Feedback] test socket connect nonblock(TestSocketAddrinfo) がまれに失敗する

Issue #4387 has been updated by naruse (Yui NARUSE).

Status changed from Rejected to Feedback

[ruby-list:38139] にもスレがありますね。

まとめると、

  1. connect_nonblock を呼ぶ
    2.1. ECONNREFUSED が返る (localhost など結果が瞬間的に返る場合)
    2.2.1. EINPROGRESS が返る
    2.2.2. select で待つ→成功か失敗に収束
    2.2.3.1. EISCONN が返る (成功)
    2.2.3.2. EINVAL が返る (失敗)
    って事のようです。
    ここで EINVAL が返るのはFreeBSD や NetBSD もそうです。
    Linux の場合、とりあえず手元で試した「localhost の開いていないポートに接続」というケースでは、
    ECONNABORTED が返ってきました。

さて、ここでの悩みどころは改めて connect_nonblock して EINVAL が返ってきてしまうと、
もはや失敗した理由はわからなくなってしまう事です。
これは、例えば以下のように connect_nonblock の前に getsockopt すれば理由がわかります。
diff --git a/test/socket/test_addrinfo.rb b/test/socket/test_addrinfo.rb
index 3240b9d…1e047c9 100644
— a/test/socket/test_addrinfo.rb
+++ b/test/socket/test_addrinfo.rb
@@ -159,6 +159,8 @@ class TestSocketAddrinfo < Test::Unit::TestCase
s2.connect_nonblock(ai)
rescue IO::WaitWritable
IO.select(nil, [s2])

  •  r = s2.getsockopt(Socket::SOL_SOCKET, Socket::SO_ERROR)
    
  •  assert_equal(0, r.int, "NOERROR is expected but #{r.inspect}")
     begin
       s2.connect_nonblock(ai)
     rescue Errno::EISCONN
    

Bug #4387: test_socket_connect_nonblock(TestSocketAddrinfo) がまれに失敗する
https://bugs.ruby-lang.org/issues/4387#change-26722

Author: kosaki (Motohiro KOSAKI)
Status: Feedback
Priority: Normal
Assignee:
Category: core
Target version: 2.0.0
ruby -v: ruby 1.9.3dev (2011-02-09 trunk 30831) [i386-mswin32_100]

=begin
1割ぐらいの確率でtest-allが以下のエラーを吐きます

  1. Error:
    test_socket_connect_nonblock(TestSocketAddrinfo):
    Errno::EINVAL: Invalid argument - connect(2)
    C:/ruby/trunk/test/socket/test_addrinfo.rb:163:in
    connect_nonblock' C:/ruby/trunk/test/socket/test_addrinfo.rb:163:inrescue in
    test_socket_con
    nect_nonblock’
    C:/ruby/trunk/test/socket/test_addrinfo.rb:158:in
    `test_socket_connect_nonbl
    ock’

なお、OSレベルでは WSAGetLastError() が WSAEINVALを返しています。

MSDNからそれっぽい部分をいくつかピックアップすると
http://msdn.microsoft.com/en-us/library/ms737625(v=vs.85).aspx

WSAEALREADY: A nonblocking connect call is in progress on the specified
socket.
Note In order to preserve backward compatibility, this
error is reported as
WSAEINVAL to Windows Sockets 1.1 applications that link to
either Winsock.dll or
Wsock32.dll.
WSAEINVAL: The parameter s is a listening socket.

とあるので、
o selectが正しく動いておらず、connect完了する前に処理がもどってしまうので、connectがEINVALを返している
o selectはちゃんと動いているけど、connectがトチ狂ってEISCONNを返さずにEINVALを返している

の2択なんですが、どちらなのかは切り分けできませんでした。誰か良い案があれば教えてください。

これだけではアレなので、いくつか調査報告など

w3cのhttpのサンプルコードだと、EINVALはEISCONNと同等の処理をするようになっています。
http://www.w3.org/Library/src/HTTCP.c

NetBSDのconnectにも昔EINVALを返す問題があったそうですが、どう対処したのかはよく分かりませんでした
http://mail-index.netbsd.org/netbsd-bugs/2003/08/18/0002.html
↑ なんと報告者は Kambeさん

ruby-talkでそれっぽい話をしているログをみつけたのですが、こちらも結論分からず。
http://blade.nagaokaut.ac.jp/cgi-bin/scat.rb/ruby/ruby-talk/16632
=end

In message [email protected]
on Sun, 20 May 2012 07:58:51 +0900,
“naruse (Yui NARUSE)” [email protected] wrote:

$B$3$3$G(B EINVAL $B$,JV$k$N$O(BFreeBSD $B$d(B NetBSD $B$b$=$&$G$9!#(B
Linux $B$N>l9g!"$H$j$"$($:<j85$G;n$7$?!V(Blocalhost
$B$N3+$$$F$$$J$$%]!<%[email protected]\B3!W$H$$$&%1!<%9$G$O!"(B
ECONNABORTED $B$,JV$C$F$-$^$7$?!#(B
…(snip)…
[email protected]$1$G$O%"%l$J$N$G!"$$$/$D$+D4::Js9p$J$I(B

w3c$B$N(Bhttp$B$N%5%s%W%k%3!<%[email protected]$H!"(BEINVAL$B$O(BEISCONN$B$HF1Ey$N=hM}$r$9$k$h$&$K$J$C$F$$$^$9!#(B

http://www.w3.org/Library/src/HTTCP.c

NetBSD$B$N([email protected](BEINVAL$B$rJV$9LdBj$,$"$C$?$=$&$G$9$,!"$I$&BP=h$7$?$N$+$O$h$/J,$+$j$^$;$s$G$7$?(B

http://mail-index.netbsd.org/netbsd-bugs/2003/08/18/0002.html
$B",(B $B$J$s$HJs9p<T$O(B Kambe$B$5$s(B
$B$3$l$O!"Ev;~$N(B ruby-list
[email protected]$r<u$1$FJs9p$7$?$b$N$G$9$,!"2ZNo$K(B
$BL5;k$5$l$F:#F|$K;j$C$F$*$j$^$9$J!#(B