RegexpError: Stack overflow in regexp matcher

fearx · October 9, 2008, 8:49pm

Hola gente,

Esto una cosa de Ruby y Regex, así que si se sale mucho del tema RoR
pues marcho a la lista de ruby-es a ver… pero como en esta conozco a
más gente pues eso.

El caso es que tengo este error:

RegexpError: Stack overflow in regexp matcher:
/(^ID:(?:(?!-{8}).)*)^-{8}$/m
from (irb):138:in `scan’
from (irb):138
from :0

Me estoy volviendo loco, llevo ya un par de horas intentando
reproducir el error con el fichero más pequeño posible y ya lo he
conseguido.

Al parecer cuando el Match es muy grande (en caracteres) peta el ‘?:’.
Si no ponemos el ?: entonces no peta pero no me separa cada Match y me
los junta todos en el mismo.

Lo que estoy buscando es, de un fichero parecido a un fichero de
exportación de MovableType extraer todos los bloques de texto de los
posts.

Ej.
===== fichero de texto:INI ========
ID: 1
tal
cual

COMMENT
tal

ID: 2
tal
cual

COMMENT
tal

===== fichero de texto:END ========

Me gustaría sacar por un lado:

ID: 1
tal
cual

COMMENT
tal

y por otro:

ID: 2
tal
cual

COMMENT
tal

Para ello uso la expresión regular: dame todos los bloques que
empiezen por ‘ID:’ y acaben en ‘--------’ … pero claro debo decirle
que dentro no haya ningún ‘--------’ por que si no me lo mete todo en
uno…

Entonces hago: /(^ID:(?:(?!-{8}).)*)^-{8}$/m

Y todo bien siempre y cuando ninguno de los matchs sea demasiado
grande (creo que he llegado a la conclusión de que son 3663
caracteres).

Entonces, me gustaría saber si alguien sabe como solucionar esto.

Para reproducir el error podéis descargaros estos ficheros:

Y probar en consola:

$ irb >> string = File.read(“bloque_post_un_solo_post_error.txt”)
$ irb >> string.scan( /(^ID:(?:(?!-{8}).))^-{8}$/m
).flatten.sizeRegexpError: Stack overflow in regexp matcher:
/(^ID:(?:(?!-{8}).))^-{8}$/m
from (irb):2:in `scan’
from (irb):2
from :0

Si a este fichero le quitáis un caracter por el medio… si que carga

Lo mismo con ‘bloque_posts_error.txt’ (pero a este le sobran
más caracteres)

Este si que carga:
$ irb >> string = File.read(“bloque_posts_sin_error.txt”)
$ irb >> string.scan( /(^ID:(?:(?!-{8}).)*)^-{8}$/m ).flatten.size
=> 5

No sé gente… cualquier sugerencia es bienvenida.

Gracias
f.

fearx · October 9, 2008, 9:10pm

SÃ sabes que cada bloque se termina en 8 guiones y no 6 guiones como
los que hay entre la entrada en sÃ y los comentarios.

string = File.read(“el_fichero.txt”)
entradas = string.split(/^-{8}$/)

Â¿No?

fearx · October 9, 2008, 9:44pm

Fernando G. wrote:

Esto una cosa de Ruby y Regex, asï¿½ que si se sale mucho del tema RoR
pues marcho a la lista de ruby-es a ver… pero como en esta conozco a
mï¿½s gente pues eso.

El caso es que tengo este error:

RegexpError: Stack overflow in regexp matcher:

Â¡Animo que esto le puede pasar al mÃ¡s pintado! [1]!

1.-
http://groups.google.com/group/comp.lang.ruby/browse_thread/thread/a25e49e2b122f0b4/7fc1df5c798cc5bd?lnk=gst&q=stackoverflow+regexp#7fc1df5c798cc5bd

fearx · October 10, 2008, 12:03am

El dÃa 9 de octubre de 2008 21:44, Juan L.
[email protected] escribiÃ³:

Â¡Animo que esto le puede pasar al mÃ¡s pintado! [1]!

1.-
http://groups.google.com/group/comp.lang.ruby/browse_thread/thread/a25e49e2b122f0b4/7fc1df5c798cc5bd?lnk=gst&q=stackoverflow+regexp#7fc1df5c798cc5bd

Anda… mira quien anda por ahÃ con un problema parecido en el 2004…
seguro que lo arreglÃ³ pero no suelta prenda.

No se habla en ese hilo de una soluciÃ³n… si?

Gracias
f.

fearx · October 10, 2008, 12:25am

El día 10 de octubre de 2008 0:04, Fernando G.
[email protected]
escribió:> El día 9 de octubre de 2008 21:09, Daniel R. Troitiño

[email protected] escribió:

Sí sabes que cada bloque se termina en 8 guiones y no 6 guiones como
los que hay entre la entrada en sí y los comentarios.

string = File.read(“el_fichero.txt”)
entradas = string.split(/^-{8}$/)

Eres un monstruo… ahí está, ese pensamiento lateral.

No es exactamente así, pero me has dado la pista.

Al final sí que es exactamente así… porque he hecho que así sea

f.

fearx · October 10, 2008, 12:05am

El día 9 de octubre de 2008 21:09, Daniel R.
Troitiño[email protected]
escribió:> Sí sabes que cada bloque se termina en 8 guiones y no 6 guiones como

los que hay entre la entrada en sí y los comentarios.

string = File.read(“el_fichero.txt”)
entradas = string.split(/^-{8}$/)

Eres un monstruo… ahí está, ese pensamiento lateral.

No es exactamente así, pero me has dado la pista.

Mucha gracias
f.

RegexpError: Stack overflow in regexp matcher

Ej. ===== fichero de texto:INI ======== ID: 1 tal cual

COMMENT tal

ID: 2 tal cual

COMMENT tal

ID: 1 tal cual

ID: 2 tal cual

Ej.
===== fichero de texto:INI ========
ID: 1
tal
cual

COMMENT
tal

ID: 2
tal
cual

COMMENT
tal

ID: 1
tal
cual

ID: 2
tal
cual