ProblÃ¨me regex et saut de ligne

zelo · May 15, 2009, 12:15pm

Bonjour Ã tous
Je travail actuellement sur une application ror et j’ai un petit souci
j’ai une variable qui contient le code html de ma page et je souhaiterai
rÃ©cupÃ©rer ce qu’il se trouve entre et
J’ai donc voulu utiliser une regex :
BODY_PATTERN = /<body.*</body>/m
…
h = BODY_PATTERN.match(h)[0]

me renvoi une erreur undefined method `[]’ for nil:NilClass

pourtant en affichant h juste avant, j’ai bien un et
PS: J’ai l’impression que ceci fonctionnerai si tout le code html Ã©tait
sur une seul ligne car j’ai lu sur un autre forum et avec un autre
langage que le caractÃ¨re saut de ligne n’est pas reconnu dans “.”

Avez vous une idÃ©e pour rÃ©soudre ce problÃ¨me ?

zelo · May 16, 2009, 6:34pm

2009/5/15 Ze lo [email protected]

me renvoi une erreur undefined method `[]’ for nil:NilClass

pourtant en affichant h juste avant, j’ai bien un et
PS: J’ai l’impression que ceci fonctionnerai si tout le code html Ã©tait
sur une seul ligne car j’ai lu sur un autre forum et avec un autre
langage que le caractÃ¨re saut de ligne n’est pas reconnu dans “.”

Oui, ton impression est correct. Tu a besoin de multiple-ligne regexen,
et u
utilise /m aussi. Ã‡a c’est bien et Ã§a marche pour moi.
J’avais mis les la parenthÃ¨ses ici et j’avais changÃ© l’index. ([0] est
le
resultat complet: class MatchData - RDoc Documentation

body = “test \nheh”
BODY_PATTERN = /(.*)</body>/m
puts BODY_PATTERN.match(body)[1]

Output:

1
2

test
heh

Essayez de changer cela avec vos donnÃ©es rÃ©elles.
http://codepad.org/6UsVTgZO

zelo · May 18, 2009, 10:26am

Merci de ta rÃ©ponse
Je reste nÃ©anmoins coincÃ©. J’ai donc afficher ma variable avant le
match:
BODY_PATTERN = /(.*)</body>/m
h = IO.readlines(self.path_to_tmp_diff_html).join if h.nil?
puts ‘===============debut=============’
puts h
puts ‘=======================fin ============’
h = BODY_PATTERN.match(h)[0]

et l’affichage rÃ©sumÃ© de h :
===============debut=============

bienvenue

=======================fin ============ ===============debut============= bienvenue

=======================fin ============

comme tu peux le voir le deuxiÃ¨me affichage ne contient pas de body (ni
de html) mais le premier si. Est ce problÃ©matique ?

zelo · May 18, 2009, 11:55pm

Je pensais que vous vouliez vous dÃ©barrasser de . Modifier ce
pastie
et le renvoyer ici.

http://codepad.org/APExUC7Y

Avec body: BODY_PATTERN.match(body)[0]
Sans body: BODY_PATTERN.match(body)[1]

2009/5/18 Ze lo [email protected]

zelo · May 19, 2009, 11:03am

Constantin G. wrote:

Je pensais que vous vouliez vous dÃ©barrasser de . Modifier ce
pastie
et le renvoyer ici.

http://codepad.org/APExUC7Y

Avec body: BODY_PATTERN.match(body)[0]
Sans body: BODY_PATTERN.match(body)[1]

2009/5/18 Ze lo [email protected]

Oui en effet, vous aviez bien compris ce que je voulais.
C’est moi qui est mal compris la rÃ©ponse. Pour supprimer le
j’utilisais gsub (ignorant que [1]faisait trÃ¨s bien l’affaire)
Pour en revenir Ã mon problÃ¨me, je pense qu’il faut faire 2 cas :

si le code html contient les balises et
si le code html ne contient ces balises

J’ai beau essayer mais je n’y arrive pas .
Voici le code que j’ai essayÃ©
PATTERN = /</head>.

(\n)<script/m
BODY_PATTERN = /<body.*</body>/m
if (BODY_PATTERN.match(h) == nil)
h = PATTERN.match(h)[1]
puts ‘===========test 2’
puts h
else
h = BODY_PATTERN.match(h)[0]

en sachant que lorsque le code html ne contient pas les balises
et , il ressemble Ã Ã§a :

bienvenue

Merci pour votre aide

zelo · May 20, 2009, 12:07pm

Bonjour Ã tous
Je pense avoir quasiment rÃ©solu mon problÃ¨me
Il me faudrait juste pouvoir retirer la derniÃ¨re occurrence d’une chaine
Je m’explique imaginons chaine = “

coucou

coucou2

”
je voudrais avoir au final chaine =“

coucou

coucou2

”
donc retirer le dernier

Peut Ãªtre une option Ã ajouter Ã sub ?