Regexp qui donne un =?iso-8859-1?q?r=E9sultat_diff=E9rent_da

teddio · December 5, 2006, 12:38pm

Bonjour tout le monde,

Mon appli scanne des pages web Ã la recherche de liens vers des vidÃ©os.
J’ai donc quelque chose qui ressemble Ã ceci:

open(@url) { |page|
  page_content = page.read()

page_content.scan(/href\s*=\s*[\"']([^\"']+)\.(wmv|avi|mpeg|mpg|mov|mp4)[\"']>(.+)<\/a>/i).each
{ |a|
    video_filename = a[0] + "." + a[1]
    link_content = a[2] # (attention: le contenu peut comprendre des
balises HTML, par ex <img ...>)
    # (... traitements ...)
  }
}

J’ai constatÃ© un premier problÃ¨me avec ce pattern. Si j’ai du code HTML
de ce genre, Ã§a ne prend pas:

<a href="01.mov">
    <img src="01_screenshot.jpg" /></a>

Le problÃ¨me provient du passage Ã la ligne entre le lien et son contenu
(ici une ). Le morceau de pattern “(.+)” ne prend pas en compte les
newlines. Pour faire simple, j’ai alors dÃ©cidÃ© de d’abord nettoyer la
source HTML en remplaÃ§ant les linebreaks:

page_content = page_content.tr("\n\r|\n|\r", "")

J’ai cru que mon problÃ¨me serait rÃ©solu. Mais un (nouveau) problÃ¨me est
apparu. Imaginons un code HTML de ce type:

<a href="01.mov"><img src="01_screenshot.jpg" /></a><a
href="02.mov"><img src="02_screenshot.jpg" /></a><a
href="03.mov"><img src="03_screenshot.jpg" /></a>

Le pattern ne prend pas bien et me renvoie un tableau avec ce rÃ©sultat:

a[0] = "01"
a[1] = "wmv"
a[2] = <img src="01_screenshot.jpg" /></a><a href="02.mov"><img
src="02_screenshot.jpg" /></a><a href="03.mov"><img
src="03_screenshot.jpg" />

Alors que ce que je souhaite en a[2], c’est:

a[2] = <img src="01_screenshot.jpg" />

Ce qui est Ã©trange, c’est que quand je teste mon pattern avec le code
HTML citÃ© ci-dessus sur Regular Expression Library, le rÃ©sultat est
celui souhaitÃ©. Mais dans mon appli Rails, le rÃ©sultat n’est pas celui
souhaitÃ©.

Avez-vous une idÃ©e, une solution Ã mon problÃ¨me?

Bonne journÃ©e,

Michael

teddio · December 5, 2006, 1:25pm

Le Mar 5 décembre 2006 12:36, Michael H. a écrit :

page_content.scan(/href\s*=\s*[\"']([^\"']+)\.(wmv|avi|mpeg|mpg|mov|mp4)[\"']>(.+)<\/a>/i).each

src="03_screenshot.jpg" />

Les expressions rationnelles sont dites “gourmandes” par défaut. Le “.+”
c’est “un caractère, n’importe lequel, autant de fois que possible”. Du
coup, si tu vérifies, ce qu’il te sort correspond bel et bien à ce que tu
lui demandes. Il t’a trouvé un , un truc au milieu, et un
à la fin.

Si tu veux que ton “.+” capture le strict minimum, c’est à toi de l’en
informer. Changes ton “.+” par un “.+?”, et ça devrait faire ce que tu
souhaites.

–
Eric D.

teddio · December 5, 2006, 1:41pm

De mémoire c’est l’option m pour que le point capture également le
retour à la ligne. J’évite d’utiliser ce joker car on a souvent des
mauvaises suprises. En effet elles sont gourmandes comme le dit Eric.
Je préciserai plutot tout ce qui ne correspond pas à ‘’. Ainsi tu
es sur de t’arrêter à la première balise

à +

Le 05/12/06, Eric D.[email protected] a écrit :

teddio · December 5, 2006, 1:59pm

Le pattern ne prend pas bien et me renvoie un tableau avec ce rÃ©sultat:

Si tu veux que ton “.+” capture le strict minimum, c’est Ã toi de l’en
informer. Changes ton “.+” par un “.+?”, et Ã§a devrait faire ce que tu
souhaites.

Fantastique, c’est tout bon. Mon sauveur!

Au passage, j’apprends donc l’usage du ‘?’ dans les expressions
rÃ©guliÃ¨res: “0 or 1 of previous expression; forces minimal matching when
an expression might match several strings within a search string”.

Michael

teddio · December 5, 2006, 2:01pm

Bonjour Michael

Avez-vous une idÃ©e, une solution Ã mon problÃ¨me?

J’ai vu que tu as dÃ©jÃ une solution mais je fais quand mÃªme une
suggestion:
prend quelques instants pour voir ce que
hpricothttp://code.whytheluckystiff.net/hpricot/sait faire (
Hpricot is a very flexible HTML parser).
Je m’en sers pour faire de l’extraction de liens et j’en suis (trÃ¨s)
content, il fait Ã§a beaucoup mieux que mes expressions rÃ©guliÃ¨res Ã moi.

Une deuxiÃ¨me suggestion si tu dÃ©cides de conserver les expressions
rÃ©guliÃ¨res : les placer sous tests unitaires - Ã§a permet de les mettre
au
point et d’Ã©viter les rÃ©gressions, vu qu’il est trÃ¨s facile de faire
claquer
une regexp sans s’en rendre compte…

a+

Thibaut BarrÃ¨re