Parser des pages avec Ruby

pierreva · November 27, 2008, 10:34pm

Bonsoir,

Je suis un peu en train de me prendre la tête sur des questions de
parsing de page avec Ruby.

J’utilise open-uri, HTMLEntities (pour pouvoir afficher correctement
les données) et hpricot…

Je me demandais par hasard si vous connaissez des outils déjà prêts
pour faire du parsing de page ?

J’ai vu qu’il y avait Mechanize, en existe-t-il d’autres ?

Je vous remercie par avance,

Pierre

pierreva · November 27, 2008, 10:42pm

Par exemple, je rencontre des problÃ¨mes sur des pages mal programmÃ©es.
Si la page contient des balises META avec des conventions diffÃ©rentes,
comme

hpricot ne rÃ©cupÃ¨re que le deuxiÃ¨me type.

Si vous connaissez des codes qui s’occupent de gÃ©rer tout cela… et de
juste parser tranquillement, quelque soit le charset ou tous les autres
problÃ¨mes qu’on peut rencontrer

Merci

2008/11/27 Pierre V. [email protected]

pierreva · November 27, 2008, 11:01pm

Désolé pour le nouveau message.

J’en profite pour partager le bout de code que j’ai fait…
http://pastie.org/325641

Bonne soirée.

pierreva · November 28, 2008, 8:41am

Aucune ne m’a donnÃ© entiÃ¨rement satisfaction et je m’en suis sorti par
un
mÃ©lage d’automatisation et de manuel assez empirique :

Le HTML dans la nature est crad, on le sait, et les outils un peu
naÃ¯fs
par rapport Ã Ã§a (xxx Ã§a existe !)
Le XPATH construit par Firefox (Web Tools) se base sur un DOM revu (en
particulier FF insÃ¨re des et systÃ©matiquement, ce qui
fausse
tout pour les tables)
Les solutions Ã base de sÃ©lecteurs CSS sont pas mal mais dÃ©licat Ã
utiliser lorsqu’on descend profond dans le DOM de la page.

http://labnotes.org/svn/public/ruby/scrapi/
http://scrubyt.org/

Hope it helps