Convertir html en texte

Bonjour tout le monde,
je voudrais savoir s’il existe une fonction qui reçoit en entrée du code
HTML contenant du texte, et renvoie en sortie le texte en question.
Si cela n’existe pas, existe-t-il un moyen simple pour chercher un mot
dans du code HTML sachant qu’on doit éliminer les noms des balises ?
merci d’avance

Hpricot peut t’aider : http://code.whytheluckystiff.net/hpricot/

Greg

Le 19 juin 2008 00:55, Alwassit T. [email protected] a
écrit :

Le 19 juin 2008 01:11, Gregoire LEJEUNE a écrit :

Hpricot peut t’aider : http://code.whytheluckystiff.net/hpricot/

Et strip_tags dans Rails.

– Jean-François.


http://twitter.com/underflow_

Merci pour vos deux réponses rapides. Je vais tester les méthodes que
vous m’avez proposés et vous tenir au courant plus tard.
bonne nuit

J’ai besoin aussi par la transformation du html en texte (pour l’envoi
d’emails). Je cherchais a utiliser avec javascript la fonction des
navigateurs web de sauvegarder une page web en texte (ex. firefox:
save as > text files) puis je suis tombe sur ce script php:

http://www.howtocreate.co.uk/php/dnld.php?file=0&action=1

A tester (puis en faire une petite librairie Ruby?)

On Jun 19, 2:35 am, Alwassit T. [email protected]

Bonjour,
j’ai testé les deux méthodes proposées et aucune n’a abouti à un
résultat.
strip_tags est apparemment laissé tombé car il était peu efficace. J’ai
installé alors le gem hpricot, et en le testant il me renvoie l’erreur
suivante:
undefined method `hpricot’ for #
Note: j’utilise NetBeans IDE 6.1
Merci d’avance

Oula, j’ai du mal a parler francais. Vous aurez compris :

“J’ai besoin aussi de transformer du html en texte” et non “J’ai
besoin aussi par la transformation du html en texte”

Thomas
cousin de Kyo

Bonsoir,
bon j’ai trouvé un moyen de faire ce que je veux, mais je ne peux rien
dire quant à son efficacité.
d’abord j’explique tout ce qui s’est passé:

  • pour ne pas avoir le message de “undefined method `hpricot’ for #”,
    il faut charger hpricot en mettant à l’en-tête du fichier ou l’on
    l’appelle:
    require ‘rubygems’
    require ‘hpricot’
    et dans certains cas, peut être aussi
    require ‘open-uri’
    En faisant ceci, le message d’erreur a disparu mais il a été remplacé
    par une page vide !
    en cherchant encore d’avantage, j’ai tombé sur cette page qui est en
    anglais:
    http://code.whytheluckystiff.net/hpricot/wiki/HpricotChallenge
    j’ai utilisé la méthode :
    str.gsub(/</?[^>]*>/, “”)
    je mettrai le problème en résolu même si je ne sais pas encore pourquoi
    hpricot ne fonctionne pas correctement.
    j’espère que cela va être utile pour ceux qui ont ce problème