WWW::Mechanize devuelve carÃ¡cteres "extraÃ±os"

danisev · February 21, 2008, 9:48am

Estoy intentando hacer “scraping” de una pÃ¡gina web con WWW::Mechanize
pero Ã©ste me devuelve carÃ¡cteres no reconocidos para las palabras
acentuadas, con Ã±, etc…

La pÃ¡gina a la que accedo con WWW:Mechanize tiene la siguiente
definiciÃ³n:

<meta http-equiv="Content-Type"

content=“text/html;charset=iso-8859-15” />

Repasando el cÃ³digo de WWW::Mechanize, veo que Ã©ste inicializa la
request con los siguientes valores:

request-header: accept-charset => ISO-8859-1,utf-8;q=0.7,*;q=0.7
request-header: accept-language => en-us,en;q0.5

Â¿Alguien se ha peleado con este problema?, Â¿alguna pista de lo que tengo
que hacer para visualizar correctamente los carÃ¡cteres acentuados?.

Gracias.

danisev · February 21, 2008, 5:17pm

Ya probaste cambiando la codificaciÃ³n a
utf-8, tambiÃ©n revisa que configuraciÃ³n de locales tienes en el servidor
o
maquina donde estas haciendo las pruebas

El dÃa 21/02/08, Dani S. [email protected]
escribiÃ³:

Gracias.

–
Posted via http://www.ruby-forum.com/.

Ror-es mailing list
[email protected]
simplelogica.net

–

Mauricio Dulcce

+57 300 325 0335
Trasn 9c No. 130c-21
BogotÃ¡, Colombia

danisev · February 21, 2008, 5:39pm

Mauricio,

La codificaciÃ³n de la pÃ¡gina a la que quiero hacer “scraping” no puedo
cambiarla porque no es mÃa y la codificaciÃ³n que usa WWW::Mechanize,
despuÃ©s de leer la documentaciÃ³n, no he encontrado como cambiarla.

La configuaciÃ³n de la mÃ¡quina donde estoy desarrollando, entiendo que
estÃ¡ bien, porque otras pÃ¡ginas si que se me ven bien.

danisev · February 21, 2008, 5:43pm

En la lista de correo de WWW:Mechanize
(http://rubyforge.org/pipermail/mechanize-users/2008-January/000249.html)
encontrÃ© que el autor del plugin sugiere hacer una subclase de
WWW:Mechanize e implementar el mÃ©todo set_headers.

class MyMech < WWW::Mechanize
def set_headers(uri, request, cur_page)
super
request.add_field(‘Foo’, ‘bar’)
end
end

agent = MyMech.new
page = …

Cuando llegue a casa probarÃ© aÃ±adiendo esto a la Request:

request.add_field(‘Accept-Charset’ => ‘utf-8’)

danisev · February 22, 2008, 8:57am

Nada!!!

Lo probÃ© y el problema persiste. Ya no se que mirar!!

danisev · February 22, 2008, 9:04am

I si cuando recibes la cadena haces un iconv de lo que te venga en
iso-8859 a utf8?

content = Iconv.iconv(“ISO-8859-1”, “UTF-8”, content)

Un saludo,

Francesc

On Feb 22, 2008, at 8:57 AM, Dani S. wrote:

Nada!!!

Lo probé y el problema persiste. Ya no se que mirar!!

Posted via http://www.ruby-forum.com/.

Ror-es mailing list
[email protected]
simplelogica.net

–
Not sent from my iPhone

danisev · February 22, 2008, 9:17am

Francesc E. wrote:

I si cuando recibes la cadena haces un iconv de lo que te venga en
iso-8859 a utf8?

content = Iconv.iconv(“ISO-8859-1”, “UTF-8”, content)

Un saludo,

Francesc

Eso lo he probado tambiÃ©n y nada…

ModifiquÃ© el fuente del plugin (ya se que estÃ¡ muy mal, pero estaba
desesperado y querÃa ver donde estaba el problema y en cuanto lee el
response_body le apliquÃ© el Iconv tal y como tÃº indicas.

El resultado fuÃ© un error porque Iconv se encontraba carÃ¡cteres que no
reconocÃa. Le aÃ±adÃ //IGNORE a la llamada a Iconv, y entonces ya no daba
error pero eliminaba los carÃ¡cteres polÃ©micos: carÃ¡cter-> carcter,
polÃ©mico -> polmico.

De todas maneras, Francesc, muchas gracias por tu respuesta!!!

Se despide un ojeroso trasnochador gracias a WWW::Mechanize…

danisev · February 22, 2008, 9:21am

On Feb 21, 2008, at 9:48 , Dani S. wrote:

Estoy intentando hacer “scraping” de una página web con WWW::Mechanize
pero éste me devuelve carácteres no reconocidos para las palabras
acentuadas, con ñ, etc…

En que sentido son no reconocidos, como compruebas que te vienen
“mal”? Que cabeceras recibes del servidor?

– fxn

danisev · February 22, 2008, 9:44am

Xavier N. wrote:

On Feb 21, 2008, at 9:48 , Dani S. wrote:

Estoy intentando hacer “scraping” de una pï¿½gina web con WWW::Mechanize
pero ï¿½ste me devuelve carï¿½cteres no reconocidos para las palabras
acentuadas, con ï¿½, etc…

En que sentido son no reconocidos, como compruebas que te vienen
“mal”? Que cabeceras recibes del servidor?

– fxn

Si hago scraping con otra herramienta como Firewatir, los carÃ¡cteres son
correctos.

No son reconocidos porque sustituye las letras acentuadas por el sÃmbolo
ï¿½. Es decir, RaÃºl->Raï¿½l, camiÃ³n->camiï¿½n y asÃ sucesivamente.
Lo compruebo de dos maneras, analizando la respuesta con el debugger de
NetBeans (ya te digo que si hago scraping con Firewatir ya en el
debugger se ve bien mientras que si lo hago con WWW::Mechanize ya se ven
mal) y despuÃ©s saco la respuesta en una vista de mi aplicaciÃ³n en UTF-8
y tambiÃ©n se ven mal los carÃ¡cteres.

danisev · February 22, 2008, 9:50am

Gracias por el resumen Francesc!!

DespuÃ©s de ver tu resumenm, veo que me explico fatal

Intentando investigar eso me he pasado casi toda la noche…

danisev · February 22, 2008, 9:46am

Lo que está claro es que esto …

########################################
require ‘rubygems’
require ‘mechanize’

agent = WWW::Mechanize.new
page = agent.get(‘http://elpais.es’)
puts page.body
########################################

Devuelve mal los carácteres con acentos … “En tu M?vil”

Y que …

########################################
require ‘rubygems’
require ‘mechanize’
require ‘iconv’

agent = WWW::Mechanize.new
page = agent.get(‘http://elpais.es’)
content = Iconv.iconv(“ISO-8859-1”, “UTF-8”, page.body)
puts content
########################################

Devuelve un error …

########################################
mechani.rb:11:in `iconv’: “\315S.com: el peri\363”…
(Iconv::IllegalSequence)
########################################

Ale. a investigar

On Feb 22, 2008, at 9:17 AM, Dani S. wrote:

error pero eliminaba los carácteres polémicos: carácter-> carcter,
simplelogica.net
–
Not sent from my iPhone

danisev · February 22, 2008, 9:54am

Xavier N. wrote:

On Feb 22, 2008, at 9:44 , Dani S. wrote:

“mal”? Que cabeceras recibes del servidor?
Lo compruebo de dos maneras, analizando la respuesta con el debugger
de
NetBeans (ya te digo que si hago scraping con Firewatir ya en el
debugger se ve bien mientras que si lo hago con WWW::Mechanize ya se
ven
mal) y despuÃ©s saco la respuesta en una vista de mi aplicaciÃ³n en
UTF-8
y tambiÃ©n se ven mal los carÃ¡cteres.

Y las cabeceras en ambos casos?

– fxn

Yo ahora no las tengo aquÃ. IntentarÃ© postearlas esta tarde cuando
llegue a casa si no ha salido la soluciÃ³n.

danisev · February 22, 2008, 9:53am

On Feb 22, 2008, at 9:44 , Dani S. wrote:

“mal”? Que cabeceras recibes del servidor?
Lo compruebo de dos maneras, analizando la respuesta con el debugger
de
NetBeans (ya te digo que si hago scraping con Firewatir ya en el
debugger se ve bien mientras que si lo hago con WWW::Mechanize ya se
ven
mal) y despuÃ©s saco la respuesta en una vista de mi aplicaciÃ³n en
UTF-8
y tambiÃ©n se ven mal los carÃ¡cteres.

Y las cabeceras en ambos casos?

– fxn

danisev · February 22, 2008, 10:17am

On Feb 22, 2008, at 9:54 , Dani S. wrote:

Yo ahora no las tengo aquí. Intentaré postearlas esta tarde cuando
llegue a casa si no ha salido la solución.

Lo que has de tener claro es que por lo general una libreria no echa
los caracteres ni mal ni bien, el body de un response HTTP es una tira
de bytes que deben ser interpretados de acuerdo a las cabeceras por
el cliente, en este caso tu programa (no la libreria, salvo que tenga
API para pedirle una normalizacion o algo asi). Si no hay charset
explicito el RFC dice que es ISO-8859-1.

Por tanto, tu recibes un body amorfo, y un charset que indica como
interpretarlo. Con ambas cosas tienes lo necesario para normalizar si
tu aplicacion lo necesita.

Por ejemplo, la web del pais se descarga bien, mechanize solo echa
bytes. Si enviar el output de mechanize a un fichero, lo abres con un
editor, y le dices al editor que interprete ISO-8859-1 de acuerdo a
las cabeceras:

fxn@feynman:~/tmp$ curl -i http://www.elpais.com
HTTP/1.1 200 OK
Content-Type: text/html; charset=iso-8859-1 <---- AQUI
Cache-Control: max-age=10
Server: Apache
Last-Modified: Fri, 22 Feb 2008 09:06:05 GMT
Date: Fri, 22 Feb 2008 09:06:18 GMT
Transfer-Encoding: chunked
Connection: keep-alive
Connection: Transfer-Encoding

…

lo veras bien. Al hacer pruebas de este tipo ni netbeans ni la consola
son buenos aliados (posiblemente tengas configurado netbeans para que
todos los paneles de texto interpreten UTF-8 y sea por eso que lo ves
mal). Lo mas claro es escribir a un fichero y abrir con un editor que
te permita cambiar el encoding facilmente como el Re-Open With
Encoding de TextMate.

– fxn

danisev · February 22, 2008, 10:44am

Ah, dos cosas mas que quiza puedan ser relevantes cuando te lo mires.

La respuesta de un servidor puede depender del cliente (esto es de
las cabeceras que envia). Creo que es improbabale que sea importante
aqui si por ejemplo recibes el mismo idioma en ambos casos.
FireWatir se comunica con Firefox por JavaScript, por ejemplo veras
que en general el body de una pagina no coincide con el codigo fuente
necesariamente, veras atributos reordenados etc. Podria pasar que
JavaScript si que haga una normalizacion en sus cadenas y sea esto lo
que se ve en Ruby. Ahi se mezclan un lenguaje de programacion con
character encoding de cadenas normalizado (JavaScript, Java), con uno
que no (Ruby). Eso podria explicar la diferencia.

– fxn

danisev · February 22, 2008, 12:10pm

Yo solucione la papeleta de una manera poco ortodoxa:

agent.user_agent_alias = ‘Mac Safari’

Jugaba tan solo con Mechanize, nada serio…

Juan.

El dÃa 22/02/08, Dani S. [email protected]
escribiÃ³:

danisev · February 22, 2008, 11:06am

Xavier N. wrote:

Ah, dos cosas mas que quiza puedan ser relevantes cuando te lo mires.

La respuesta de un servidor puede depender del cliente (esto es de
las cabeceras que envia). Creo que es improbabale que sea importante
aqui si por ejemplo recibes el mismo idioma en ambos casos.

FireWatir se comunica con Firefox por JavaScript, por ejemplo veras
que en general el body de una pagina no coincide con el codigo fuente
necesariamente, veras atributos reordenados etc. Podria pasar que
JavaScript si que haga una normalizacion en sus cadenas y sea esto lo
que se ve en Ruby. Ahi se mezclan un lenguaje de programacion con
character encoding de cadenas normalizado (JavaScript, Java), con uno
que no (Ruby). Eso podria explicar la diferencia.

– fxn

Xavier y Ferran, muchas gracias por la ayuda. Creo que ya tengo deberes
para el fin de semana…

danisev · March 6, 2008, 5:30pm

On Feb 22, 2008, at 10:41 , Xavier N. wrote:

FireWatir se comunica con Firefox por JavaScript, por ejemplo
veras que en general el body de una pagina no coincide con el codigo
fuente necesariamente, veras atributos reordenados etc. Podria pasar
que JavaScript si que haga una normalizacion en sus cadenas y sea
esto lo que se ve en Ruby.

Nope, he estado haciendo screen-scrapping de paginas con distintos
charsets y he tenido que normalizar a mano con iconv.

Dani, avanzaste en esto por cierto?

– fxn

danisev · March 6, 2008, 6:19pm

Xavier N. wrote:

On Feb 22, 2008, at 10:41 , Xavier N. wrote:

FireWatir se comunica con Firefox por JavaScript, por ejemplo
veras que en general el body de una pagina no coincide con el codigo
fuente necesariamente, veras atributos reordenados etc. Podria pasar
que JavaScript si que haga una normalizacion en sus cadenas y sea
esto lo que se ve en Ruby.

Nope, he estado haciendo screen-scrapping de paginas con distintos
charsets y he tenido que normalizar a mano con iconv.

Dani, avanzaste en esto por cierto?

– fxn

Xavier,

La verdad es que no. Me he liado mÃ¡s todavÃa y estoy un poco a medias
con todo. Te cuento:

A parte del problema de los carÃ¡cteres extraÃ±os, tenÃa un problema de
normalizaciÃ³n del html ya que la pÃ¡gina a la que accedÃa tenÃa html mal
formado que no se solucionaba ni con RubySoup ni otros parsers que
probÃ©.
Anteriormente ya habÃa probado Firewatir y me habÃa ido muy bien. AsÃ
que al juntar los dos problemas, carÃ¡cteres extraÃ±os y html mal formado
(pero que firefox sÃ que entendÃa) decidÃ cambiar a Firewatir.
El problema del html mal formado, se solucionÃ³ por lo que tu
explicaste en tu post de como trabaja firewatir. Mi sorpresa llegÃ³ en
que Firewatir tambiÃ©n me devuelvÃa carÃ¡cteres extraÃ±os para esta pÃ¡gina.
AsÃ que la conclusiÃ³n es que realmente tengo un problema con el
charset de esta pÃ¡gina y su response y no con la herramienta de
scrapping.

Desgraciadamente, llevaba tantos dÃas atascado con el tema y no avanzaba
que lo aparquÃ© de momento para volver a Ã©l cuando tuviera mÃ¡s fuerzas.

AsÃ que en breve, seguro que pongo alguna preguntita de Iconv. Espero
que me ayudes

Saludos

danisev · March 7, 2008, 3:25am

Xavier N. wrote:

On Feb 22, 2008, at 10:41 , Xavier N. wrote:

Dani, avanzaste en esto por cierto?

– fxn

Xavier,

Hoy he vuelto a ponerme con este tema. No te vas a creer la tonterÃa que
era…

Siempre me pasa lo mismo, menos mal que ya me voy conociendo. Cuando me
atasco con algo durante horas y no veo el problema, lo mejor que puedo
hacer es dejarlo y retomarlo al cabo de un tiempo para verlo con nuevos
ojos.

Como decÃa Francesc en una entrada anterior, el problema que tenÃa al
aplicar Iconv a mi pÃ¡gina con charset ISO-8859-1, como me habÃas
aconsejado, era

########################################
require ‘rubygems’
require ‘mechanize’
require ‘iconv’

agent = WWW::Mechanize.new
page = agent.get(‘http://elpais.es’)
content = Iconv.iconv(“ISO-8859-1”, “UTF-8”, page.body)
puts content
########################################

Devuelve un error …

########################################
mechani.rb:11:in `iconv’: “\315S.com: el peri\363”…
(Iconv::IllegalSequence)
########################################

Iconv.iconv(to, from, *strs)

UUUUPPPPSSSSS!!!

content = Iconv.iconv(“UTF-8”,“ISO-8859-1”, @page.body)

…Y Voila!!! Los carÃ¡cteres “raros” han desaparecido!!!

Gracias a todos por vuestra ayuda y en especial a Xavier y Francesc.