Transformar ficheros word en html


#1

Hola!
Soy un programadora RoR, que aunque no lleva mucho tiempo con ella ya ha
programado algunas cosillas interesantes.
Me encuentro en la situación ahora de que quisiera transformar ficheros
con formato MsWord en código html, para una aplicación RoR.
He estado buscando en la red y he pasado por varias alternativas.

  1. La primera fue una librería java llamada webcat que utiliza un
    programa llamado Antiword que convierte un archivo word a texto plano.
    La integración de dicha librería jaja en RoR la hice a través de Rjb,
    pero daba bastantes problemas en la conversión de clases, así como que
    el texto generado no era en formato html, ya que había destruido todos
    los estilos, listas y demás. La librería se supone que permitía
    transformar a html desde diferentes formatos, también lo he probado
    desde Rtf, pero lo único que añadía al archivo eran unas marcas y
. Después de intentar generar algo que me sirviera durante algunos días, he descartado esta alternativa por lo que os comento.
  1. La segunda que probé fue la alternativa de llamar a un proceso hecho
    en Phyton (Invoke PyDoc), el cual lanza el Oppenoffice en background, y
    utiliza una aplicacion llamada PyDocConverter, con un código tal que
    así:

    @filename = @attachment.original_filename
    @data = @attachment.data
    ctype = @attachment.content_type

    if ctype == ‘application/msword’
    File.open(File.join("/", “tmp”, “#{@filename}”), “wb”) do |file|
    file.write(@attachment.data)
    end
    InvokePyDoc.sh /tmp/#{@filename} /tmp/#{@filename}.html;
    render :file => “/tmp/#{@filename}.html”, :layout => false
    end

Uno de los problemas que tengo con este código es que la línea
@attachment.data no me la reconoce, y me dice que es un método no válido
para dicho objeto, siendo @attachment de tipo File.

Por favor, ¿Podría decirme alguien si se le ha planteado la misma
situación de querer transformar un archivo word, rtf u odt en html para
una aplicación RoR? Cualquiera de las tres alternativas me serviría.

Gracias por adelantado.


#2

Hola, nunca me he visto en el dilema que comentas, pero por loq ue veo
estas un poco atascado. Has intentao utilizar un formato intermedio??.

No te estoy diciendoq ue sea una solución, pero quiazs pasar un .doc a
pdf y el pdf a html sea bastante mas sencillo que intentarlo hacer
directamente, podrias intentar por ahi.


#3

Para casos así, me suena que la gente está tirando hacia instalar
openoffice
y un sistema de colas, y dejar al open office que haga el trabajo duro.
Eso sí… no esperes grandes resultados.


Guillermo Álvarez

Sent from: Madrid Comunidad de Madrid España.


#4

Hace algun tiempo utilice docvert[1] justamente para eso, le hicimos
unos ajustes en conjunto con Matthew y funcionó bastante bien

[1] http://holloway.co.nz/docvert/

Salu2

2009/3/25 Guillermo removed_email_address@domain.invalid:

http://lists.simplelogica.net/mailman/listinfo/ror-es


Edgar González González
E-mail: removed_email_address@domain.invalid
http://edgar.gonzalez.net.ve
http://www.hasmanydevelopers.com
http://www.rubycorner.com
http://www.to2blogs.com
http://www.lacaraoscura.com