Importando documentos Microsoft Word

Un cliente nos ha pedido “procesar” documentos Microsoft Word desde
una aplicación rails.

El “procesamiento” consiste en extraer el texto, encabezados del
documento.

En principio usar una máquina Windows (para hacer llamadas a Word
víaWinOLE32) está descartado.

¿Alguien ha procesado documentos Word desde *nix? las alternativas que
se me ocurren son:

alguna sugerencia?


Edgar González González
E-mail: [email protected]
http://lacaraoscura.com
http://rubycorner.com
http://to2blogs.com

Otra tool muy parecida a las wvWare y que yo uso a menudo (antiword):

http://www.winfield.demon.nl/

Saludos,
Roman

El Viernes, 23 de Marzo de 2007 02:52, Edgar G.
escribió:> Un cliente nos ha pedido “procesar” documentos Microsoft Word desde

una aplicación rails.

El “procesamiento” consiste en extraer el texto, encabezados del documento.

Si el procesado necesario es “sólo” eso (texto y encabezados), puedes
hacerlo
en C++ con los bindings del UDK [1] y luego generar la extensión con SWIG.

En la empresa donde trabajo las partes donde el rendimiento es crítico las
hacemos en C++ y luego generamos bindings con SWIG. Es tremendamente
sencillo
y muchas veces ni siquiera tienes que tocar nada del código que genera
SWIG.

Otra solución es usar los bindings de Python para UDK [2] y hacer una
especie
de puente entre los dos, por ejemplo lanzando un script en Python que
extraiga el texto puro y luego desde Ruby interpretarlo.

En ambas situaciones necesitas una instancia de OpenOffice.org
ejecutándose y
escuchando por un puerto o un socket determinado.

Saludos.

[1] - http://wiki.services.openoffice.org/wiki/Uno/Cpp
[2] - http://udk.openoffice.org/python/python-bridge.html