Importacion datos csv

alex123 · May 16, 2009, 7:26pm

Hola hace algun tiempo habia comenzado hacer la carga de un archivo csv
en una aplicaciÃ³n rails todo iba muy bien hasta que tuve problemas con
los caracteres
al importar los datos las palabras que tiene tilde quedan de la
siguiente manera

RevisiÃ³n y mejora del modelo SegmentaciÃ³n por Aporte - AnÃ¡lisis

Asi queda registrado en la tabla pero cuando hago la creaciÃ³n por la
aplicaciÃ³n del mismo registro este me queda asÃ.

RevisiÃƒÂ³n y mejora del modelo SegmentaciÃƒÂ³n por Aporte - AnÃƒÂ¡lisis

como la aplicaciÃ³n hace decode para que todo lo que venga de la base de
datos lo pase a utf8, entonces los datos que van con tilde (RevisiÃ³n y
mejora del modelo SegmentaciÃ³n por Aporte - AnÃ¡lisis) quedan en un
lenguaje raro.

como puedo importar el archivo y convertir los datos antes de
ingresarlos a la bd

el codigo que tengo es este creo que esta muy regado por internet.

@parsed_file=CSV::Reader.parse((params[:dump][:file]),
delimiter=’;’,quotechar=’""’)
@parsed_file.each do |row|
c=Import.new
c.prov_info_fac=row[0]
c.prov_info_bac=row[4]
c.prov_info_datatype=row[2]
end

Como puedo setear las variables para que estas ingresen en el mismo
lenguaje como lo introduce la aplicaciÃ³n

Cualquiere ayuda Gracias

alex123 · May 16, 2009, 7:37pm

Hola

prueba con Iconv, algo asÃ deberÃa funcionar

Iconv.conv(“UTF-8”,“ISO-8859-1”, texto)

http://www.ruby-doc.org/stdlib/libdoc/iconv/rdoc/index.htm

saludos
-Amaia

Jhony A. escribiÃ³:

alex123 · May 16, 2009, 9:56pm

El problema (a posteriori) es que el input no viene en UTF8, por lo
que tendras que usar iconv para convertirlo. Cuando uno procesa texto
siempre ha de tomar una decision acerca del encoding.

La importacion de este tipo de formatos tiene el incoveniente de que
el encoding no viene codificado en el mismo archivo.

Si el input lo controlas y conoces de antemano el encoding, escribes a
mano la conversion con iconv. De otro modo lo mejor que se puede hacer
es pasarle el input a la gem charguess, que aplicara algun heuristico
para tratar de averiguar el encoding. Entonces le pasas a iconv lo que
chargess te dice.

alex123 · May 16, 2009, 10:02pm

Ah, es importante pasarle charguess + iconv al archivo completo (a ser
posible) en lugar de primero ir por campos y convertir estos. Esto es
asi porque la busqueda del separador de campos y registros puede verse
rota en algunos casos frontera por una asumcion incorrecta del
encoding por parte del parser de CSV.

Por ejemplo en “canapÃ©,Ã¡caro” es posible que no se encuentre la coma
si es latin1 siendo interpretado como UTF8 (es un ejemplo inventado a
partir de otros que he visto, no se si este caso en concreto peta).

alex123 · May 18, 2009, 3:28pm

Amaia C. wrote:

Hola

prueba con Iconv, algo asÃ deberÃa funcionar

Iconv.conv(“UTF-8”,“ISO-8859-1”, texto)

http://www.ruby-doc.org/stdlib/libdoc/iconv/rdoc/index.htm

saludos
-Amaia

Jhony A. escribiÃ³:

Gracias por darme una respuesta y una orientaciÃ³n hacia este tema, en
este caso sabia cual es tipo de enconding que se usaba entonces por eso
use la conversion con iconv.

pero es un tema muy interesante lo de aplicar chargess+iconv aunque aun
soy muy nuevo y me tocara buscar mas informaciÃ³n hacerca de esto porque
no entiedo muy bien como aplicar el concepto.

Gracias por la ayuda.

alex123 · July 28, 2009, 10:18pm

Como Instalo el charguess en una maquina windows por que todas las
instalaciÃ³nes que he visto son para linux

gracias

alex123 · May 18, 2009, 4:18pm

2009/5/18 Jhony A. [email protected]:

pero es un tema muy interesante lo de aplicar chargess+iconv aunque aun
soy muy nuevo y me tocara buscar mas informaciÃ³n hacerca de esto porque
no entiedo muy bien como aplicar el concepto.

Iconv.conv recibe 3 argumentos, encoding destino, encoding origen, y
datos.

Un fichero HTML tiene maneras de indicar el encoding (hay un tag META
para ello), y si no lo hace explicitamente la spec dice cual es el
default. Con un archivo HTML las cosas estan bien definidas. Pero en
un fichero txt, csv, etc. asi silvestre no hay nada que te diga en que
encoding viene.

Esto no tiene solucion robusta y lo maximo que se puede hacer es
pillar una libreria que le pegue un vistazo a los bytes y te de su
mejor conjetura (que no certeza). En Ruby charguess lo hace, le pasas
el texto, la libreria te dice “yo creo que esto esta en encoding E”, y
entonces tu le pasas E como encoding de origen a iconv. Es lo mejor
que se puede hacer.

Naturalmente si tiene sentido preguntar o requerir un cierto encoding
entonces mucho mejor. Si tu usuario es tecnico le puedes decir
“aceptamos importancion por CSV en UTF8” y tan ricamente.