Forum: Rails Germany PDFs indizieren und durchsuchen

Announcement (2017-05-07): www.ruby-forum.com is now read-only since I unfortunately do not have the time to support and maintain the forum any more. Please see rubyonrails.org/community and ruby-lang.org/en/community for other Rails- und Ruby-related community platforms.
9e0ec2384dd80c7f2c190e02e596e15b?d=identicon&s=25 Michael Kastner (Guest)
on 2008-11-11 10:43
(Received via mailing list)
Hallo,

kennt jemand serverseitige OS-Lösungen, mit denen man PDFs indizieren
und
durchsuchen kann?

Viele Grüße

Michael Kastner
971ab4b7ec9679826fc359bdcc84f7d6?d=identicon&s=25 Stefan Frank (mugwump)
on 2008-11-11 12:10
(Received via mailing list)
lucene+pdfbox oder itext, wenn's auch jruby sein darf. Oder solr,
wenn's ein eigener Server für's Suchen sein darf. Solr hat REST&JSON-
Interfaces, ist also nicht so schwer in rails einzubinden.

GrüßeStefan


Am 11.11.2008 um 10:42 schrieb Michael Kastner:

> Hallo,
>
> kennt jemand serverseitige OS-Lösungen, mit denen man PDFs
> indizieren und durchsuchen kann?
>
> Viele Grüße
>
> Michael Kastner
> _______________________________________________
> rubyonrails-ug mailing list
> rubyonrails-ug@headflash.com
> http://mailman.headflash.com/mailman/listinfo/rubyonrails-ug

----
stefan frank
vierundsechzig.de
software&service
weberstr. 10
69120 heidelberg
tel. +49 (0) 6221 7277049
mobil +40 (0) 173 2383390
mail s.frank@vierundsechzig.de
www.vierundsechzig.de
9e0ec2384dd80c7f2c190e02e596e15b?d=identicon&s=25 Michael Kastner (Guest)
on 2008-11-11 12:53
(Received via mailing list)
Hallo Frank,

vielen Dank für die Infos. Ich bin gerade dabei, meine letzten Java-Apps von
den
Servern zu werfen und dann auch den Tomcat. Java ist eigentlich keine
Option im
Moment. Hätte ich vielleicht gleich dazuschreiben sollen.

Ich schau mich mal weiter um.

Vielen Dank und viele
Grüße
Michael Kastner

Stefan Frank schrieb:
971ab4b7ec9679826fc359bdcc84f7d6?d=identicon&s=25 Stefan Frank (mugwump)
on 2008-11-11 13:43
(Received via mailing list)
Hallo Michael,

hachja, so sind sie halt, die vom einen einzigen wahren
Glauben(nämlich Java) abgefallen sind und jetzt dem anderen einzigen
wahren Glauben anhängen (nämlich ruby) :) - ich kenn das, mir geht das
auch so, dass ich um alle Worte, die mit J anfangen einen Bogen
mache.... Aber ein bisschen nüchterner betrachtet, ist ferret nur ein
müder (dazu instabiler...) Abklatsch von lucene ist, und PDF:Writer
funktional in den kleinen Finger von itext reinpasst.... Na, aber am
Ende braucht man vielleicht das ja auch wirklich nicht alles, sondern
kommt mit einer Lösung aus sphinx/ultrasphinx (mit ultrasphinx kommt
man direkter an die sphinx-api ran - ob das mit thinking-sphinx auch
geht, weiß ich nicht) und pdf::writer zum Extrahieren aus? Und dann
noch irgendein messaging/cron-job, um das indexieren irgendwie
auszulagern? Sollte man also auch irgendwie java-frei hinkriegen,
braucht aber mehr Handarbeit...

GrüßeStefan






Am 11.11.2008 um 12:53 schrieb Michael Kastner:

>
>>>
>> weberstr. 10
> rubyonrails-ug mailing list
> rubyonrails-ug@headflash.com
> http://mailman.headflash.com/mailman/listinfo/rubyonrails-ug

----
stefan frank
vierundsechzig.de
software&service
weberstr. 10
69120 heidelberg
tel. +49 (0) 6221 7277049
mobil +40 (0) 173 2383390
mail s.frank@vierundsechzig.de
www.vierundsechzig.de
9e0ec2384dd80c7f2c190e02e596e15b?d=identicon&s=25 Michael Kastner (Guest)
on 2008-11-11 14:18
(Received via mailing list)
Hallo Frank,

gut, klingt etwas dogmatisch, hat aber eher etwas mit Faulheit zu tun.
BTW, ich
mache im Moment gute Erfahrungen mit prawn, was die Generierung von PDFs
angeht.

Viele
Grüße
Michael Kastner

Stefan Frank schrieb:
971ab4b7ec9679826fc359bdcc84f7d6?d=identicon&s=25 Stefan Frank (mugwump)
on 2008-11-11 15:34
(Received via mailing list)
hmm, ja, prawn sieht nett aus: Aber gibt's da auch ein extract für den
Text?! Aber ich war da auch mit dem pdf::writer zu voreiliig - da seh
ich auch nix, um den Text da wieder raus zu kriegen - oder hab ich da
Tomaten auf den Augen?!

GrüßeStefan

Am 11.11.2008 um 14:18 schrieb Michael Kastner:

>> hachja, so sind sie halt, die vom einen einzigen wahren
>> pdf::writer zum Extrahieren aus? Und dann noch irgendein messaging/
>>>
>>>> Grüße
>>>> Stefan
>>>>> rubyonrails-ug@headflash.com
>>>> www.vierundsechzig.de
>> vierundsechzig.de
>> http://mailman.headflash.com/mailman/listinfo/rubyonrails-ug
> _______________________________________________
> rubyonrails-ug mailing list
> rubyonrails-ug@headflash.com
> http://mailman.headflash.com/mailman/listinfo/rubyonrails-ug

----
stefan frank
vierundsechzig.de
software&service
weberstr. 10
69120 heidelberg
tel. +49 (0) 6221 7277049
mobil +40 (0) 173 2383390
mail s.frank@vierundsechzig.de
www.vierundsechzig.de
59528506e6297141161afcde91d677c9?d=identicon&s=25 Nicolai Reuschling (codeblogger)
on 2008-11-11 16:39
(Received via mailing list)
Hi,

prawn beschränkt sich im Moment tatsächlich auf die PDF-Generierung.

Grüße
Nicolai
B9a027e8dc984d4db10c5f66eb55e37f?d=identicon&s=25 D. Weinand (d-w)
on 2008-11-11 16:43
(Received via mailing list)
> prawn beschränkt sich im Moment tatsächlich auf die PDF-Generierung.
genau so wie PDF::Writer auch :(
9e0ec2384dd80c7f2c190e02e596e15b?d=identicon&s=25 Michael Kastner (Guest)
on 2008-11-11 17:19
(Received via mailing list)
Ich verwende Prawn zum generieren (hatte ich ja geschrieben). Eine
Möglichkeit,
um den Text zu extrahieren gibt's nicht. Deshalb auch meine Frage. Aber
beim
Generieren ist es um einiges flotter als pdf::writer.

Viele
Grüße
Michael Kastner

Stefan Frank schrieb:
971ab4b7ec9679826fc359bdcc84f7d6?d=identicon&s=25 Stefan Frank (mugwump)
on 2008-11-11 18:02
(Received via mailing list)
na, womit wir wieder zurück auf Feld 1 wären. Wie wär's denn mit einem
cron-job, der pdf-box aufruft (das gibt's zur Not auch als command-
line...), den text extrahiert und das ganze dann mit irgendwas anderem
indizieren lässt (sphinx...)? Damit hätte man dann zumindest schon mal
den Wirkungskreis von java auf das Notwendigste eingeschränkt: Und
einen Background-Job für die Indexierung muss es ja eh geben, dann
kann man die Box ja auch wieder rausschmeißen, wenn pdf::reader
rauskommt....

Grüßestf


Am 11.11.2008 um 17:19 schrieb Michael Kastner:

>> hab ich da Tomaten auf den Augen?!
>>>
>>>> man vielleicht das ja auch wirklich nicht alles, sondern kommt
>>>>> vielen Dank für die Infos. Ich bin gerade dabei, meine letzten
>>>>>> lucene+pdfbox oder itext, wenn's auch jruby sein darf. Oder
>>>>>>> Viele Grüße
>>>>>>>
>>>>>> 69120 heidelberg
>>>>> rubyonrails-ug@headflash.com
>>>> www.vierundsechzig.de
>> vierundsechzig.de
>> http://mailman.headflash.com/mailman/listinfo/rubyonrails-ug
> _______________________________________________
> rubyonrails-ug mailing list
> rubyonrails-ug@headflash.com
> http://mailman.headflash.com/mailman/listinfo/rubyonrails-ug

----
stefan frank
vierundsechzig.de
software&service
weberstr. 10
69120 heidelberg
tel. +49 (0) 6221 7277049
mobil +40 (0) 173 2383390
mail s.frank@vierundsechzig.de
www.vierundsechzig.de
9e0ec2384dd80c7f2c190e02e596e15b?d=identicon&s=25 Michael Kastner (Guest)
on 2008-11-11 18:23
(Received via mailing list)
Ich bin mittlerweile schon etwas weiter. Es gibt wohl ein Programm, das
bei xpdf
dabei ist und pdf2txt heißt. Das braucht zwar die ganze X-Umgebung, läuft
dafür aber nativ. Das werd' ich jetzt mal antesten.

Viele
Grüße
Michael Kastner

Stefan Frank schrieb:
This topic is locked and can not be replied to.