PDFs indizieren und durchsuchen

mrkohrea · November 11, 2008, 10:43am

Hallo,

kennt jemand serverseitige OS-LÃ¶sungen, mit denen man PDFs indizieren
und
durchsuchen kann?

Viele GrÃ¼ÃŸe

Michael K.

mrkohrea · November 11, 2008, 12:10pm

lucene+pdfbox oder itext, wenn’s auch jruby sein darf. Oder solr,
wenn’s ein eigener Server für’s Suchen sein darf. Solr hat REST&JSON-
Interfaces, ist also nicht so schwer in rails einzubinden.

GrüßeStefan

Am 11.11.2008 um 10:42 schrieb Michael K.:

Hallo,

kennt jemand serverseitige OS-Lösungen, mit denen man PDFs
indizieren und durchsuchen kann?

Viele Grüße

Michael K.

rubyonrails-ug mailing list
[email protected]
http://mailman.headflash.com/mailman/listinfo/rubyonrails-ug

stefan frank

software&service
weberstr. 10
69120 heidelberg
tel. +49 (0) 6221 7277049
mobil +40 (0) 173 2383390
mail [email protected]

mrkohrea · November 11, 2008, 12:53pm

Hallo Frank,

vielen Dank für die Infos. Ich bin gerade dabei, meine letzten Java-Apps von
den
Servern zu werfen und dann auch den Tomcat. Java ist eigentlich keine
Option im
Moment. Hätte ich vielleicht gleich dazuschreiben sollen.

Ich schau mich mal weiter um.

Vielen Dank und viele
Grüße
Michael K.

Stefan F. schrieb:

mrkohrea · November 11, 2008, 1:43pm

Hallo Michael,

hachja, so sind sie halt, die vom einen einzigen wahren
Glauben(nämlich Java) abgefallen sind und jetzt dem anderen einzigen
wahren Glauben anhängen (nämlich ruby) - ich kenn das, mir geht das
auch so, dass ich um alle Worte, die mit J anfangen einen Bogen
mache… Aber ein bisschen nüchterner betrachtet, ist ferret nur ein
müder (dazu instabiler…) Abklatsch von lucene ist, und PDF:Writer
funktional in den kleinen Finger von itext reinpasst… Na, aber am
Ende braucht man vielleicht das ja auch wirklich nicht alles, sondern
kommt mit einer Lösung aus sphinx/ultrasphinx (mit ultrasphinx kommt
man direkter an die sphinx-api ran - ob das mit thinking-sphinx auch
geht, weiß ich nicht) und pdf::writer zum Extrahieren aus? Und dann
noch irgendein messaging/cron-job, um das indexieren irgendwie
auszulagern? Sollte man also auch irgendwie java-frei hinkriegen,
braucht aber mehr Handarbeit…

GrüßeStefan

Am 11.11.2008 um 12:53 schrieb Michael K.:

weberstr. 10
rubyonrails-ug mailing list
[email protected]
http://mailman.headflash.com/mailman/listinfo/rubyonrails-ug

stefan frank

software&service
weberstr. 10
69120 heidelberg
tel. +49 (0) 6221 7277049
mobil +40 (0) 173 2383390
mail [email protected]

mrkohrea · November 11, 2008, 4:39pm

Hi,

prawn beschrÃ¤nkt sich im Moment tatsÃ¤chlich auf die PDF-Generierung.

GrÃ¼ÃŸe
Nicolai

mrkohrea · November 11, 2008, 2:18pm

Hallo Frank,

gut, klingt etwas dogmatisch, hat aber eher etwas mit Faulheit zu tun.
BTW, ich
mache im Moment gute Erfahrungen mit prawn, was die Generierung von PDFs
angeht.

Viele
Grüße
Michael K.

Stefan F. schrieb:

mrkohrea · November 11, 2008, 4:43pm

prawn beschrÃ¤nkt sich im Moment tatsÃ¤chlich auf die PDF-Generierung.
genau so wie PDF::Writer auch

mrkohrea · November 11, 2008, 3:34pm

hmm, ja, prawn sieht nett aus: Aber gibt’s da auch ein extract für den
Text?! Aber ich war da auch mit dem pdf::writer zu voreiliig - da seh
ich auch nix, um den Text da wieder raus zu kriegen - oder hab ich da
Tomaten auf den Augen?!

GrüßeStefan

Am 11.11.2008 um 14:18 schrieb Michael K.:

hachja, so sind sie halt, die vom einen einzigen wahren
pdf::writer zum Extrahieren aus? Und dann noch irgendein messaging/

Grüße
Stefan

[email protected]
www.vierundsechzig.de
vierundsechzig.de
http://mailman.headflash.com/mailman/listinfo/rubyonrails-ug

rubyonrails-ug mailing list
[email protected]
http://mailman.headflash.com/mailman/listinfo/rubyonrails-ug

stefan frank

software&service
weberstr. 10
69120 heidelberg
tel. +49 (0) 6221 7277049
mobil +40 (0) 173 2383390
mail [email protected]

mrkohrea · November 11, 2008, 5:19pm

Ich verwende Prawn zum generieren (hatte ich ja geschrieben). Eine
Möglichkeit,
um den Text zu extrahieren gibt’s nicht. Deshalb auch meine Frage. Aber
beim
Generieren ist es um einiges flotter als pdf::writer.

Viele
Grüße
Michael K.

Stefan F. schrieb:

mrkohrea · November 11, 2008, 6:02pm

na, womit wir wieder zurück auf Feld 1 wären. Wie wär’s denn mit einem
cron-job, der pdf-box aufruft (das gibt’s zur Not auch als command-
line…), den text extrahiert und das ganze dann mit irgendwas anderem
indizieren lässt (sphinx…)? Damit hätte man dann zumindest schon mal
den Wirkungskreis von java auf das Notwendigste eingeschränkt: Und
einen Background-Job für die Indexierung muss es ja eh geben, dann
kann man die Box ja auch wieder rausschmeißen, wenn pdf::reader
rauskommt…

Grüßestf

Am 11.11.2008 um 17:19 schrieb Michael K.:

hab ich da Tomaten auf den Augen?!

man vielleicht das ja auch wirklich nicht alles, sondern kommt

vielen Dank für die Infos. Ich bin gerade dabei, meine letzten

lucene+pdfbox oder itext, wenn’s auch jruby sein darf. Oder

Viele Grüße

69120 heidelberg
[email protected]
www.vierundsechzig.de
vierundsechzig.de
http://mailman.headflash.com/mailman/listinfo/rubyonrails-ug

rubyonrails-ug mailing list
[email protected]
http://mailman.headflash.com/mailman/listinfo/rubyonrails-ug

stefan frank

software&service
weberstr. 10
69120 heidelberg
tel. +49 (0) 6221 7277049
mobil +40 (0) 173 2383390
mail [email protected]

mrkohrea · November 11, 2008, 6:23pm

Ich bin mittlerweile schon etwas weiter. Es gibt wohl ein Programm, das
bei xpdf
dabei ist und pdf2txt heißt. Das braucht zwar die ganze X-Umgebung, läuft
dafür aber nativ. Das werd’ ich jetzt mal antesten.

Viele
Grüße
Michael K.

Stefan F. schrieb: