PDFs indizieren und durchsuchen


#1

Hallo,

kennt jemand serverseitige OS-Lösungen, mit denen man PDFs indizieren
und
durchsuchen kann?

Viele Grüße

Michael K.


#2

lucene+pdfbox oder itext, wenn’s auch jruby sein darf. Oder solr,
wenn’s ein eigener Server für’s Suchen sein darf. Solr hat REST&JSON-
Interfaces, ist also nicht so schwer in rails einzubinden.

GrüßeStefan

Am 11.11.2008 um 10:42 schrieb Michael K.:

Hallo,

kennt jemand serverseitige OS-Lösungen, mit denen man PDFs
indizieren und durchsuchen kann?

Viele Grüße

Michael K.


rubyonrails-ug mailing list
removed_email_address@domain.invalid
http://mailman.headflash.com/mailman/listinfo/rubyonrails-ug


stefan frank
vierundsechzig.de
software&service
weberstr. 10
69120 heidelberg
tel. +49 (0) 6221 7277049
mobil +40 (0) 173 2383390
mail removed_email_address@domain.invalid
www.vierundsechzig.de


#3

Hallo Frank,

vielen Dank für die Infos. Ich bin gerade dabei, meine letzten Java-Apps von
den
Servern zu werfen und dann auch den Tomcat. Java ist eigentlich keine
Option im
Moment. Hätte ich vielleicht gleich dazuschreiben sollen.

Ich schau mich mal weiter um.

Vielen Dank und viele
Grüße
Michael K.

Stefan F. schrieb:


#4

Hallo Michael,

hachja, so sind sie halt, die vom einen einzigen wahren
Glauben(nämlich Java) abgefallen sind und jetzt dem anderen einzigen
wahren Glauben anhängen (nämlich ruby) :slight_smile: - ich kenn das, mir geht das
auch so, dass ich um alle Worte, die mit J anfangen einen Bogen
mache… Aber ein bisschen nüchterner betrachtet, ist ferret nur ein
müder (dazu instabiler…) Abklatsch von lucene ist, und PDF:Writer
funktional in den kleinen Finger von itext reinpasst… Na, aber am
Ende braucht man vielleicht das ja auch wirklich nicht alles, sondern
kommt mit einer Lösung aus sphinx/ultrasphinx (mit ultrasphinx kommt
man direkter an die sphinx-api ran - ob das mit thinking-sphinx auch
geht, weiß ich nicht) und pdf::writer zum Extrahieren aus? Und dann
noch irgendein messaging/cron-job, um das indexieren irgendwie
auszulagern? Sollte man also auch irgendwie java-frei hinkriegen,
braucht aber mehr Handarbeit…

GrüßeStefan

Am 11.11.2008 um 12:53 schrieb Michael K.:

weberstr. 10
rubyonrails-ug mailing list
removed_email_address@domain.invalid
http://mailman.headflash.com/mailman/listinfo/rubyonrails-ug


stefan frank
vierundsechzig.de
software&service
weberstr. 10
69120 heidelberg
tel. +49 (0) 6221 7277049
mobil +40 (0) 173 2383390
mail removed_email_address@domain.invalid
www.vierundsechzig.de


#5

Hi,

prawn beschränkt sich im Moment tatsächlich auf die PDF-Generierung.

Grüße
Nicolai


#6

Hallo Frank,

gut, klingt etwas dogmatisch, hat aber eher etwas mit Faulheit zu tun.
BTW, ich
mache im Moment gute Erfahrungen mit prawn, was die Generierung von PDFs
angeht.

Viele
Grüße
Michael K.

Stefan F. schrieb:


#7

prawn beschränkt sich im Moment tatsächlich auf die PDF-Generierung.
genau so wie PDF::Writer auch :frowning:


#8

hmm, ja, prawn sieht nett aus: Aber gibt’s da auch ein extract für den
Text?! Aber ich war da auch mit dem pdf::writer zu voreiliig - da seh
ich auch nix, um den Text da wieder raus zu kriegen - oder hab ich da
Tomaten auf den Augen?!

GrüßeStefan

Am 11.11.2008 um 14:18 schrieb Michael K.:

hachja, so sind sie halt, die vom einen einzigen wahren
pdf::writer zum Extrahieren aus? Und dann noch irgendein messaging/

Grüße
Stefan

removed_email_address@domain.invalid
www.vierundsechzig.de
vierundsechzig.de
http://mailman.headflash.com/mailman/listinfo/rubyonrails-ug


rubyonrails-ug mailing list
removed_email_address@domain.invalid
http://mailman.headflash.com/mailman/listinfo/rubyonrails-ug


stefan frank
vierundsechzig.de
software&service
weberstr. 10
69120 heidelberg
tel. +49 (0) 6221 7277049
mobil +40 (0) 173 2383390
mail removed_email_address@domain.invalid
www.vierundsechzig.de


#9

Ich verwende Prawn zum generieren (hatte ich ja geschrieben). Eine
Möglichkeit,
um den Text zu extrahieren gibt’s nicht. Deshalb auch meine Frage. Aber
beim
Generieren ist es um einiges flotter als pdf::writer.

Viele
Grüße
Michael K.

Stefan F. schrieb:


#10

na, womit wir wieder zurück auf Feld 1 wären. Wie wär’s denn mit einem
cron-job, der pdf-box aufruft (das gibt’s zur Not auch als command-
line…), den text extrahiert und das ganze dann mit irgendwas anderem
indizieren lässt (sphinx…)? Damit hätte man dann zumindest schon mal
den Wirkungskreis von java auf das Notwendigste eingeschränkt: Und
einen Background-Job für die Indexierung muss es ja eh geben, dann
kann man die Box ja auch wieder rausschmeißen, wenn pdf::reader
rauskommt…

Grüßestf

Am 11.11.2008 um 17:19 schrieb Michael K.:

hab ich da Tomaten auf den Augen?!

man vielleicht das ja auch wirklich nicht alles, sondern kommt

vielen Dank für die Infos. Ich bin gerade dabei, meine letzten

lucene+pdfbox oder itext, wenn’s auch jruby sein darf. Oder

Viele Grüße

69120 heidelberg
removed_email_address@domain.invalid
www.vierundsechzig.de
vierundsechzig.de
http://mailman.headflash.com/mailman/listinfo/rubyonrails-ug


rubyonrails-ug mailing list
removed_email_address@domain.invalid
http://mailman.headflash.com/mailman/listinfo/rubyonrails-ug


stefan frank
vierundsechzig.de
software&service
weberstr. 10
69120 heidelberg
tel. +49 (0) 6221 7277049
mobil +40 (0) 173 2383390
mail removed_email_address@domain.invalid
www.vierundsechzig.de


#11

Ich bin mittlerweile schon etwas weiter. Es gibt wohl ein Programm, das
bei xpdf
dabei ist und pdf2txt heißt. Das braucht zwar die ganze X-Umgebung, läuft
dafür aber nativ. Das werd’ ich jetzt mal antesten.

Viele
Grüße
Michael K.

Stefan F. schrieb: