Sie sind nicht angemeldet.

1

16.11.2004, 12:39

Mit htdig in pdf bzw doc Dateien suchen

Hallo,

ich habe unter SuSE 9.0 htdig laufen.
Die Suche in html-Dateien funktioniert.
Was nicht funktioniert ist das Durchsuchen von pdf + doc Dateien.
Gibt es hier jemand der mit dem Durchsuchen von pdf-Dateien unter htdig Erfahrung hat?
xpdf ist installiert.
Was ich nach meiner Anleitung noch brauche ist catdoc.
Kann mir jemand sagen, wo ist catdoc unter SuSE 9.0 finde bzw wo ich es herunterladen kann.

Dietmar

pilot14

Anfänger

Beiträge: 3

Wohnort: münchen

Beruf: nix

  • Nachricht senden

3

11.12.2004, 21:18

RE: Mit htdig in pdf bzw doc Dateien suchen

htdig selbst kann nicht in pdf doc usw suchen, sondern bedient sich sog. external parser. In der htdig Konfigurationsdatei sieht das so aus:
# external parsers
external_parsers: application/rtf->text/html /usr/local/bin/doc2html.pl \
application/pdf->text/html /usr/local/bin/doc2html.pl \
application/msword->text/html /usr/local/bin/doc2html.pl

d.h. der parser doc2html.pl wird in /usr/local/bin erwartet. Er ist bei Suse dabei unter htdig/contrib oder so ähnlich und muss nach /usr/local/bin kopiert werden.
Dabei dient doc2html.pl selbst nur als Interface zu htdig und ruft zum parsen von pdf ein weiteres Programm pdf2html auf.
Dieses wird in doc2html.pl eingetragen unter
my $PDF2HTML = '/usr/local/bin/pdf2html.pl';

4

02.03.2005, 10:38

Hallo,

bin ganz neu hier und in der Linux-Welt.
Habe jedenfalls auch mit htdig herumgespielt und es zum laufen gebracht.

Nun beschäftige ich mich mit der Umsetzung der DOC- und PDF-Suche.
Habe deshallb doc2html installiert.
Für DOC-Dateien habe ich mir catdoc heruntergeladen und folgendes ausgeführt:

Quellcode

1
2
3
# ./configure
# make
# make install


Dann habe ich die erzeugten Datei catdoc und wordview in ein Unterverzeichnis bei htdig kopiert und entsprechend in doc2html.pl eingetragen.

Nun kann ich DOC-Dateien durchsuchen, leider werden Umlaute nicht richtig dargestellt, weshalb ich solche Wörter nicht suchen kann.

Die Suche von Umlauten auf HTML-Seiten funkltioniert, habe hierfür in der htdig.conf das Attribut

Quellcode

1
locale: de_DE
eingetragen.

:keineahnung:Kann mir jemand helfen, wie ich die DOC-Suche richtig hinbekomme?


Aussserdem habe ich auch versucht mit pdf2html.pl PDF-Dateien zu durchsuchen. Dieses Skript benötigt ua. die Datei pdfinfo des Paketes xpdf. Habe mir xpdf herunter geladen, kann es aber nicht compilieren.

Entsprechende Meldung nach Aufruf von ./configure.

Quellcode

1
2
3
configure: WARNING: Couldn't find X / Motif -- you will be able to compile
        pdftops, pdftotext, pdfinfo, pdffonts, pdftoppm, and pdfimages,
        but not xpdf



Ein Versuch pdfinfo.cc zu kompilieren ergibt folgendes

Quellcode

1
2
# gcc pdfinfo.cc
pdfinfo.cc:9: aconf.h: No such file or directory



:keineahnung:Weiß jemand wie ich die PDF-Suche hinbekomme?
Gibt es da evtl. andere Skripten?


Hoffe als Linux-Laie habe ich keine wichtigen Informationen zur Beschreibung meines Problems vergessen...

Danke für eine Antwort.
Gruß,
Tom

pilot14

Anfänger

Beiträge: 3

Wohnort: münchen

Beruf: nix

  • Nachricht senden

5

12.03.2005, 11:22

Das Rad ist schon erfunden, will sagen mach es Dir nicht unnötig schwer und besorge Dir eine Linux Distribution, die den pdf Kram mitbringt wie z.B. Suse 9.2 (gibt es jetzt im Zeitschriftenhandel als Beilage zu EasyLinux für ein paar Euro)

pilot14

Anfänger

Beiträge: 3

Wohnort: münchen

Beruf: nix

  • Nachricht senden

6

12.03.2005, 15:33

Umlaute sind in win anders kodiert als in linux üblich.
Unter linux ist Codierung iso-8859-.. üblich und unter winxp utf-8 (vermute ich).

Normalerweise wird im header einer html Seite die Codierung mitgegeben,
damit sich der Browser darauf einstellen kann.

htdig erzeugt aber keine header mit utf-8,
also mal versuchen den Browser manuell auf Kodierung utf-8 einzustellen, vielleicht klappt es dann.

Thema bewerten