
FTS: Timeout für hängende FTS-Parse-Jobs
Bei einem Kunden bleibt der FTS-Index immer an einem PDF-Dokument hängen.
Auch wenn man versucht die Datei mit pdftotext in text umzuwandeln, bekommt man kein Resultat.
Mögliche Lösung: Timeout-Mechanismus für das DPF Plugin
Für jede zu parsende Datei wird ja das PDF-Plugin (über eval) aufgerufen. Diesen Aufruf könnte man z.B. mit Sys::SigAction o.Ä. klammern. Wenn ein Dokument nicht in 5 Minuten geparst werden konnte, dann wird abgebrochen und eine Fehlermeldung ins Log geschrieben und die nächste Datei wird verarbeitet.
NiceToHave 1: Die Timeout-Zeit kann in der index.conf angegeben werden. FTS_PARSE_TIMEOUT_IN_S
NiceToHave 2: Der Timeout wird nicht im DPF-Plugin sondern in der PlugIn-Schnittstelle umgesetzt, so dass dieser Mechanismus auch für cat2doc (Office-Dokumente) funktioniert.
NiceToHave 3: FTS-Index misst die maximale Parse-Dauer der einzelnen Datein und ziegt diese am Ende an:
Max-Parse-Dauer: 24s
Sie sollten FTS_PARSE_TIMEOUT_IN_S auf 48s einstellen (Sicherheitsfaktor:2)
Customer support service by UserEcho
Hallo Oliver, ich finde die Idee eines ggf. konfigurierbaren timeouts sehr sexy. Wir werden das mal evaluieren.
Prima, Danke Georg.
Hallo Georg,
gibt es dazu schon etwas neues?
Viele Grüße
Oli
Hallo Georg,
das Problem wird immer drängender, da es es immer mehr PDF-Dateien gibt, die nicht gelesen werden können.
Damit hängt dann der gesamte Index-Aufbau der entsprechenden Domain.
Genaugenommen ist das auch kein Feature-Request sondern ein Bug.
Ich würde mich freuen, wenn es hierzu bald Neuigkeiten gibt.
Danke und schöne Grüße nach Köln
Oliver
Hallo Oliver,
wir haben das ganze hier evaluiert und festgestellt das es ein schönes Feature ist, aber nicht so trivial umzusetzen. Deshalb haben wir hier noch keine endgültig Entscheidung getroffen, außer dass es in 10.3.0 nicht enthalten sein wird.
Wenn das Problem so akut bei Euch ist, musst Du halt einen externen PDF-parser wie pdftotext/pdfinfo einsetzen, den Du mit einem timeout Kommando auf einem linuxoiden System entsprechend absichern kannst. Ggf. kannst Du in einem eigenen Transform/Workflow-Plugin beim Upload überprüfen ob dieses PDF "korrupt" ist und dem Redakteur einen entsprechenden Hinweis geben.
Bessere Neuigkeiten habe ich hier leider nicht, sorry :(
Hallo Georg,
die PDF-Dateien werden für den Download im Web von Redakteuren zu den Dokumenten hinzugefügt. Meist
bekommt der Redaktuer das Dokument zugeliefert. Wenn der Parser dieses PDF-Dokument nicht indizieren kann,
würde es (nach deinem Vorschlag) beim Upload ins MAM abgelehnt. Das geht leider gar nicht, da der Redakteur
das PDF so nicht online bekommt. Sicher kann er aber damit leben, wenn das Dokument im Web ist aber nicht im Index auftaucht.
Ich hoffe weiterhin auf eine Umsetzung in einer Version 10.3.1 ;-)