Wird überprüft

FTS: Timeout für hängende FTS-Parse-Jobs

vor 9 Jahren • aktualisiert vor 8 Jahren • 6

Bei einem Kunden bleibt der FTS-Index immer an einem PDF-Dokument hängen.

Auch wenn man versucht die Datei mit pdftotext in text umzuwandeln, bekommt man kein Resultat.

Mögliche Lösung: Timeout-Mechanismus für das DPF Plugin

Für jede zu parsende Datei wird ja das PDF-Plugin (über eval) aufgerufen. Diesen Aufruf könnte man z.B. mit Sys::SigAction o.Ä. klammern. Wenn ein Dokument nicht in 5 Minuten geparst werden konnte, dann wird abgebrochen und eine Fehlermeldung ins Log geschrieben und die nächste Datei wird verarbeitet.

NiceToHave 1: Die Timeout-Zeit kann in der index.conf angegeben werden. FTS_PARSE_TIMEOUT_IN_S

NiceToHave 2: Der Timeout wird nicht im DPF-Plugin sondern in der PlugIn-Schnittstelle umgesetzt, so dass dieser Mechanismus auch für cat2doc (Office-Dokumente) funktioniert.

NiceToHave 3: FTS-Index misst die maximale Parse-Dauer der einzelnen Datein und ziegt diese am Ende an:

Max-Parse-Dauer: 24s

Sie sollten FTS_PARSE_TIMEOUT_IN_S auf 48s einstellen (Sicherheitsfaktor:2)

Abstimmen

Antworten 6
Älteste zuerst
- Neueste zuerst
- Älteste zuerst

Wird überprüft

vor 9 Jahren

Hallo Oliver, ich finde die Idee eines ggf. konfigurierbaren timeouts sehr sexy. Wir werden das mal evaluieren.

Antworten
|

vor 9 Jahren

Prima, Danke Georg.

Antworten
|

vor 8 Jahren

Hallo Georg,

gibt es dazu schon etwas neues?

Viele Grüße

Oli

Antworten
|

vor 8 Jahren

Hallo Georg,

das Problem wird immer drängender, da es es immer mehr PDF-Dateien gibt, die nicht gelesen werden können.

Damit hängt dann der gesamte Index-Aufbau der entsprechenden Domain.

Genaugenommen ist das auch kein Feature-Request sondern ein Bug.

Ich würde mich freuen, wenn es hierzu bald Neuigkeiten gibt.

Danke und schöne Grüße nach Köln

Oliver

Antworten
|

vor 8 Jahren

Hallo Oliver,

wir haben das ganze hier evaluiert und festgestellt das es ein schönes Feature ist, aber nicht so trivial umzusetzen. Deshalb haben wir hier noch keine endgültig Entscheidung getroffen, außer dass es in 10.3.0 nicht enthalten sein wird.

Wenn das Problem so akut bei Euch ist, musst Du halt einen externen PDF-parser wie pdftotext/pdfinfo einsetzen, den Du mit einem timeout Kommando auf einem linuxoiden System entsprechend absichern kannst. Ggf. kannst Du in einem eigenen Transform/Workflow-Plugin beim Upload überprüfen ob dieses PDF "korrupt" ist und dem Redakteur einen entsprechenden Hinweis geben.

Bessere Neuigkeiten habe ich hier leider nicht, sorry :(

Antworten
|

vor 8 Jahren

Hallo Georg,

die PDF-Dateien werden für den Download im Web von Redakteuren zu den Dokumenten hinzugefügt. Meist

bekommt der Redaktuer das Dokument zugeliefert. Wenn der Parser dieses PDF-Dokument nicht indizieren kann,

würde es (nach deinem Vorschlag) beim Upload ins MAM abgelehnt. Das geht leider gar nicht, da der Redakteur

das PDF so nicht online bekommt. Sicher kann er aber damit leben, wenn das Dokument im Web ist aber nicht im Index auftaucht.

Ich hoffe weiterhin auf eine Umsetzung in einer Version 10.3.1 ;-)

Antworten
|

Customer support service by UserEcho