04_FAQ (de)

auto translate:

➡️ Wie richte ich die Ordnerüberwachung mit Inotify ein?

Dafür muss lediglich das Paket Inotify-Tools installiert werden. Sobald diese Voraussetzung erfüllt ist, startet die Ordnerüberwachung beim synOCR-Paketstart automatisch. Entsprechende Button zur Steuerung werden in der synOCR-GUI dann ebenfalls angezeigt.

Bitte achte darauf, dass synOCR nicht mehr über den Aufgabenplaner vom User root aufgerufen wird. Das ist nicht schlimm, verhindert aber die Steuerung der Ordnerüberwachung über die GUI.
Bei Bedarf ist auch eine Steuerung über die Kommandozeile möglich (aber allgemein nicht nötig):

Aktion Befehl

starten /usr/syno/synoman/webman/3rdparty/synOCR/synOCR-start.sh start

beenden /usr/syno/synoman/webman/3rdparty/synOCR/synOCR-start.sh stop
Das Paket Inotify-Tools findest du HIER
Empfehlenswert ist das Einbinden von Synocommunity in das DSM-Paketzentrum (Beschreibung). Damit kann man Inotify-Tools direkt über das Paketzentrum installieren und Updates werden darüber bereitgestellt.

➡️ synOCR lässt sich nicht starten ("Die gewünschte Seite kann nicht angezeigt werden")

Greifst du über den Reverseproxy auf den DSM zu?
gehört der User zu einer Domäne?
Browsercache leeren / Inkognitomodus testen / anderen Browser oder Gerät testen

➡️ Wie führe ich ein Update durch?

lade dir die neuste Version von HIER herunter
installiere diese Datei über das Paketzentrum im DSM (Button: manuelle Installation)
(alle Einstellungen bleiben bei einem Update erhalten)

➡️ auf der Startseite bleibt die blaue Sanduhr und Dateien werden nicht abgearbeitet

ist der Zeitplan aktiv?
finden sich Fehler in der Logdatei?
ist das Quelldokument verschlüsselt? es kann dann nicht verarbeitet werden …
- das gilt auch bei der "Eigentümerverschlüsselung" von PDF-Dokumenten, d.h. man kann das Dokument betrachten, aber nicht ändern (ist oft bei Kontoauszügen so)

➡️ Warum erhalte ich die Fehlermeldung "Container synOCR in Container Manager wurde unerwartet beendet."?

Hierbei handelt es sich um einen Bug des Container Managers ab Version 24.x. und nicht um eine tatsächliche Fehlfunktion.
Diese Meldung kann getrost ignoriert werden, sofern die Dokumente wie gewünscht abgearbeitet werden.
Der Synology-Support ist darüber informiert und hat angekündigt, dieses Verhalten in einer zukünftigen Version zu beheben (Supportticket #3794980)

➡️ auf der Startseite ist ein grüner Haken und Dateien werden nicht abgearbeitet

ist das gewünschte Profil aktiviert?
ist der Pfad des Eingangsordners korrekt?
Stimmt die Einstellung des Suchpräfix / -suffix mit den Quelldateien überein?

➡️ wie kann ich meine Konfiguration sichern und wiederherstellen?

wähle in HyperBackup auch das Paket synOCR aus
- Wiederherstellung geht ebenso mit HyperBackup
lade die Konfigurationsdatenbank in der GUI herunter
- Wiederherstellung muss über die Kommandozeile erfolgen
  Zielpfad: /usr/syno/synoman/webman/3rdparty/synOCR/etc/synOCR.sqlite

➡️ wie kann ich eine bestehende Ordnerstruktur übernehmen?

Derzeit kann synOCR den Quellordner nicht rekursiv abarbeiten. Es gibt aber ein HILFSSKRIPT, welches dich beim einmaligen rekursiven Abarbeiten (OCRen) des Quellverzeichnises unterstützt und die bisheriger Ordnerstruktur wiederherstellt / beibehält.

➡️ können auch Bilder im Quellverzeichnis verarbeitet werden?

~~Derzeit kann synOCR nur PDF-Dokumente im Quellordner verarbeiten.~~
Ab Version 1.3.0 können auch Bilder konvertiert werden. Der entsprechende Schalter ist in der GUI zu finden.

Workarround < v1.3.0:

Es reicht ggf. schon, die Dateiendung der Bilder nach .pdf zu ändern. Das ließe sich auch mit einem kleinen Skript, welches vor dem synOCR-Aufruf läuft, automatisieren:
for file in /volume1/input/*.jpg; do mv "${file}" "${file%%.jpg}.pdf"; done

Wichtig:

bereits vorhandene, gleichnamige Dokumente würden ohne Nachfrage überschrieben (dokument.jpg überschreibt dokument.pdf, wenn dieses schon vorhanden ist)
der Pfad ist anzupassen
bei einem Pfad mit Leerzeichen, muss dieser in Anführungszeichen gesetzt werden, aber nicht das Sternchen

➡️ bekommt man im Dateinamen das Rautezeichen vor dem Tag weg?

Dieses Zeichen wird in der GUI des entsprechenden Profils über das Feld Tags im Dateinamen kennzeichnen (Bereich OCR Optionen und Umbenennung) definiert und kann dort angepasst werden. Das Rautezeichen ist die Voreinstellung.

➡️ es gibt ein Berechtigungsproblem mit dem Zielordner

wurde der Zeitplan im DSM-Aufgabenplaner mit ausgewähltem User root erstellt?
unter DSM7 müssen dem Zielordner ggf. noch die Rechte für den User synOCR zugewiesen werden.

➡️ PDF-Dateien lassen sich nicht durchsuchen

Sofern das PDF-Dokument erfolgreich bearbeitet wurde (keine Fehler im Log), ist es wahrscheinlich ein Indizierungsproblem.
Bitte teste das Dokument mit einem anderen PDF-Viewer (z.B. Adobe Reader oder der macOS Vorschau).

Wenn das Problem in Synology Drive / DSM auftritt:

Ist der Zielordner in Universal Search in den Dokumentindex aufgenommen?
Ggf. hilft eine manuelle Aktualisierung oder Neuindizierung
Liegt das Problem bei einer Zahl, so prüfe die Einstellung in Universal Search: "Überspringen Sie numerische Zeichen bei der Indexierung von Dateiinhalten"

➡️ Regel-definierte Zielordner werden nicht genutzt

Obwohl Regeln erfüllt werden, wird das entsprechende Dokument nicht in den definierten Zielordner verschoben.
Abhilfe: Bitte überprüfe in der GUI, ob die Option "verwende Regel-definierte Ordner" ausgewählt ist.

➡️ was bedeuten diese Fehlermeldungen im Log?

WARNING: Error loading config file: .dockercfg: $HOME is not defined
Kommt von Docker seit dessen letzter Versionsanhebung (20.10.3).
Das hat nichts mit synOCR zu tun und hat auch keine negativen Auswirkungen darauf.
/dev/ttyS1: Permission denied ERROR at line xxxx: echo 2 > /dev/ttyS1
Diese Zeile hätte den in der GUI aktivierten Piep bei einem abgeschlossenen PDF ausgelöst. Das geht nur vom User root und auch nicht im vDSM.
Ursache für die Meldung:
- der synOCR Programmlauf wurde aus der GUI heraus (= User synOCR) gestartet
- synOCR läuft über das automatisch gestartete Monitoring
- im DSM Aufgabenplaner ist die Aufgabe nicht dem User root zugewiesen
- synOCR läuft im vDSM

➡️ meine gewünschte OCR-Sprache wird nicht unterstützt

Im Log erhalte ich die Meldung: OCRmyPDF-LOG: OCR engine does not have language data for the following requested languages: <LANGCODE> Please install the appropriate language data for your OCR engine.

synOCR ist nur eine GUI für den Docker-Container OCRmyPDF und hat selbst keinen Einfluss auf die OCR-Sprachen. Es gibt ein Image mit allen möglichen Tesseract-Sprachen: OCRmyPDF-polyglot

Lade dieses Image und wähle es anschließend in deinem synOCR-Profil aus.

➡️ wie kann ich den Dateizähler zurücksetzen?

Der nachstehende Befehl setzt den Seitenzähler und Dateizähler zurück (global und für das Profil mit dem Namen <PROFILNAME>).

sqlite3 "/usr/syno/synoman/webman/3rdparty/synOCR/etc/synOCR.sqlite" "
UPDATE system SET value_1='0' WHERE key='global_pagecount';
UPDATE system SET value_1='0' WHERE key='global_ocrcount';
UPDATE system SET value_1='$(date +%Y-%m-%d)' WHERE key='count_start_date';
UPDATE config SET pagecount='0' WHERE profile='<PROFILNAME>';
UPDATE config SET ocrcount='0' WHERE profile='<PROFILNAME>';"

➡️ PDF-Dateien werden von synOCR verarbeitet, obwohl der Scanner noch nicht alle Seiten eingescannt hat.

Ursache:

Besonders bei CANON und ScanSnap Scannern ist das Verhalten zu beobachten, dass jede Seite einzeln auf die Netzwerkfreigabe des NAS gespeichert wird und für jede weitere Seite die bestehende PDF-Datei erneut geöffnet und geschlossen wird. Das triggert die Ordnerüberwachung Inotify (event: close_write) oder kann mit einem automatischen Zeitplan kollidieren.

Ab Version 1.4.99.8 (Beta) bzw. 1.5.0 (Release) bietet synOCR in der GUI einen Regler um eine Verzögerung (Dateialter in Sekunden) definieren zu können, womit man dieses Problem umgehen kann.

Workaround < v1.5.0:

Bei älteren Versionen hilft nur die Verwendung eines temporären Quellordners (Zielordner des Scanners) und ein kleines Skript, welches alle Dateien erst dann in den synOCR Quellordner verschiebt, wenn sie ein gewisses Alter haben (wenige Minuten).
Hier ein Beispiel:

find "/volume1/documents/tmp_input" -maxdepth 1 -iname "*.pdf" -mmin +1 -type f -exec mv {} "/volume1/documents/synOCR_input" \;

-mmin +1 ist das Filterkriterium dafür, dass die Datei mindestens eine Minute alt sein muss.
Diesen Einzeiler kann man (mit angepassten Pfaden) z.B. jede Minute im Aufgabenplaner laufen lassen.

➡️ Regeln mit Suchbegriffen aus mehreren Wörtern werden nicht erfüllt, obwohl die Wortfolge im Dokument vorhanden ist.

Ursache:

Teilweise erkennt OCR nicht die ursprüngliche Anzahl der Leerzeichen, oder sie ist nicht immer gleich. Wenn man z.B. nach Max Mustermann (mit einem Leerzeichen sucht), aber das OCR den Zwischenraum als mehrere Leerzeichen interpretiert, wird die genaue Wortfolge nicht gefunden.

Abhilfe:

Hier hilft die Verwendung der Funktion Leerzeichen bereinigte Suche (synOCR GUI ➜ Konfiguration ➜ OCR Optionen und Umbenennung). Bei aktivierter Leerzeichenbereinigung werden multiple Leerzeichen auf eins reduziert. Gerade bei RegEx-Suchen kann es hilfreich sein, wenn die genaue Anzahl definiert ist.

Die Einstellung wirkt sich auf alle Suchvorgänge im Dokument aus (Datum, Tags, …). Das Originaldokument wird dabei nicht verändert, sondern lediglich der temporäre Textauszug.

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

04_FAQ (de)

➡️ Wie richte ich die Ordnerüberwachung mit Inotify ein?

➡️ synOCR lässt sich nicht starten ("Die gewünschte Seite kann nicht angezeigt werden")

➡️ Wie führe ich ein Update durch?

➡️ auf der Startseite bleibt die blaue Sanduhr und Dateien werden nicht abgearbeitet

➡️ Warum erhalte ich die Fehlermeldung "Container synOCR in Container Manager wurde unerwartet beendet."?

➡️ auf der Startseite ist ein grüner Haken und Dateien werden nicht abgearbeitet

➡️ wie kann ich meine Konfiguration sichern und wiederherstellen?

➡️ wie kann ich eine bestehende Ordnerstruktur übernehmen?

➡️ können auch Bilder im Quellverzeichnis verarbeitet werden?

Workarround < v1.3.0:

➡️ bekommt man im Dateinamen das Rautezeichen vor dem Tag weg?

➡️ es gibt ein Berechtigungsproblem mit dem Zielordner

➡️ PDF-Dateien lassen sich nicht durchsuchen

➡️ Regel-definierte Zielordner werden nicht genutzt

➡️ was bedeuten diese Fehlermeldungen im Log?

➡️ meine gewünschte OCR-Sprache wird nicht unterstützt

➡️ wie kann ich den Dateizähler zurücksetzen?

➡️ PDF-Dateien werden von synOCR verarbeitet, obwohl der Scanner noch nicht alle Seiten eingescannt hat.

Ursache:

Workaround < v1.5.0:

➡️ Regeln mit Suchbegriffen aus mehreren Wörtern werden nicht erfüllt, obwohl die Wortfolge im Dokument vorhanden ist.

Ursache:

Abhilfe:

Uh oh!

Uh oh!

Uh oh!

Clone this wiki locally

Aktion	Befehl
starten	`/usr/syno/synoman/webman/3rdparty/synOCR/synOCR-start.sh start`
beenden	`/usr/syno/synoman/webman/3rdparty/synOCR/synOCR-start.sh stop`