OCR unter Linux | optimierter Workflow

Nach mehreren Jahren der Suche nach einer guten OCR-Software unter GNU/Linux bin ich nun auf ein Programm gestoßen, dass endlich einen akzeptablen Workflow hat. Wie immer unter Linux laufen mehrere Programme zusammen. Ich nutze:

Im Prinzip habe ich das Script xsane2tess aus dem von der französischen Originalseite auf meinem System installiert und an einigen Stellen angepasst.

Anpassungen

Das temporäre Verzeichnis

Aus welchem Grund soll ich ein weiteres Verzeichnis in mein Homeverzeichnis aufnehmen, wenn ich doch schon ein systemweites tmp habe? Also in Zeile 17 die Tilde (~)gelöscht.

ALT: TEMP_DIR=~/tmp/
NEU: TEMP_DIR=/tmp/

Ab in die Zwischenablage

Es ist zwar schön, wenn xsane die Texte abspeichert, aber mach braucht den Text in der Regel unmittelbar. Man will nicht erst noch einen Texteditor öffnen und dann das Ganze in die Zwischenablage kopieren, um es dann in das Dokument einzufügen, in dem man es braucht. Daher habe ich eine Zeile ans Ende des Scripts gepackt, die den gescannten Text in die Zwischenablage legt und dann sofort eingefügt werden kann. Folgende Zeilen einfach ans Ende des Scripts kopieren.

# put text into buffer
cat „$FILE_OUT“ | xclip

Download

Ihr könnt Euch auch die modifizierte Datei hier herunterladen und dann mit der originalen Datei überspielen, bzw. nach der Anleitung im Ubuntuusers Wiki installieren. Vergesst aber nicht, für mein Script noch das Programm xclip auf Eurem System zu installieren. Unter (k)ubuntu:

sudo apt-get install xclip

Feedback natürlich immer erwünscht!