OCR unter Linux | optimierter Workflow
Nach mehreren Jahren der Suche nach einer guten OCR-Software unter GNU/Linux bin ich nun auf ein Programm gestoßen, dass endlich einen akzeptablen Workflow hat. Wie immer unter Linux laufen mehrere Programme zusammen. Ich nutze:
Im Prinzip habe ich das Script xsane2tess aus dem von der französischen Originalseite auf meinem System installiert und an einigen Stellen angepasst.
Anpassungen
Das temporäre Verzeichnis
Aus welchem Grund soll ich ein weiteres Verzeichnis in mein Homeverzeichnis aufnehmen, wenn ich doch schon ein systemweites tmp habe? Also in Zeile 17 die Tilde (~)gelöscht.
ALT: TEMP_DIR=~/tmp/
NEU: TEMP_DIR=/tmp/
Ab in die Zwischenablage
Es ist zwar schön, wenn xsane die Texte abspeichert, aber mach braucht den Text in der Regel unmittelbar. Man will nicht erst noch einen Texteditor öffnen und dann das Ganze in die Zwischenablage kopieren, um es dann in das Dokument einzufügen, in dem man es braucht. Daher habe ich eine Zeile ans Ende des Scripts gepackt, die den gescannten Text in die Zwischenablage legt und dann sofort eingefügt werden kann. Folgende Zeilen einfach ans Ende des Scripts kopieren.
# put text into buffercat „$FILE_OUT“ | xclip
Download
Ihr könnt Euch auch die modifizierte Datei hier herunterladen und dann mit der originalen Datei überspielen, bzw. nach der Anleitung im Ubuntuusers Wiki installieren. Vergesst aber nicht, für mein Script noch das Programm xclip auf Eurem System zu installieren. Unter (k)ubuntu:
sudo apt-get install xclip
Feedback natürlich immer erwünscht!