Ach, die guten Vorsätze fürs neue Jahr. Ich habe endlich einen Workflow für die automatische Texterkennung von gescannten PDFs.

Mit Hazel werden einfach alle PDfs ohne den Tag “ocr” durch ein bash script gejagt und anschliessend der tag ans pdf gehängt.

ocrmypdf -l deu+eng --output-type pdf --skip-text $1 $1

Das script benutzt OCRMyPDF (einfach via homebrew installieren) und speichert den text direkt im gleichen PDF ab.

In Hazel sieht das dann so aus: