V tomto článku najdete postup, jakým lze zajistit strojovou čitelnost u skenovaných souborů PDF za účelem zveřejnění smluv v registru smluv. Skenované dokumenty obvykle nemají textovou vrstvou a proto je třeba ji vytvořit pomocí technologie OCR. K tomu můžete využít například aplikace PDF-XChange Editor 8 / Plus nebo PDF-XChange PRO 8 s modulem Enhanced OCR. Níže najdete postup, jak vytvořit textovou vrstvu pro čtení.
Postup
Spusťte aplikaci PDF-XChange Editor 8 s modulem Enhanced OCR (součást PDF-XChange PRO 8) a otevřete skenovaný soubor PDF v menu Soubor > Otevřít.
Na kartě Konverze vyberte položku OCR.
Následně se otevře dialogové okno OCR stránek (Enhanced) s nastavením funkce OCR. Enhanced znamená, že používáte příplatkový modul pro OCR.
Rozsah stránek V této sekci vyberete stránky, na kterých chcete pomocí OCR rozpoznat text. Možnosti rozpoznání Zde můžete nastavit parametry rozpoznání textu.
Možnosti výstupu V této části lze nastavit Typ výstupu po provedení funkce OCR. Pokud chcete jen vytvořit strojově čitelnou vrstvu, tak zvolte tuto volbu:
Pokud si přejete vytvořit zcela nový dokument s rozpoznanou textovou vrstvou, pak zaškrtněte políčko Vytvořit nový dokument. |
Po nastavení všech parametrů rozpoznání textu, stiskněte na tlačítko OK. Tím dojde ke spuštění funkce OCR.
Po provedení funkce OCR, můžete zkusit vyhledat libovolný výraz v PDF pomocí fulltextového vyhledávání. Panel pro vyhledávání najdete v pravém horním rohu pracovní plochy.
Pokud došlo k úspěšnému rozpoznání textové vrstvy (pro strojovou čitelnost), tak lze po provedení OCR v dokumentu vyhledat libovolný výraz.