Skip to content
LlamaPDFLlamaPDF
🔍

PDF na text (OCR)

Extrahujte text z naskenovaných PDF

Naposledy aktualizováno:

OCR online vytahuje text z obrázků a PDF souborů. LlamaPDF nejprve zkontroluje, zda PDF už obsahuje označitelnou textovou vrstvu, a tu zkopíruje přímo — rychle a bezeztrátově. Pokud ne (nebo u obrázků), spustí Tesseract.js kompletně ve vašem prohlížeči s podporou 100+ jazyků a volitelnou automatickou detekcí.

Přetáhněte soubor sem

nebo klikněte pro výběr

.PDF.JPG.PNG.WEBP

Max 50 MB · Bez registrace

Váš soubor zůstává na vašem zařízení — nikdy se nenahrává

Jak extrahovat text z PDF nebo obrázku pomocí OCR

  1. 1

    Nahrajte naskenované PDF nebo obrázkový soubor přetažením do pole výše nebo kliknutím. Nástroj podporuje formáty PDF, PNG, JPG, TIFF, BMP a WebP.

  2. 2

    Vyberte jazyk textu ve vašem dokumentu pro optimální přesnost rozpoznávání. Pro vícejazyčné dokumenty vyberte všechny relevantní jazyky. OCR engine analyzuje celou strukturu dokumentu včetně sloupců, tabulek a záhlaví.

  3. 3

    Klikněte na Extrahovat text pro spuštění optického rozpoznávání znaků. Zkontrolujte a zkopírujte extrahovaný text, nebo si jej stáhněte jako textový soubor. Veškeré OCR zpracování probíhá přímo ve vašem prohlížeči pomocí pokročilých rozpoznávacích algoritmů — dokumenty se nikdy nenahrávají na server, což zajišťuje naprosté soukromí.

Proč používat náš OCR nástroj?

Naskenované dokumenty, vyfocené stránky a obrázkové PDF zamykají cenný text uvnitř obrázků. Nemůžete hledat, kopírovat, upravovat ani znovu využívat obsah bez předchozího převodu na strojově čitelný text. Náš OCR nástroj tento problém řeší analýzou vizuální struktury dokumentu a extrakcí každého slova s vysokou přesností. Zvládá vše od jednostránkových účtenek po vícestránkové naskenované smlouvy a akademické práce — rozpoznává tištěný text v desítkách jazyků, včetně češtiny, a zachovává pořadí čtení složitých rozvržení včetně vícesloupcových stránek a tabulek. Zpracování probíhá zcela na vašem zařízení — vaše data nikdy neopustí prohlížeč, v plném souladu s GDPR.

Protože celý proces běží lokálně ve vašem prohlížeči, citlivé dokumenty — právní smlouvy, zdravotní záznamy, finanční výkazy — nikdy neopustí vaše zařízení. Žádné nahrávání, žádné cloudové zpracování, žádný přístup třetích stran. Pro jednodušší úkoly jako extrakce textu z jedné fotky nabízí náš nástroj pro text z obrázku zjednodušený zážitek. Jakmile máte extrahovaný text, převeďte jej na dokument pomocí textu na PDF, nebo upravte originální PDF přímo. Potřebujete pracovat s naskenovanými tabulkami? Extrahujte text zde a poté použijte konvertor JSON-CSV k strukturování dat.

Co je OCR?

OCR (Optical Character Recognition) je technologie, která převádí obrázky textu — ať z naskenovaných dokumentů, fotografií nebo obrázkových PDF — na strojově čitelný, editovatelný text. OCR enginy analyzují tvary, vzory a prostorové vztahy znaků v obrázku k identifikaci písmen, číslic a symbolů. Moderní OCR podporuje stovky jazyků a zvládá širokou škálu písem, velikostí a rozvržení. Je základní technologií digitalizace dokumentů, vytváření prohledávatelných PDF, automatizovaného zadávání dat a nástrojů přístupnosti, které čtou tištěný text nahlas.

Často kladené otázky

Jaké jazyky OCR podporuje?

Více než 100 jazyků přes Tesseract.js. Vyberte libovolný jazyk z rozbalovací nabídky nebo zkombinujte až 3 pro vícejazyčné dokumenty.

Jak přesná je extrakce textu?

Čisté, vysokorozlišené skeny obvykle dosahují 90–98% přesnosti.

Proč se 100stránkové PDF někdy zpracuje za vteřinu?

Pokud PDF již obsahuje vybíratelnou textovou vrstvu (digitální, ne naskenované), text se vytáhne přímo bez spuštění OCR. U naskenovaných PDF bez textové vrstvy se OCR spustí na každé stránce.

Související nástroje