Skip to content
LlamaPDFLlamaPDF
🔍

PDF na text (OCR)

Extrahujte text zo skenovaných PDF

Naposledy aktualizované:

OCR extrahuje text z obrázkov a PDF. LlamaPDF najprv skontroluje, či PDF už obsahuje označiteľnú textovú vrstvu, a skopíruje ju priamo — rýchlo a bezstratovo. Ak nie (alebo pri obrázkoch), pristúpi k Tesseract.js, ktorý beží úplne vo vašom prehliadači a podporuje 100+ jazykov s voliteľnou auto-detekciou.

Presuňte súbor sem

alebo kliknite pre výber

.PDF.JPG.PNG.WEBP

Max 50 MB · Registrácia nie je potrebná

Váš súbor zostáva na vašom zariadení — nikdy sa nenahrá

Ako extrahovať text z PDF alebo obrázka pomocou OCR

  1. 1

    Nahrajte naskenované PDF alebo obrázkový súbor potiahnutím do poľa vyššie alebo kliknutím. Nástroj podporuje formáty PDF, PNG, JPG, TIFF, BMP a WebP.

  2. 2

    Vyberte jazyk textu vo vašom dokumente pre optimálnu presnosť rozpoznávania. Pre viacjazyčné dokumenty vyberte všetky relevantné jazyky. OCR engine analyzuje celú štruktúru dokumentu vrátane stĺpcov, tabuliek a hlavičiek.

  3. 3

    Kliknite na Extrahovať text na spustenie optického rozpoznávania znakov. Skontrolujte a skopírujte extrahovaný text, alebo si ho stiahnite ako textový súbor. Celé OCR spracovanie prebieha priamo vo vašom prehliadači pomocou pokročilých rozpoznávacích algoritmov — dokumenty sa nikdy nenahrajú na server, čo zaručuje úplné súkromie.

Prečo používať náš OCR nástroj?

Naskenované dokumenty, vyfotené stránky a obrázkové PDF zamykajú cenný text vnútri obrázkov. Nemôžete hľadať, kopírovať, upravovať ani znovu využívať obsah bez predchádzajúceho prevodu na strojovo čitateľný text. Náš OCR nástroj tento problém rieši analýzou vizuálnej štruktúry dokumentu a extrakciou každého slova s vysokou presnosťou. Zvláda všetko od jednostranových účteniek po viacstranové naskenované zmluvy a akademické práce — rozpoznáva tlačený text v desiatkach jazykov, vrátane slovenčiny, a zachováva poradie čítania zložitých rozložení vrátane viacstĺpcových strán a tabuliek. Spracovanie prebieha úplne na vašom zariadení — vaše dáta nikdy neopustia prehliadač, v plnom súlade s GDPR.

Keďže celý proces beží lokálne vo vašom prehliadači, citlivé dokumenty — právne zmluvy, zdravotné záznamy, finančné výkazy — nikdy neopustia vaše zariadenie. Žiadne nahrávanie, žiadne cloudové spracovanie, žiadny prístup tretích strán. Pre jednoduchšie úlohy ako extrakcia textu z jednej fotky ponúka náš nástroj na text z obrázka zjednodušený zážitok. Akonáhle máte extrahovaný text, preveďte ho na dokument pomocou textu na PDF, alebo upravte originálne PDF priamo. Potrebujete pracovať s naskenovanými tabuľkami? Extrahujte text tu a potom použite konvertor JSON-CSV na štrukturovanie dát.

Čo je OCR?

OCR (Optical Character Recognition) je technológia, ktorá prevádza obrázky textu — či z naskenovaných dokumentov, fotografií alebo obrázkových PDF — na strojovo čitateľný, editovateľný text. OCR enginy analyzujú tvary, vzory a priestorové vzťahy znakov v obrázku na identifikáciu písmen, číslic a symbolov. Moderné OCR podporuje stovky jazykov a zvláda širokú škálu písem, veľkostí a rozložení. Je základnou technológiou digitalizácie dokumentov, vytvárania prehľadávateľných PDF, automatizovaného zadávania dát a nástrojov prístupnosti, ktoré čítajú tlačený text nahlas.

Často kladené otázky

Aké jazyky OCR podporuje?

Viac ako 100 jazykov cez Tesseract.js. Vyberte ľubovoľný jazyk z rozbaľovacej ponuky alebo ich skombinujte až tri pre viacjazyčné dokumenty.

Aká presná je extrakcia textu?

Čisté, vysokorozlíšené skeny zvyčajne dosahujú presnosť 90-98%.

Prečo sa 100-stranový PDF niekedy spracuje za sekundu?

Ak má PDF už označiteľnú textovú vrstvu (digitálny, nie skenovaný), text sa vytiahne priamo bez spustenia OCR. Pri skenovaných PDF bez textovej vrstvy sa OCR spúšťa na každej strane.

Súvisiace nástroje