Skip to content
LlamaPDFLlamaPDF
🔍

PDF a text (OCR)

Extreu text de PDF escanejats

Última actualització:

L'OCR extreu text d'imatges i PDF. LlamaPDF primer comprova si el PDF ja conté una capa de text seleccionable i la copia directament — ràpid i sense pèrdua. Si no n'hi ha (o quan es tracta d'imatges), recorre a Tesseract.js executat íntegrament al teu navegador, amb suport per a 100+ idiomes i detecció automàtica opcional.

Arrossega i deixa anar el fitxer aquí

o fes clic per triar

.PDF.JPG.PNG.WEBP

Màx. 50 MB · No cal registre

El teu fitxer es queda al teu dispositiu — mai es puja

Com extreure text d'un PDF o imatge amb OCR

  1. 1

    Puja el PDF escanejat o fitxer d'imatge arrossegant-lo a la caixa de dalt o fent clic per triar-lo. L'eina admet formats PDF, PNG, JPG, TIFF, BMP i WebP.

  2. 2

    Selecciona l'idioma del text del teu document per a una precisió de reconeixement òptima. Per a documents multilingües, selecciona tots els idiomes aplicables. El motor OCR analitzarà tota l'estructura del document, incloses columnes, taules i encapçalaments.

  3. 3

    Fes clic a Extreure text per executar el reconeixement òptic de caràcters al document. Revisa i copia el text extret, o descarrega'l com a fitxer de text. Tot el processament OCR s'executa directament al teu navegador mitjançant algoritmes de reconeixement avançats — els documents mai es pugen a cap servidor, garantint la privacitat total.

Per què fer servir la nostra eina OCR?

Els documents escanejats, les pàgines fotografiades i els PDF basats en imatge bloquegen text valuós dins de fotografies. No pots cercar, copiar, editar ni reutilitzar aquell contingut sense abans convertir-lo en text llegible per a la màquina. La nostra eina OCR resol això analitzant l'estructura visual del document i extraient cada paraula amb alta precisió. Gestiona des de rebuts d'una sola pàgina fins a contractes escanejats de múltiples pàgines i treballs acadèmics — reconeixent text imprès en dotzenes d'idiomes i preservant l'ordre de lectura de disposicions complexes, incloses pàgines multicolumna i taules.

Com que tot el procés s'executa localment al teu navegador, els documents sensibles — contractes legals, historials mèdics, extractes financers — mai surten del teu dispositiu. No hi ha cap pujada, cap processament al núvol ni cap accés de tercers. Per a tasques més senzilles com extreure text d'una sola foto o captura de pantalla, la nostra eina d'imatge a text ofereix una experiència més àgil. Un cop tinguis el text extret, converteix-lo en un document formal amb el convertidor de text a PDF o edita el PDF original directament. Si necessites treballar amb taules escanejades, extreu el text aquí i després utilitza el convertidor JSON-CSV per estructurar les dades.

Què és l'OCR?

L'OCR (Optical Character Recognition, reconeixement òptic de caràcters) és una tecnologia que converteix imatges de text — ja siguin de documents escanejats, fotografies o PDF basats en imatge — en text editable llegible per la màquina. Els motors OCR analitzen les formes, els patrons i les relacions espacials dels caràcters en una imatge per identificar lletres, números i símbols. L'OCR modern admet centenars d'idiomes i pot gestionar una àmplia gamma de tipus de lletra, mides i disposicions. És la tecnologia fonamental que hi ha darrere la digitalització de documents, la creació de PDF cercables, l'entrada automatitzada de dades i les eines d'accessibilitat que llegeixen text imprès en veu alta.

Preguntes freqüents

Quins idiomes admet l'OCR?

Més de 100 idiomes a través de Tesseract.js. Tria qualsevol idioma al desplegable o combina'n fins a 3 per a documents amb idiomes mixtos.

Quina precisió té l'extracció de text?

Els escanejats clars i d'alta resolució solen assolir una precisió del 90-98%.

Com és que de vegades acaba en un segon per a un PDF de 100 pàgines?

Si el PDF ja té una capa de text seleccionable (natiu, no escanejat), el text s'extreu directament en lloc d'executar l'OCR. Per als PDF escanejats sense capa de text, es fa OCR complet a cada pàgina.

Eines relacionades