PDF a text (OCR)
Extreu text de PDF escanejats
Última actualització:L'OCR extreu text d'imatges i PDF. LlamaPDF primer comprova si el PDF ja conté una capa de text seleccionable i la copia directament — ràpid i sense pèrdua. Si no n'hi ha (o quan es tracta d'imatges), recorre a Tesseract.js executat íntegrament al teu navegador, amb suport per a 100+ idiomes i detecció automàtica opcional.
Arrossega i deixa anar el fitxer aquí
o fes clic per triar
Màx. 50 MB · No cal registre
El teu fitxer es queda al teu dispositiu — mai es puja
Com extreure text d'un PDF o imatge amb OCR
- 1
Puja el PDF escanejat o fitxer d'imatge arrossegant-lo a la caixa de dalt o fent clic per triar-lo. L'eina admet formats PDF, PNG, JPG, TIFF, BMP i WebP.
- 2
Selecciona l'idioma del text del teu document per a una precisió de reconeixement òptima. Per a documents multilingües, selecciona tots els idiomes aplicables. El motor OCR analitzarà tota l'estructura del document, incloses columnes, taules i encapçalaments.
- 3
Fes clic a Extreure text per executar el reconeixement òptic de caràcters al document. Revisa i copia el text extret, o descarrega'l com a fitxer de text. Tot el processament OCR s'executa directament al teu navegador mitjançant algoritmes de reconeixement avançats — els documents mai es pugen a cap servidor, garantint la privacitat total.
Per què fer servir la nostra eina OCR?
Els documents escanejats, les pàgines fotografiades i els PDF basats en imatge bloquegen text valuós dins de fotografies. No pots cercar, copiar, editar ni reutilitzar aquell contingut sense abans convertir-lo en text llegible per a la màquina. La nostra eina OCR resol això analitzant l'estructura visual del document i extraient cada paraula amb alta precisió. Gestiona des de rebuts d'una sola pàgina fins a contractes escanejats de múltiples pàgines i treballs acadèmics — reconeixent text imprès en dotzenes d'idiomes i preservant l'ordre de lectura de disposicions complexes, incloses pàgines multicolumna i taules.
Com que tot el procés s'executa localment al teu navegador, els documents sensibles — contractes legals, historials mèdics, extractes financers — mai surten del teu dispositiu. No hi ha cap pujada, cap processament al núvol ni cap accés de tercers. Per a tasques més senzilles com extreure text d'una sola foto o captura de pantalla, la nostra eina d'imatge a text ofereix una experiència més àgil. Un cop tinguis el text extret, converteix-lo en un document formal amb el convertidor de text a PDF o edita el PDF original directament. Si necessites treballar amb taules escanejades, extreu el text aquí i després utilitza el convertidor JSON-CSV per estructurar les dades.
Què és l'OCR?
L'OCR (Optical Character Recognition, reconeixement òptic de caràcters) és una tecnologia que converteix imatges de text — ja siguin de documents escanejats, fotografies o PDF basats en imatge — en text editable llegible per la màquina. Els motors OCR analitzen les formes, els patrons i les relacions espacials dels caràcters en una imatge per identificar lletres, números i símbols. L'OCR modern admet centenars d'idiomes i pot gestionar una àmplia gamma de tipus de lletra, mides i disposicions. És la tecnologia fonamental que hi ha darrere la digitalització de documents, la creació de PDF cercables, l'entrada automatitzada de dades i les eines d'accessibilitat que llegeixen text imprès en veu alta.