Skip to content
LlamaPDFLlamaPDF
🔍

PDF a texto (OCR)

Extrae texto de PDFs escaneados

Última actualización:

O OCR extrae texto de imaxes e PDF. LlamaPDF primeiro comproba se o PDF xa contén unha capa de texto seleccionable e cópiaa directamente — rápido e sen perda. De non habela (ou cando son imaxes), recorre a Tesseract.js executado totalmente no teu navegador, con soporte para 100+ idiomas e detección automática opcional.

Arrastra e solta o teu ficheiro aquí

ou fai clic para escoller

.PDF.JPG.PNG.WEBP

Máx. 50 MB · Sen necesidade de rexistro

O teu ficheiro permanece no teu dispositivo — nunca se carga

Como extraer texto dun PDF ou imaxe con OCR

  1. 1

    Sobe o teu PDF escaneado ou ficheiro de imaxe arrastrándoo á caixa de arriba ou facendo clic para buscar. A ferramenta soporta formatos PDF, PNG, JPG, TIFF, BMP e WebP.

  2. 2

    Selecciona o idioma do texto no teu documento para obter a máxima precisión no recoñecemento. Para documentos multilingües, selecciona todos os idiomas aplicables. O motor OCR analizará toda a estrutura do documento, incluíndo columnas, táboas e encabezados.

  3. 3

    Fai clic en Extraer texto para executar o recoñecemento óptico de caracteres no teu documento. Revisa e copia o texto extraído ou descárgao como ficheiro de texto. Todo o procesamento OCR execútase directamente no teu navegador usando algoritmos avanzados de recoñecemento — os teus documentos nunca se soben a ningún servidor, garantindo privacidade completa.

Por que usar a nosa ferramenta OCR?

Os documentos escaneados, as páxinas fotografiadas e os PDFs baseados en imaxes bloquean texto valioso dentro de imaxes. Non podes buscar, copiar, editar ou reutilizar ese contido sen primeiro convertrelo en texto lexible por máquina. A nosa ferramenta OCR resolve isto analizando a estrutura visual do teu documento e extrayendo cada palabra con alta precisión. Xestiona todo, dende recibos de unha soa páxina ata contratos escaneados de varias páxinas e traballos académicos — recoñecendo texto impreso en ducias de idiomas e preservando a orde de lectura de maquetacións complexas incluíndo páxinas de varias columnas e táboas.

Porque todo o proceso se executa localmente no teu navegador, os teus documentos sensibles — contratos legais, historiais médicos, declaracións financeiras — nunca saen do teu dispositivo. Non hai carga, non hai procesamento na nube e non hai acceso de terceiros. Para tarefas máis sinxelas coma extraer texto dunha soa foto ou captura de pantalla, a nosa ferramenta de extracción de texto de imaxes proporciona unha experiencia máis simplificada. Cando teñas o texto extraído, convérteo nun documento adecuado co conversor de texto a PDF, ou edita o PDF orixinal directamente. Se necesitas traballar con táboas escaneadas, extrae o texto aquí e logo usa o conversor de JSON-CSV para estruturar os teus datos.

Que é OCR?

OCR (Optical Character Recognition - Recoñecemento Óptico de Caracteres) é unha tecnoloxía que converte imaxes de texto — sexa de documentos escaneados, fotografías ou PDFs baseados en imaxes — en texto lexible por máquina e editable. Os motores OCR analiza as formas, patróns e relacións espaciais dos caracteres nunha imaxe para identificar letras, números e símbolos. O OCR moderno soporta centos de idiomas e pode xestionar un amplo rango de fontes, tamaños e maquetacións. É a tecnoloxía fundamental detrás da dixitalización de documentos, creación de PDFs buscables, entrada de datos automatizada e ferramentas de accesibilidade que len texto impreso en voz alta.

Preguntas frecuentes

Que linguas admite o OCR?

Máis de 100 linguas mediante Tesseract.js. Escolle calquera lingua no despregable ou combina ata 3 para documentos con linguas mesturadas.

Que precisión ten a extracción de texto?

Os escaneos claros de alta resolución adoitan acadar unha precisión do 90-98%.

Por que ás veces remata nun segundo nun PDF de 100 páxinas?

Se o PDF xa ten unha capa de texto seleccionable (nativo, non escaneado), o texto extráese directamente en lugar de executar OCR. Nos PDFs escaneados sen capa de texto, o OCR execútase en cada páxina.

Ferramentas relacionadas