Skip to content
LlamaPDFLlamaPDF
🔍

PDF sang văn bản (OCR)

Trích xuất văn bản từ PDF quét

Cập nhật lần cuối:

OCR trích xuất văn bản từ ảnh và PDF. LlamaPDF trước tiên kiểm tra xem PDF đã có sẵn lớp văn bản bôi đen được hay chưa rồi sao chép trực tiếp — nhanh và không mất dữ liệu. Nếu không (hoặc với ảnh), công cụ chuyển sang Tesseract.js chạy hoàn toàn trong trình duyệt của bạn, hỗ trợ 100+ ngôn ngữ với tùy chọn tự nhận diện.

Kéo & thả tệp vào đây

hoặc nhấn để chọn

.PDF.JPG.PNG.WEBP

Tối đa 50 MB · Không cần đăng ký

Tệp của bạn ở lại trên thiết bị — không bao giờ tải lên

Cách dùng OCR đọc văn bản từ ảnh

  1. 1

    Tải lên ảnh hoặc PDF có chứa văn bản

  2. 2

    Chọn ngôn ngữ của văn bản trong tài liệu

  3. 3

    Nhấp 'Đọc văn bản' và sao chép hoặc tải về kết quả

Tại sao dùng OCR của LlamaPDF

Công nghệ OCR tiên tiến của LlamaPDF chuyển ảnh và PDF đã scan thành văn bản có thể chỉnh sửa, hỗ trợ nhiều ngôn ngữ bao gồm tiếng Việt. Miễn phí, nhanh, hoạt động trong trình duyệt.

Sau khi trích xuất văn bản, hãy chuyển văn bản sang PDF hoặc chỉnh sửa PDF ngay.

OCR là gì?

OCR (Optical Character Recognition) là công nghệ nhận dạng ký tự quang học, chuyển đổi ảnh văn bản thành dữ liệu số có thể chỉnh sửa và tìm kiếm. Ứng dụng trong số hóa tài liệu, scan và xử lý hình ảnh có văn bản.

Câu hỏi thường gặp

OCR hỗ trợ những ngôn ngữ nào?

Hơn 100 ngôn ngữ qua Tesseract.js. Chọn bất kỳ ngôn ngữ nào từ danh sách, hoặc kết hợp tối đa 3 ngôn ngữ cho tài liệu đa ngôn ngữ.

Trích xuất văn bản chính xác đến mức nào?

Bản quét rõ ràng, độ phân giải cao thường đạt độ chính xác 90–98%.

Vì sao đôi khi công cụ hoàn tất PDF 100 trang chỉ trong một giây?

Nếu PDF đã có sẵn lớp văn bản có thể chọn (PDF gốc, không phải bản quét), văn bản được trích xuất trực tiếp mà không chạy OCR. Với PDF quét không có lớp văn bản, OCR được chạy đầy đủ trên mỗi trang.

Công cụ liên quan