Skip to content
LlamaPDFLlamaPDF
🔍

PDF ke Teks (OCR)

Ekstrak teks daripada PDF imbasan

Kemas kini terakhir:

OCR mengekstrak teks daripada imej dan PDF. LlamaPDF mula-mula menyemak sama ada PDF sudah mengandungi lapisan teks yang boleh dipilih dan menyalinnya terus — cepat dan tanpa kehilangan. Jika tidak (atau untuk imej), ia kembali kepada Tesseract.js yang berjalan sepenuhnya dalam pelayar anda, menyokong 100+ bahasa dengan pengesanan automatik pilihan.

Seret & lepas fail anda di sini

atau klik untuk memilih

.PDF.JPG.PNG.WEBP

Maks 50 MB · Tiada pendaftaran diperlukan

Fail anda kekal dalam peranti anda — tidak dimuat naik

Cara mengekstrak teks daripada PDF atau imej dengan OCR

  1. 1

    Muat naik PDF imbasan atau fail imej anda dengan menyeretnya ke kawasan di atas atau klik untuk memilih. Alat ini menyokong format PDF, PNG, JPG, TIFF, BMP, dan WebP.

  2. 2

    Pilih bahasa teks dalam dokumen anda untuk ketepatan pengecaman optimum. Untuk dokumen berbilang bahasa, pilih semua bahasa yang berkenaan. Enjin OCR akan menganalisis keseluruhan struktur dokumen, termasuk lajur, jadual, dan pengepala.

  3. 3

    Klik Ekstrak Teks untuk menjalankan pengecaman aksara optik pada dokumen anda. Semak dan salin teks yang diekstrak, atau muat turun sebagai fail teks. Semua pemprosesan OCR berjalan secara langsung dalam pelayar menggunakan algoritma pengecaman lanjutan — dokumen anda tidak pernah dimuat naik ke mana-mana pelayan, memastikan privasi sepenuhnya.

Mengapa menggunakan alat OCR kami?

Dokumen imbasan, halaman bergambar, dan PDF berasaskan imej mengunci teks berharga di dalam gambar. Anda tidak boleh mencari, menyalin, menyunting, atau menggunakan semula kandungan tersebut tanpa terlebih dahulu menukarnya kepada teks boleh baca mesin. Alat OCR kami menyelesaikan ini dengan menganalisis struktur visual dokumen anda dan mengekstrak setiap perkataan dengan ketepatan tinggi. Ia mengendalikan semua daripada resit satu halaman hingga kontrak imbasan berbilang halaman — mengecam teks bercetak merentasi puluhan bahasa dan mengekalkan susunan bacaan tata letak kompleks termasuk halaman berbilang lajur dan jadual.

Oleh kerana keseluruhan proses berjalan secara setempat dalam pelayar, dokumen sensitif anda — kontrak undang-undang, rekod perubatan, penyata kewangan — tidak pernah meninggalkan peranti. Tiada muat naik, tiada pemprosesan awan, dan tiada akses pihak ketiga. Untuk tugas lebih ringkas seperti mengekstrak teks daripada satu foto atau tangkap layar, alat imej ke teks kami menyediakan pengalaman yang lebih mudah. Setelah mendapat teks yang diekstrak, tukar menjadi dokumen dengan penukar teks ke PDF, atau sunting PDF asal secara langsung. Jika perlu bekerja dengan jadual imbasan, ekstrak teks di sini kemudian gunakan penukar JSON-CSV untuk menyusun data anda.

Apakah OCR?

OCR (Optical Character Recognition) ialah teknologi yang menukar imej teks — sama ada daripada dokumen imbasan, gambar foto, atau PDF berasaskan imej — kepada teks boleh baca mesin dan boleh disunting. Enjin OCR menganalisis bentuk, corak, dan hubungan ruang aksara dalam imej untuk mengenal pasti huruf, nombor, dan simbol. OCR moden menyokong ratusan bahasa dan boleh mengendalikan pelbagai fon, saiz, dan tata letak. Ia ialah teknologi asas di sebalik pendigitalan dokumen, penciptaan PDF boleh cari, kemasukan data automatik, dan alat kebolehcapaian yang membaca teks bercetak dengan kuat.

Soalan Lazim

Apakah bahasa yang disokong OCR?

Lebih 100 bahasa melalui Tesseract.js. Pilih mana-mana bahasa dari menu, atau gabungkan sehingga 3 bahasa untuk dokumen bahasa campuran.

Seberapa tepat pengekstrakan teks?

Imbasan yang jelas dan beresolusi tinggi biasanya mencapai ketepatan 90–98%.

Mengapakah kadangkala PDF 100 halaman boleh siap dalam satu saat?

Jika PDF sudah mempunyai lapisan teks yang boleh dipilih (asli, bukan hasil imbasan), teks diekstrak terus tanpa menjalankan OCR. Untuk PDF imbasan tanpa lapisan teks, OCR dijalankan penuh pada setiap halaman.

Alatan Berkaitan