🔍

PDF ਤੋਂ ਟੈਕਸਟ (OCR)

ਸਕੈਨ ਕੀਤੇ PDF ਤੋਂ ਟੈਕਸਟ ਕੱਢੋ

ਆਖਰੀ ਅੱਪਡੇਟ: 14 ਮਈ 2026

OCR ਚਿੱਤਰਾਂ ਅਤੇ PDF ਤੋਂ ਟੈਕਸਟ ਕੱਢਦਾ ਹੈ। LlamaPDF ਪਹਿਲਾਂ ਜਾਂਚ ਕਰਦਾ ਹੈ ਕਿ ਕੀ PDF ਵਿੱਚ ਪਹਿਲਾਂ ਹੀ ਚੋਣਯੋਗ ਟੈਕਸਟ ਲੇਅਰ ਹੈ ਅਤੇ ਇਸਨੂੰ ਸਿੱਧਾ ਕਾਪੀ ਕਰਦਾ ਹੈ — ਤੇਜ਼ ਅਤੇ ਨੁਕਸਾਨ-ਰਹਿਤ। ਜੇ ਨਹੀਂ (ਜਾਂ ਚਿੱਤਰਾਂ ਲਈ), ਇਹ ਤੁਹਾਡੇ ਬ੍ਰਾਊਜ਼ਰ ਵਿੱਚ ਪੂਰੀ ਤਰ੍ਹਾਂ ਚੱਲਦੇ Tesseract.js 'ਤੇ ਵਾਪਸ ਆਉਂਦਾ ਹੈ, ਵਿਕਲਪਿਕ ਆਟੋ-ਡਿਟੈਕਸ਼ਨ ਨਾਲ 100+ ਭਾਸ਼ਾਵਾਂ ਨੂੰ ਸਮਰਥਨ ਦਿੰਦਾ ਹੈ।

ਆਪਣੀ ਫਾਈਲ ਇੱਥੇ ਡਰੈਗ ਅਤੇ ਡ੍ਰਾਪ ਕਰੋ

ਜਾਂ ਚੁਣਨ ਲਈ ਕਲਿੱਕ ਕਰੋ

.PDF.JPG.PNG.WEBP

ਵੱਧ ਤੋਂ ਵੱਧ 50 MB · ਰਜਿਸਟ੍ਰੇਸ਼ਨ ਦੀ ਲੋੜ ਨਹੀਂ

ਤੁਹਾਡੀ ਫਾਈਲ ਤੁਹਾਡੀ ਡਿਵਾਈਸ 'ਤੇ ਰਹਿੰਦੀ ਹੈ — ਕਦੇ ਅੱਪਲੋਡ ਨਹੀਂ ਹੁੰਦੀ

OCR ਦੇ ਨਾਲ PDF ਜਾਂ ਤਸਵੀਰ ਤੋਂ ਟੈਕਸਟ ਕਿਵੇਂ ਨਿਕਾਲੀਏ

1
ਆਪਣੀ ਸਕੈਨ ਕੀਤੀ PDF ਜਾਂ ਇਮੇਜ ਫਾਈਲ ਨੂੰ ਸਪੱਸ਼ਟ ਬਾਕਸ ਵਿੱਚ ਖਿੱਚ ਕੇ ਅੱਪਲੋਡ ਕਰੋ ਜਾਂ ਬ੍ਰਾਊਜ਼ ਕਰਨ ਲਈ ਕਲਿਕ ਕਰੋ। ਟੂਲ PDF, PNG, JPG, TIFF, BMP ਅਤੇ WebP ਫਾਰਮੈਟਾਂ ਨੂੰ ਸਮਰਥਨ ਕਰਦਾ ਹੈ।
2
ਆਪਣੇ ਦਸਤਾਵੇਜ਼ ਵਿੱਚ ਟੈਕਸਟ ਦੀ ਭਾਸ਼ਾ ਚੁਣੋ ਸਰਵਾਧਿਕ ਪਛਾਣ ਦਾ ਸਟੀਕਤਾ ਲਈ। ਮਲਟੀ-ਲੈਂਗਵੇਜ ਦਸਤਾਵੇਜ਼ਾਂ ਲਈ, ਸਭ ਲਾਗੂ ਭਾਸ਼ਾਵਾਂ ਨੂੰ ਚੁਣੋ। OCR ਇੰਜਨ ਪੂਰੀ ਡੋਕੁਮੇਂਟ ਦੀ ਸੰਰਚਨਾ ਦਾ ਵਿਸ਼ਲੇਸ਼ਣ ਕਰੇਗਾ, ਸਤੰਮਾਂ, ਟੇਬਲਾਂ ਅਤੇ ਸਿਰਸ਼ਾਂ ਸਮੇਤ।
3
ਆਪਣੇ ਦਸਤਾਵੇਜ਼ 'ਤੇ ਆਪਟੀਕਲ ਚਰਿਤ ਸਵੀਕਾਰ ਕਰਨ ਲਈ ਟੈਕਸਟ ਕੱਢਣ ਲਈ ਕਲਿਕ ਕਰੋ। ਨਿਕਾਲੀ ਗਈ ਟੈਕਸਟ ਦੀ ਜਾਂਚ ਕਰੋ ਅਤੇ ਕਾਪੀ ਕਰੋ, ਜਾਂ ਇਸ ਨੂੰ ਟੈਕਸਟ ਫਾਈਲ ਦੇ ਤੌਰ ਤੇ ਡਾਊਨਲੋਡ ਕਰੋ। ਸਭ OCR ਪ੍ਰਕ੍ਰਿਆ ਆਪਣੇ ਬ੍ਰਾਊਜ਼ਰ ਵਿੱਚ ਮਾਡਨ ਪਛਾਣ ਐਲਗੋਰਿਦਮ ਵਰਤਕੇ ਚਲਦਾ ਹੈ — ਤੁਹਾਡੇ ਦਸਤਾਵੇਜ਼ ਕਦੇ ਕਿਸੇ ਸਰਵਰ ਨੂੰ ਨਹੀਂ ਅੱਪ ਲੋਡ ਕੀਤੇ ਜਾਂਦੇ, ਸੰਪੂਰਨ ਗੋਪਨੀਅਤਾ ਯਕੀਨੀ ਬਣਾਉਂਦੇ ਹੋਏ।

ਅਸਾਡੇ OCR ਟੂਲ ਨੂੰ ਕਿਉਂ ਵਰਤੋ?

ਸਕੈਨ ਕੀਤੇ ਦਸਤਾਵੇਜ਼, ਫ਼ੋਟੋ ਕੀਤੇ ਪੰਨੇ ਅਤੇ ਇਮੇਜ-ਆਧਾਰਿਤ PDFs ਬਹੁਮੁੱਲੀ ਟੈਕਸਟ ਨੂੰ ਤਸਵੀਰਾਂ ਵਿੱਚ ਬੰਦ ਕਰ ਦਿੰਦੀ ਹਨ। ਤੁਸੀਂ ਸੁੰਤਲਨ, ਨਕਲ, ਸੰਪਾਦਿਤ, ਜਾਂ ਮੁੜ ਵਰਤ ਨਹੀਂ ਕਰ ਸਕਦੇ, ਪਹਿਲਾਂ ਇਸ ਮੁਸ਼ਕਲ ਟੈਕਸਟ ਨੂੰ ਮੋਸ਼ਿਨ-ਪੜ੍ਹਨਯੋਗ ਟੈਕਸਟ ਵਿੱਚ ਤਬਦੀਲ ਕੀਤੇ ਬਿਨਾਂ। ਅਸਾਡਾ OCR ਟੂਲ ਇਸ ਨੂੰ ਆਪਣੇ ਦਸਤਾਵੇਜ਼ ਦੀ ਦ੍ਰਿਸ਼ ਬਨਾਵਟ ਦਾ ਵਿਸ਼ਲੇਸ਼ਣ ਕਰਕੇ ਅਤੇ ਸਟੀਕਤਾ ਨਾਲ ਹਰ ਸ਼ਬਦ ਨਿਕਾਲਕੇ ਸਮਾਧਾਨ ਕਰਦਾ ਹੈ। ਇਹ ਸਿੰਗਲ-ਪੇਜ ਰਸੀਦਾਂ ਤੋਂ ਮਲਟੀ-ਪੇਜ ਸਕੈਨ ਕੀਤੀ ਕਰਾਰ ਤੱਕ ਸਭ ਕੁਝ ਸੰਭਾਲਦਾ ਹੈ, ਅਕਾ‍ਡਮਿਕ ਪੇਪਰ ਅਤੇ ਸਾਡਸਨ ਲੇਆਉਟ ਸਮੇਤ ਬਸ ਪ੍ਰਿੰਟ ਕੀਤਾ ਟੈਕਸਟ ਦਸਾਂ ਭਾਸ਼ਾਵਾਂ ਸੰਗ ਪਛਾਣਨ ਅਤੇ ਮਲਟੀ-ਕਾਲਮ ਪੰਨਿਆਂ ਅਤੇ ਟੇਬਲਾਂ ਸਮੇਤ ਜਟਿਲ ਲੇਆਉਟ ਦੀ ਪੜ੍ਹਨ ਕ੍ਰਮ ਨੂੰ ਸਤਿਜਾ ਰੱਖਦੇ ਹਨ।

ਪੂਰਾ ਪ੍ਰਮਾਣ ਸਥਾਨਿਕ ਤੌਰ ਤੇ ਆਪਣੇ ਬ੍ਰਾਊਜ਼ਰ ਵਿੱਚ ਚਲਦਾ ਹੈ, ਤੁਹਾਡੇ ਸੰਵੇਦਨਸ਼ੀਲ ਡਾਕੂਮੈਂਟਾਂ — ਲਾਨੂਨੀ ਕਰਾਰ, ਮੈਡਿਕਲ ਰਿਕਾਰਡ, ਵਿੱਤੀ ਵਿਉਂ — ਆਪਣੀ ਡਿਵਾਈਸ ਤੋਂ ਕਦੇ ਨਹੀਂ ਛੱਡਦੀ। ਕੋਈ ਅੱਪਲੋਡ ਨਹੀਂ, ਕੋਈ ਕਲਾਉਡ ਪ੍ਰਾਂਸਸਿੰਗ ਨਹੀਂ, ਅਤੇ ਕੋਈ ਤੀਜੀ ਧਿਕਾਨੀ ਬਿਟ ਨਹੀਂ। ਸਧਾਰਨ ਕਾਮ ਲਈ ਹੋਰ ਜਿਵੇਂ ਇਕ ਫ਼ੋਟੋ ਜਾਂ ਸਕ੍ਰੀਨਸ਼ੌਟ ਤੋਂ ਟੈਕਸਟ ਨਿਕਾਲਣ, ਅਸਾਡੇ image-ਟੋ-text ਟੂਲ ਸਰਲ ਅਨੁਭਵ ਦਿੰਦਾ ਹੈ। ਜਦ ਤੁਹਾਡੇ ਕੋਲ ਨਿਕਾਲੀ ਗਈ ਟੈਕਸਟ ਹੋ, ਟੈਕਸਟ ਤੋ PDF ਕਨਵਰਟਰ ਨਾਲ ਇਸ ਨੂੰ ਪ੍ਰੌਪਰ ਡਾਕੂਮੈਂਟ ਵਿੱਚ ਤਬਦੀਲ ਕਰੋ, ਜਾਂ PDF ਸੰਪਾਦਨ ਕਰਕੇ ਸਿੱਧੀਆਂ ਜਾਗੀ। ਜੇ ਤੁਹਾਨੂੰ ਸਕੈਨ ਕੀਤੀ ਟੇਬਲਾਂ ਦੇ ਨਾਲ ਕਾਮ ਕਰਨਾ ਪਵੇ, ਟੈਕਸਟ ਨੂੰ ਇੱਥੇ ਨਿਕਾਲੋ ਅਤੇ ਫਿਰ JSON-CSV ਕਨਵਰਟਰ ਨਾਲ ਆਪਣੇ ਡੇਟਾ ਨੂੰ ਬਨਾਓ।

OCR ਕੀ ਹੈ?

OCR (Optical Character Recognition) ਇਕ ਪ੍ਰਮਾਣ ਹੈ ਜੋ ਪਾਠ ਦੀ ਤਸਵੀਰਾਂ — ਭਾਵ ਸਕੈਨ ਕੀਤੇ ਦਸਤਾਵੇਜ਼, ਫ਼ੋਟੋਗ੍ਰਾਫ, ਜਾਂ ਇਮੇਜ-ਆਧਾਰਿਤ PDFs — ਨੂੰ ਮਸ਼ੀਨ-ਪੜ੍ਹਨਯੋਗ, ਸੰਪਾਦਨ ਯੋਗ ਪਾਠ ਵਿੱਚ ਤਬਦੀਲ ਕਰਦਾ ਹੈ। OCR ਇੰਜਣ ਚਰਿਤ ਦੀ ਸ਼ਕਲਾਂ, ਪੈਟਰਨਾਂ ਅਤੇ ਤਸਵੀਰ ਵਿੱਚ ਅੱਖਰਾਂ ਦੇ ਸਥਾਨਿਕ ਸਬੰਧਾਂ ਦਾ ਵਿਸ਼ਲੇਸ਼ਣ ਕਰਕੇ ਅੱਖਰਾਂ, ਸੰਖਿਆਵਾਂ ਅਤੇ ਪ੍ਰਤੀਕਾਂ ਦੀ ਪਛਾਣ ਕਰੋ। ਆਧੁਨਿਕ OCR ਸੈਂਬਰ ਭਾਸ਼ਾਵਾਂ ਨੂੰ ਸਮਰਥਨ ਕਰਦਾ ਹੈ ਅਤੇ ਵਿਸ਼ਾਲ ਫੌਂਟਾਂ, ਆਕਾਰਾਂ ਅਤੇ ਲੇਆਉਟਾਂ ਦੀ ਸ਼ਨਾਖਤ ਕਰ ਸਕਦਾ ਹੈ। ਇਹ ਡਾਕੂਮੈਂਟ ਡਿਜੀਟਲਾਈਜ਼ੇਸ਼ਨ, ਖੋਜ ਯੋਗ PDF ਵਿਵਸਥਾ, ਸਵੈਚੁੰਬਕ ਡੇਟਾ ਪ੍ਰਵਿਸ਼ਟੀ ਅਤੇ ਅਕਿਲਤਾ ਪ੍ਰਮਾਣ ਜਾਂ ਜੋ ਮੁਦ੍ਰਿਤ ਪਾਠ ਵਾਂਚਣ ਲਈ ਕਾਲ ਕਰਦਾ ਹੈ, ਬੁਨਿਆਦੀ ਪ੍ਰਮਾਣ ਹੈ।

ਅਕਸਰ ਪੁੱਛੇ ਜਾਣ ਵਾਲੇ ਸਵਾਲ

OCR ਕਿਹੜੀਆਂ ਭਾਸ਼ਾਵਾਂ ਸਮਰਥਨ ਕਰਦਾ ਹੈ?

Tesseract.js ਰਾਹੀਂ 100 ਤੋਂ ਵੱਧ ਭਾਸ਼ਾਵਾਂ। ਡ੍ਰਾਪਡਾਊਨ ਵਿੱਚੋਂ ਕੋਈ ਵੀ ਭਾਸ਼ਾ ਚੁਣੋ, ਜਾਂ ਮਿਸ਼ਰਤ-ਭਾਸ਼ਾ ਦਸਤਾਵੇਜ਼ਾਂ ਲਈ 3 ਭਾਸ਼ਾਵਾਂ ਤੱਕ ਇਕੱਠੀਆਂ ਮਿਲਾਓ।

ਟੈਕਸਟ ਕੱਢਣਾ ਕਿੰਨਾ ਸਹੀ ਹੈ?

ਸਾਫ਼, ਉੱਚ-ਰੈਜ਼ੋਲਿਊਸ਼ਨ ਸਕੈਨ ਆਮ ਤੌਰ 'ਤੇ 90-98% ਸ਼ੁੱਧਤਾ ਪ੍ਰਾਪਤ ਕਰਦੇ ਹਨ।

ਕਈ ਵਾਰ 100-ਪੰਨਿਆਂ ਵਾਲੀ PDF ਇੱਕ ਸਕਿੰਟ ਵਿੱਚ ਹੀ ਕਿਉਂ ਖ਼ਤਮ ਹੋ ਜਾਂਦੀ ਹੈ?

ਜੇ PDF ਵਿੱਚ ਪਹਿਲਾਂ ਤੋਂ ਚੁਣਨਯੋਗ ਟੈਕਸਟ ਲੇਅਰ ਹੋਵੇ (ਨੇਟਿਵ, ਸਕੈਨ ਨਹੀਂ), ਤਾਂ OCR ਚਲਾਉਣ ਦੀ ਬਜਾਏ ਟੈਕਸਟ ਸਿੱਧਾ ਕੱਢਿਆ ਜਾਂਦਾ ਹੈ। ਟੈਕਸਟ ਲੇਅਰ ਤੋਂ ਬਿਨਾਂ ਸਕੈਨ ਕੀਤੀਆਂ PDF ਲਈ ਹਰ ਪੰਨੇ 'ਤੇ ਪੂਰਾ OCR ਚੱਲਦਾ ਹੈ।

ਸੰਬੰਧਿਤ ਟੂਲ

📝PDF ਤੋਂ ਟੈਕਸਟ