PDF ਤੋਂ ਟੈਕਸਟ (OCR)
ਸਕੈਨ ਕੀਤੇ PDF ਤੋਂ ਟੈਕਸਟ ਕੱਢੋ
ਆਖਰੀ ਅੱਪਡੇਟ:OCR ਚਿੱਤਰਾਂ ਅਤੇ PDF ਤੋਂ ਟੈਕਸਟ ਕੱਢਦਾ ਹੈ। LlamaPDF ਪਹਿਲਾਂ ਜਾਂਚ ਕਰਦਾ ਹੈ ਕਿ ਕੀ PDF ਵਿੱਚ ਪਹਿਲਾਂ ਹੀ ਚੋਣਯੋਗ ਟੈਕਸਟ ਲੇਅਰ ਹੈ ਅਤੇ ਇਸਨੂੰ ਸਿੱਧਾ ਕਾਪੀ ਕਰਦਾ ਹੈ — ਤੇਜ਼ ਅਤੇ ਨੁਕਸਾਨ-ਰਹਿਤ। ਜੇ ਨਹੀਂ (ਜਾਂ ਚਿੱਤਰਾਂ ਲਈ), ਇਹ ਤੁਹਾਡੇ ਬ੍ਰਾਊਜ਼ਰ ਵਿੱਚ ਪੂਰੀ ਤਰ੍ਹਾਂ ਚੱਲਦੇ Tesseract.js 'ਤੇ ਵਾਪਸ ਆਉਂਦਾ ਹੈ, ਵਿਕਲਪਿਕ ਆਟੋ-ਡਿਟੈਕਸ਼ਨ ਨਾਲ 100+ ਭਾਸ਼ਾਵਾਂ ਨੂੰ ਸਮਰਥਨ ਦਿੰਦਾ ਹੈ।
ਆਪਣੀ ਫਾਈਲ ਇੱਥੇ ਡਰੈਗ ਅਤੇ ਡ੍ਰਾਪ ਕਰੋ
ਜਾਂ ਚੁਣਨ ਲਈ ਕਲਿੱਕ ਕਰੋ
ਵੱਧ ਤੋਂ ਵੱਧ 50 MB · ਰਜਿਸਟ੍ਰੇਸ਼ਨ ਦੀ ਲੋੜ ਨਹੀਂ
ਤੁਹਾਡੀ ਫਾਈਲ ਤੁਹਾਡੀ ਡਿਵਾਈਸ 'ਤੇ ਰਹਿੰਦੀ ਹੈ — ਕਦੇ ਅੱਪਲੋਡ ਨਹੀਂ ਹੁੰਦੀ
OCR ਦੇ ਨਾਲ PDF ਜਾਂ ਤਸਵੀਰ ਤੋਂ ਟੈਕਸਟ ਕਿਵੇਂ ਨਿਕਾਲੀਏ
- 1
ਆਪਣੀ ਸਕੈਨ ਕੀਤੀ PDF ਜਾਂ ਇਮੇਜ ਫਾਈਲ ਨੂੰ ਸਪੱਸ਼ਟ ਬਾਕਸ ਵਿੱਚ ਖਿੱਚ ਕੇ ਅੱਪਲੋਡ ਕਰੋ ਜਾਂ ਬ੍ਰਾਊਜ਼ ਕਰਨ ਲਈ ਕਲਿਕ ਕਰੋ। ਟੂਲ PDF, PNG, JPG, TIFF, BMP ਅਤੇ WebP ਫਾਰਮੈਟਾਂ ਨੂੰ ਸਮਰਥਨ ਕਰਦਾ ਹੈ।
- 2
ਆਪਣੇ ਦਸਤਾਵੇਜ਼ ਵਿੱਚ ਟੈਕਸਟ ਦੀ ਭਾਸ਼ਾ ਚੁਣੋ ਸਰਵਾਧਿਕ ਪਛਾਣ ਦਾ ਸਟੀਕਤਾ ਲਈ। ਮਲਟੀ-ਲੈਂਗਵੇਜ ਦਸਤਾਵੇਜ਼ਾਂ ਲਈ, ਸਭ ਲਾਗੂ ਭਾਸ਼ਾਵਾਂ ਨੂੰ ਚੁਣੋ। OCR ਇੰਜਨ ਪੂਰੀ ਡੋਕੁਮੇਂਟ ਦੀ ਸੰਰਚਨਾ ਦਾ ਵਿਸ਼ਲੇਸ਼ਣ ਕਰੇਗਾ, ਸਤੰਮਾਂ, ਟੇਬਲਾਂ ਅਤੇ ਸਿਰਸ਼ਾਂ ਸਮੇਤ।
- 3
ਆਪਣੇ ਦਸਤਾਵੇਜ਼ 'ਤੇ ਆਪਟੀਕਲ ਚਰਿਤ ਸਵੀਕਾਰ ਕਰਨ ਲਈ ਟੈਕਸਟ ਕੱਢਣ ਲਈ ਕਲਿਕ ਕਰੋ। ਨਿਕਾਲੀ ਗਈ ਟੈਕਸਟ ਦੀ ਜਾਂਚ ਕਰੋ ਅਤੇ ਕਾਪੀ ਕਰੋ, ਜਾਂ ਇਸ ਨੂੰ ਟੈਕਸਟ ਫਾਈਲ ਦੇ ਤੌਰ ਤੇ ਡਾਊਨਲੋਡ ਕਰੋ। ਸਭ OCR ਪ੍ਰਕ੍ਰਿਆ ਆਪਣੇ ਬ੍ਰਾਊਜ਼ਰ ਵਿੱਚ ਮਾਡਨ ਪਛਾਣ ਐਲਗੋਰਿਦਮ ਵਰਤਕੇ ਚਲਦਾ ਹੈ — ਤੁਹਾਡੇ ਦਸਤਾਵੇਜ਼ ਕਦੇ ਕਿਸੇ ਸਰਵਰ ਨੂੰ ਨਹੀਂ ਅੱਪ ਲੋਡ ਕੀਤੇ ਜਾਂਦੇ, ਸੰਪੂਰਨ ਗੋਪਨੀਅਤਾ ਯਕੀਨੀ ਬਣਾਉਂਦੇ ਹੋਏ।
ਅਸਾਡੇ OCR ਟੂਲ ਨੂੰ ਕਿਉਂ ਵਰਤੋ?
ਸਕੈਨ ਕੀਤੇ ਦਸਤਾਵੇਜ਼, ਫ਼ੋਟੋ ਕੀਤੇ ਪੰਨੇ ਅਤੇ ਇਮੇਜ-ਆਧਾਰਿਤ PDFs ਬਹੁਮੁੱਲੀ ਟੈਕਸਟ ਨੂੰ ਤਸਵੀਰਾਂ ਵਿੱਚ ਬੰਦ ਕਰ ਦਿੰਦੀ ਹਨ। ਤੁਸੀਂ ਸੁੰਤਲਨ, ਨਕਲ, ਸੰਪਾਦਿਤ, ਜਾਂ ਮੁੜ ਵਰਤ ਨਹੀਂ ਕਰ ਸਕਦੇ, ਪਹਿਲਾਂ ਇਸ ਮੁਸ਼ਕਲ ਟੈਕਸਟ ਨੂੰ ਮੋਸ਼ਿਨ-ਪੜ੍ਹਨਯੋਗ ਟੈਕਸਟ ਵਿੱਚ ਤਬਦੀਲ ਕੀਤੇ ਬਿਨਾਂ। ਅਸਾਡਾ OCR ਟੂਲ ਇਸ ਨੂੰ ਆਪਣੇ ਦਸਤਾਵੇਜ਼ ਦੀ ਦ੍ਰਿਸ਼ ਬਨਾਵਟ ਦਾ ਵਿਸ਼ਲੇਸ਼ਣ ਕਰਕੇ ਅਤੇ ਸਟੀਕਤਾ ਨਾਲ ਹਰ ਸ਼ਬਦ ਨਿਕਾਲਕੇ ਸਮਾਧਾਨ ਕਰਦਾ ਹੈ। ਇਹ ਸਿੰਗਲ-ਪੇਜ ਰਸੀਦਾਂ ਤੋਂ ਮਲਟੀ-ਪੇਜ ਸਕੈਨ ਕੀਤੀ ਕਰਾਰ ਤੱਕ ਸਭ ਕੁਝ ਸੰਭਾਲਦਾ ਹੈ, ਅਕਾਡਮਿਕ ਪੇਪਰ ਅਤੇ ਸਾਡਸਨ ਲੇਆਉਟ ਸਮੇਤ ਬਸ ਪ੍ਰਿੰਟ ਕੀਤਾ ਟੈਕਸਟ ਦਸਾਂ ਭਾਸ਼ਾਵਾਂ ਸੰਗ ਪਛਾਣਨ ਅਤੇ ਮਲਟੀ-ਕਾਲਮ ਪੰਨਿਆਂ ਅਤੇ ਟੇਬਲਾਂ ਸਮੇਤ ਜਟਿਲ ਲੇਆਉਟ ਦੀ ਪੜ੍ਹਨ ਕ੍ਰਮ ਨੂੰ ਸਤਿਜਾ ਰੱਖਦੇ ਹਨ।
ਪੂਰਾ ਪ੍ਰਮਾਣ ਸਥਾਨਿਕ ਤੌਰ ਤੇ ਆਪਣੇ ਬ੍ਰਾਊਜ਼ਰ ਵਿੱਚ ਚਲਦਾ ਹੈ, ਤੁਹਾਡੇ ਸੰਵੇਦਨਸ਼ੀਲ ਡਾਕੂਮੈਂਟਾਂ — ਲਾਨੂਨੀ ਕਰਾਰ, ਮੈਡਿਕਲ ਰਿਕਾਰਡ, ਵਿੱਤੀ ਵਿਉਂ — ਆਪਣੀ ਡਿਵਾਈਸ ਤੋਂ ਕਦੇ ਨਹੀਂ ਛੱਡਦੀ। ਕੋਈ ਅੱਪਲੋਡ ਨਹੀਂ, ਕੋਈ ਕਲਾਉਡ ਪ੍ਰਾਂਸਸਿੰਗ ਨਹੀਂ, ਅਤੇ ਕੋਈ ਤੀਜੀ ਧਿਕਾਨੀ ਬਿਟ ਨਹੀਂ। ਸਧਾਰਨ ਕਾਮ ਲਈ ਹੋਰ ਜਿਵੇਂ ਇਕ ਫ਼ੋਟੋ ਜਾਂ ਸਕ੍ਰੀਨਸ਼ੌਟ ਤੋਂ ਟੈਕਸਟ ਨਿਕਾਲਣ, ਅਸਾਡੇ image-ਟੋ-text ਟੂਲ ਸਰਲ ਅਨੁਭਵ ਦਿੰਦਾ ਹੈ। ਜਦ ਤੁਹਾਡੇ ਕੋਲ ਨਿਕਾਲੀ ਗਈ ਟੈਕਸਟ ਹੋ, ਟੈਕਸਟ ਤੋ PDF ਕਨਵਰਟਰ ਨਾਲ ਇਸ ਨੂੰ ਪ੍ਰੌਪਰ ਡਾਕੂਮੈਂਟ ਵਿੱਚ ਤਬਦੀਲ ਕਰੋ, ਜਾਂ PDF ਸੰਪਾਦਨ ਕਰਕੇ ਸਿੱਧੀਆਂ ਜਾਗੀ। ਜੇ ਤੁਹਾਨੂੰ ਸਕੈਨ ਕੀਤੀ ਟੇਬਲਾਂ ਦੇ ਨਾਲ ਕਾਮ ਕਰਨਾ ਪਵੇ, ਟੈਕਸਟ ਨੂੰ ਇੱਥੇ ਨਿਕਾਲੋ ਅਤੇ ਫਿਰ JSON-CSV ਕਨਵਰਟਰ ਨਾਲ ਆਪਣੇ ਡੇਟਾ ਨੂੰ ਬਨਾਓ।
OCR ਕੀ ਹੈ?
OCR (Optical Character Recognition) ਇਕ ਪ੍ਰਮਾਣ ਹੈ ਜੋ ਪਾਠ ਦੀ ਤਸਵੀਰਾਂ — ਭਾਵ ਸਕੈਨ ਕੀਤੇ ਦਸਤਾਵੇਜ਼, ਫ਼ੋਟੋਗ੍ਰਾਫ, ਜਾਂ ਇਮੇਜ-ਆਧਾਰਿਤ PDFs — ਨੂੰ ਮਸ਼ੀਨ-ਪੜ੍ਹਨਯੋਗ, ਸੰਪਾਦਨ ਯੋਗ ਪਾਠ ਵਿੱਚ ਤਬਦੀਲ ਕਰਦਾ ਹੈ। OCR ਇੰਜਣ ਚਰਿਤ ਦੀ ਸ਼ਕਲਾਂ, ਪੈਟਰਨਾਂ ਅਤੇ ਤਸਵੀਰ ਵਿੱਚ ਅੱਖਰਾਂ ਦੇ ਸਥਾਨਿਕ ਸਬੰਧਾਂ ਦਾ ਵਿਸ਼ਲੇਸ਼ਣ ਕਰਕੇ ਅੱਖਰਾਂ, ਸੰਖਿਆਵਾਂ ਅਤੇ ਪ੍ਰਤੀਕਾਂ ਦੀ ਪਛਾਣ ਕਰੋ। ਆਧੁਨਿਕ OCR ਸੈਂਬਰ ਭਾਸ਼ਾਵਾਂ ਨੂੰ ਸਮਰਥਨ ਕਰਦਾ ਹੈ ਅਤੇ ਵਿਸ਼ਾਲ ਫੌਂਟਾਂ, ਆਕਾਰਾਂ ਅਤੇ ਲੇਆਉਟਾਂ ਦੀ ਸ਼ਨਾਖਤ ਕਰ ਸਕਦਾ ਹੈ। ਇਹ ਡਾਕੂਮੈਂਟ ਡਿਜੀਟਲਾਈਜ਼ੇਸ਼ਨ, ਖੋਜ ਯੋਗ PDF ਵਿਵਸਥਾ, ਸਵੈਚੁੰਬਕ ਡੇਟਾ ਪ੍ਰਵਿਸ਼ਟੀ ਅਤੇ ਅਕਿਲਤਾ ਪ੍ਰਮਾਣ ਜਾਂ ਜੋ ਮੁਦ੍ਰਿਤ ਪਾਠ ਵਾਂਚਣ ਲਈ ਕਾਲ ਕਰਦਾ ਹੈ, ਬੁਨਿਆਦੀ ਪ੍ਰਮਾਣ ਹੈ।