🔍

PDF-დან ტექსტი (OCR)

ტექსტის ამოღება სკანირებული PDF-ებიდან

ბოლო განახლება: 14 მაისი, 2026

OCR ამოაქვს ტექსტი გამოსახულებებიდან და PDF-ებიდან. LlamaPDF ჯერ ამოწმებს, შეიცავს თუ არა PDF უკვე მონიშვნად ტექსტურ შრეს და მას პირდაპირ კოპირებს — სწრაფად და უდანაკარგოდ. თუ არა (ან გამოსახულებებისთვის), ის გადაერთვება Tesseract.js-ზე, რომელიც მთლიანად თქვენს ბრაუზერში მუშაობს, მხარს უჭერს 100+ ენას არჩევითი ავტომატური აღმოჩენით.

ჩააგდეთ ფაილი აქ

ან დააჭირეთ ასარჩევად

.PDF.JPG.PNG.WEBP

მაქს. 50 MB · რეგისტრაცია არ საჭიროა

ფაილი მოწყობილობაზე რჩება — არასოდეს იტვირთება

როგორ ამოვიღოთ ტექსტი PDF-იდან ან სურათიდან OCR-ის გამოყენებით

1
ატვირთეთ სკანირებული PDF ან სურათი — გადაიტანეთ ზედა ველში ან მოძებნეთ ფაილები. ხელსაწყო PDF, PNG, JPG, TIFF, BMP და WebP ფორმატებს ემხრობა.
2
შეარჩიეთ დოკუმენტში ტექსტის ენა ამოცნობის სიზუსტის გასაუმჯობესებლად. მრავალენოვანი დოკუმენტებისთვის შეარჩიეთ ყველა შესაბამისი ენა. OCR ძრავი გაანალიზებს მთელი დოკუმენტის სტრუქტურას — სვეტებს, ცხრილებს და სათაურებს.
3
დააჭირეთ „ტექსტის ამოღება” OCR-ის გასაშვებად. გადახედეთ ამოღებულ ტექსტს და კოპირება გააკეთეთ, ან ჩამოტვირთეთ ტექსტური ფაილის სახით. ყველა OCR დამუშავება პირდაპირ ბრაუზერში მიმდინარეობს — დოკუმენტები სერვერზე არ იტვირთება.

რატომ გამოიყენოთ ჩვენი OCR ხელსაწყო?

სკანირებული დოკუმენტები, ფოტოგრაფირებული გვერდები და სურათზე დაფუძნებული PDF-ები ღირებულ ტექსტს სურათებში ჩაკეტავენ. ამ კონტენტის მოძებნა, კოპირება, რედაქტირება ან ხელახლა გამოყენება შეუძლებელია, სანამ მას მანქანისთვის წასაკითხ ტექსტად არ გარდაქმნით. ჩვენი OCR ხელსაწყო ამ პრობლემას წყვეტს — ის დოკუმენტის ვიზუალურ სტრუქტურას აანალიზებს და ყოველ სიტყვას მაღალი სიზუსტით ამოიღებს. ხელსაწყო ამუშავებს ყველაფერს — ერთგვერდიანი ქვითრებიდან მრავალგვერდიანი სკანირებული კონტრაქტებამდე — და ბეჭდურ ტექსტს ათობით ენაზე ამოიცნობს. ქართული მხედრული დამწერლობა სრულად მხარდაჭერილია, რაც OCR-ს განსაკუთრებით ღირებულ ხელსაწყოდ ხდის ქართული ისტორიული დოკუმენტების ციფრიზაციისა და ქართულენოვანი ბიზნეს-კორესპოდენციის გასამუშავებლად.

ვინაიდან მთელი პროცესი ლოკალურად ბრაუზერში მიმდინარეობს, თქვენი სენსიტიური დოკუმენტები — სამართლებრივი კონტრაქტები, სამედიცინო ჩანაწერები, ფინანსური ანგარიშები — მოწყობილობას არ ტოვებს. ატვირთვა, ღრუბლოვანი დამუშავება ან მესამე მხარის წვდომა არ ხდება. ერთი ფოტოდან ან სქრინშოტიდან ტექსტის ამოღების მარტივი ამოცანისთვის სურათიდან ტექსტის ხელსაწყო გამარტივებულ გამოცდილებას სთავაზობს. ამოღებული ტექსტის დამუშავებისა და სტრუქტურირებისთვის შეგიძლიათ გამოიყენოთ PDF-დან JPG-ის ხელსაწყო ვიზუალური კონტენტის ამოსაღებად.

რა არის OCR?

OCR (Optical Character Recognition) — ოპტიკური სიმბოლოების ამოცნობა — არის ტექნოლოგია, რომელიც ტექსტის სურათებს — სკანირებული დოკუმენტებიდან, ფოტოებიდან ან სურათზე დაფუძნებული PDF-ებიდან — მანქანისთვის წასაკითხ, რედაქტირებად ტექსტად გარდაქმნის. OCR ძრავები სურათებში სიმბოლოების ფორმებს, ნიმუშებს და სივრცით ურთიერთობებს აანალიზებენ ასოების, ციფრებისა და სიმბოლოების გამოსავლენად. თანამედროვე OCR ასობით ენას ემხრობა, მათ შორის ქართულ მხედრულ დამწერლობას, და ფონტების, ზომებისა და განლაგებების ფართო სპექტრს ამუშავებს. ეს ფუნდამენტური ტექნოლოგიაა დოკუმენტების ციფრიზაციის, ძებნადი PDF-ების შექმნისა და ავტომატური მონაცემთა შეყვანისთვის.

ხშირად დასმული კითხვები

OCR რომელ ენებს უჭერს მხარს?

100-ზე მეტ ენას Tesseract.js-ის მეშვეობით. აირჩიე ნებისმიერი ენა ჩამოსაშლელიდან ან დააკავშირე 3-მდე ენა შერეული ენების დოკუმენტებისთვის.

ტექსტის ამოღება რამდენად სიზუსტეა?

მკაფიო, მაღალი გარჩევადობის სკანები ჩვეულებრივ 90-98% სიზუსტეს აღწევს.

რატომ მთავრდება ზოგჯერ 100-გვერდიანი PDF წამში?

თუ PDF-ს უკვე აქვს შერჩევადი ტექსტური ფენა (ცოცხალი, არა სკანირებული), ტექსტი პირდაპირ ამოიღება OCR-ის გაშვების ნაცვლად. ტექსტური ფენის გარეშე სკანირებული PDF-ებისთვის სრული OCR გაეშვება ყოველ გვერდზე.

დაკავშირებული ინსტრუმენტები

📝PDF-დან ტექსტი