PDF-დან ტექსტი (OCR)
ტექსტის ამოღება სკანირებული PDF-ებიდან
ბოლო განახლება:OCR ამოაქვს ტექსტი გამოსახულებებიდან და PDF-ებიდან. LlamaPDF ჯერ ამოწმებს, შეიცავს თუ არა PDF უკვე მონიშვნად ტექსტურ შრეს და მას პირდაპირ კოპირებს — სწრაფად და უდანაკარგოდ. თუ არა (ან გამოსახულებებისთვის), ის გადაერთვება Tesseract.js-ზე, რომელიც მთლიანად თქვენს ბრაუზერში მუშაობს, მხარს უჭერს 100+ ენას არჩევითი ავტომატური აღმოჩენით.
ჩააგდეთ ფაილი აქ
ან დააჭირეთ ასარჩევად
მაქს. 50 MB · რეგისტრაცია არ საჭიროა
ფაილი მოწყობილობაზე რჩება — არასოდეს იტვირთება
როგორ ამოვიღოთ ტექსტი PDF-იდან ან სურათიდან OCR-ის გამოყენებით
- 1
ატვირთეთ სკანირებული PDF ან სურათი — გადაიტანეთ ზედა ველში ან მოძებნეთ ფაილები. ხელსაწყო PDF, PNG, JPG, TIFF, BMP და WebP ფორმატებს ემხრობა.
- 2
შეარჩიეთ დოკუმენტში ტექსტის ენა ამოცნობის სიზუსტის გასაუმჯობესებლად. მრავალენოვანი დოკუმენტებისთვის შეარჩიეთ ყველა შესაბამისი ენა. OCR ძრავი გაანალიზებს მთელი დოკუმენტის სტრუქტურას — სვეტებს, ცხრილებს და სათაურებს.
- 3
დააჭირეთ „ტექსტის ამოღება” OCR-ის გასაშვებად. გადახედეთ ამოღებულ ტექსტს და კოპირება გააკეთეთ, ან ჩამოტვირთეთ ტექსტური ფაილის სახით. ყველა OCR დამუშავება პირდაპირ ბრაუზერში მიმდინარეობს — დოკუმენტები სერვერზე არ იტვირთება.
რატომ გამოიყენოთ ჩვენი OCR ხელსაწყო?
სკანირებული დოკუმენტები, ფოტოგრაფირებული გვერდები და სურათზე დაფუძნებული PDF-ები ღირებულ ტექსტს სურათებში ჩაკეტავენ. ამ კონტენტის მოძებნა, კოპირება, რედაქტირება ან ხელახლა გამოყენება შეუძლებელია, სანამ მას მანქანისთვის წასაკითხ ტექსტად არ გარდაქმნით. ჩვენი OCR ხელსაწყო ამ პრობლემას წყვეტს — ის დოკუმენტის ვიზუალურ სტრუქტურას აანალიზებს და ყოველ სიტყვას მაღალი სიზუსტით ამოიღებს. ხელსაწყო ამუშავებს ყველაფერს — ერთგვერდიანი ქვითრებიდან მრავალგვერდიანი სკანირებული კონტრაქტებამდე — და ბეჭდურ ტექსტს ათობით ენაზე ამოიცნობს. ქართული მხედრული დამწერლობა სრულად მხარდაჭერილია, რაც OCR-ს განსაკუთრებით ღირებულ ხელსაწყოდ ხდის ქართული ისტორიული დოკუმენტების ციფრიზაციისა და ქართულენოვანი ბიზნეს-კორესპოდენციის გასამუშავებლად.
ვინაიდან მთელი პროცესი ლოკალურად ბრაუზერში მიმდინარეობს, თქვენი სენსიტიური დოკუმენტები — სამართლებრივი კონტრაქტები, სამედიცინო ჩანაწერები, ფინანსური ანგარიშები — მოწყობილობას არ ტოვებს. ატვირთვა, ღრუბლოვანი დამუშავება ან მესამე მხარის წვდომა არ ხდება. ერთი ფოტოდან ან სქრინშოტიდან ტექსტის ამოღების მარტივი ამოცანისთვის სურათიდან ტექსტის ხელსაწყო გამარტივებულ გამოცდილებას სთავაზობს. ამოღებული ტექსტის დამუშავებისა და სტრუქტურირებისთვის შეგიძლიათ გამოიყენოთ PDF-დან JPG-ის ხელსაწყო ვიზუალური კონტენტის ამოსაღებად.
რა არის OCR?
OCR (Optical Character Recognition) — ოპტიკური სიმბოლოების ამოცნობა — არის ტექნოლოგია, რომელიც ტექსტის სურათებს — სკანირებული დოკუმენტებიდან, ფოტოებიდან ან სურათზე დაფუძნებული PDF-ებიდან — მანქანისთვის წასაკითხ, რედაქტირებად ტექსტად გარდაქმნის. OCR ძრავები სურათებში სიმბოლოების ფორმებს, ნიმუშებს და სივრცით ურთიერთობებს აანალიზებენ ასოების, ციფრებისა და სიმბოლოების გამოსავლენად. თანამედროვე OCR ასობით ენას ემხრობა, მათ შორის ქართულ მხედრულ დამწერლობას, და ფონტების, ზომებისა და განლაგებების ფართო სპექტრს ამუშავებს. ეს ფუნდამენტური ტექნოლოგიაა დოკუმენტების ციფრიზაციის, ძებნადი PDF-ების შექმნისა და ავტომატური მონაცემთა შეყვანისთვის.