Skip to content
LlamaPDFLlamaPDF
🔍

PDF-its Tekst (OCR)

Hanel tekst skanavorvats PDF-erits

Վերջին թարմացում:

OCR-ը արդյունահանում է տեքստ պատկերներից և PDF-երից։ LlamaPDF-ը նախ ստուգում է, արդյոք PDF-ն արդեն պարունակում է ընտրելի տեքստի շերտ և պատճենում այն ուղղակիորեն — արագ և առանց կորստի։ Եթե ոչ (կամ պատկերների համար), այն օգտագործում է Tesseract.js, որն աշխատում է ամբողջությամբ ձեր բրաուզերում, աջակցելով 100+ լեզուների՝ ընտրովի ինքնահայտնաբերմամբ։

Qasheet ev bats toghek ձer ֆaylumt aystegh

kam sejmek yntrel hamar

.PDF.JPG.PNG.WEBP

Aravel 50 MB · Granchum chi pahanjvum

Ձer ֆaylumt mnuma ձer sarchum — erbekev chi verberenvum

Ինչպես PDF-ից կամ պատկերից տեքստ հանել OCR-ով

  1. 1

    Ֆայլն քաշեք վերևի տուփ կամ ընտրեք ձեր սկանավորված PDF-ը կամ պատկերային ֆայլը։ Գործիքն ընդունում է PDF, PNG, JPG, TIFF, BMP ու WebP ձևաչափերը։

  2. 2

    Ընտրեք փաստաթղթում պարունակվող տեքստի լեզուն լավագույն ճանաչողության ճշտություն ապահովելու համար։ Բազմալեզու փաստաթղթերի դեպքում ընտրեք բոլոր կիրառելի լեզուները։ OCR-ի շարժիչն անալիզ կկատարի ամբողջ կառուցվածքի վրա, ներառյալ սյունակները, աղյուսակներն ու վերնագրերը։

  3. 3

    Սեղմեք «Հանել տեքստ» ձեր փաստաթղթի OCR-ի ենթարկելու համար։ Ստուգեք ու պատճենեք հայտնաբերված տեքստը կամ ներբեռնեք տեքստ ֆայլ։ Ամբողջ OCR-ի մշակումն ընթանում է ձեր դիտարկիչում. ձեր փաստաթղթերը ոչ մի սերվեր երբեք չեն վերբեռնվում, ամբողջական գաղտնիություն ապահովելով։

Ինչու օգտվել մեր OCR գործիքից

Սկանավորված փաստաթղթերը, նկարահանված էջերն ու պատկեր-հիմնված PDF-ները արժեքավոր տեքստ են արգելափակում պատկերների ներսում. անհնար է որոնել, պատճենել, խմբագրել կամ վերօգտագործել, մինչ տեքստը մեքենայաընթեռնելի ձևի չի բերվի։ Մեր OCR գործիքն այդ խնդիրն է լուծում՝ փաստաթղթի տեսողական կառուցվածքն անալիզ անելով ու բարձր ճշտությամբ յուրաքանչյուր բառ հայտնաբերելով։ Կարող է մշակել ամեն ինչ՝ մեկ էջ անդորրագրից մինչ բազմաէջ սկանավորված պայմանագիր ու ակադեմական հոդված, ճանաչելով հայատառ, ռուսատառ, լատինատառ ու բազմաթիվ այլ գրային համակարգեր, պահպանելով բարդ դասավորությունների կարդալու կարգը։

Ամբողջ գործընթացն ընթանում է ձեր դիտարկիչում, ուստի ձեր զգայուն փաստաթղթերը՝ իրավական պայմանագրեր, բժշկական գրառումներ, ֆինանսական հայտարարագրեր, ձեր սարքը երբեք չեն հեռացնում։ Ոչ վերբեռնում, ոչ ամպային մշակում, ոչ երրորդ կողմի հասանելիություն։ Ավելի պարզ առաջադրանքների, ինչպիսիք են մեկ լուսանկարից կամ սքրինշոթից տեքստ հանելը, պատկեր-տեքստ գործիքն ավելի արագ փորձ է տալիս։ Հանված տեքստն ունենալուց հետո ուղղակիորեն ամեն ինչ արտահանեք, կամ եթե PDF-ի JPG-ի կարիք ունեք, PDF-ը JPG-ի փոխակերպողն օգտագործեք։

Ի՞նչ է OCR-ը

OCR (Optical Character Recognition) կամ Օպտիկական Բնույթ Ճանաչում տեխնոլոգիա է, որն ռաստերային պատկերներում պատկերված տեքստ, թե սկանավորված փաստաթղթերի, լուսանկարների կամ պատկեր-հիմնված PDF-ի, վերածում է մեքենայաընթեռնելի, խմբագրելի տեքստի։ OCR-ի շարժիչները վերլուծում են պատկերի ներսում գտնվող նիշերի ձևերն, մոդելներն ու տարածական կապերը՝ տառեր, թվեր ու նշաններ ճանաչելու համար։ Ժամանակակից OCR-ն հարյուրավոր լեզուներ ու բազմաթիվ տառատեսակ, չափ ու դասավորություն է ճանաչում։ Դա փաստաթղթերի թվայնացման, որոնելի PDF-ի ստեղծման, ավտոմատ տվյալների մուտքագրման ու տպագիր տեքստ բարձրաձայն կարդացող մատչելիության գործիքների հիմնական տեխնոլոգիան է։

Հաճախ Տրվող Հարցեր

Ի՞նչ լեզուներ է աջակցում OCR-ը:

Ավելի քան 100 լեզու Tesseract.js-ի միջոցով։ Ընտրեք ցանկացած լեզու բացվող ցանկից կամ միացրեք մինչև 3 լեզու խառը լեզվով փաստաթղթերի համար։

Որքա՞ն ճշտ է տեքստի արդյունահանումը:

Հստակ, բարձրորակ սկաններն սովորաբար ձեռք են բերում 90-98% ճշտություն։

Ինչու՞ է այն երբեմն մեկ վայրկյանում ավարտվում 100-էջանոց PDF-ի համար:

Եթե PDF-ն արդեն ունի ընտրելի տեքստի շերտ (բնիկ, ոչ սկանավորված), տեքստը ուղղակիորեն հանվում է OCR-ի փոխարեն։ Առանց տեքստի շերտի սկանավորված PDF-ների համար լրիվ OCR է գործարկվում յուրաքանչյուր էջի վրա։

Harakits Gortsikumner