Skip to content
LlamaPDFLlamaPDF
🔍

PDF tekstiksi (OCR)

Poimi teksti skannatuista PDF:istä

Viimeksi päivitetty:

OCR erottaa tekstiä kuvista ja PDF-tiedostoista. LlamaPDF tarkistaa ensin, sisältääkö PDF jo valittavan tekstikerroksen, ja kopioi sen suoraan — nopeasti ja häviöttömästi. Jos ei (tai kuvien tapauksessa), se siirtyy käyttämään Tesseract.js-kirjastoa kokonaan selaimessasi, tukien yli 100 kieltä valinnaisella automaattitunnistuksella.

Vedä ja pudota tiedostosi tähän

tai klikkaa valitaksesi

.PDF.JPG.PNG.WEBP

Enintään 50 Mt · Ei rekisteröintiä

Tiedostosi pysyy laitteellasi — ei koskaan lähetetä

OCR:n käyttäminen PDF:ssä

  1. 1

    Lataa skannattu PDF tai kuva.

  2. 2

    Valitse asiakirjan kieli.

  3. 3

    Lataa muokattava PDF tai kopioi teksti.

Miksi käyttää OCR:ää LlamaPDF:llä?

Skannattuihin PDF-tiedostoihin ei voi hakea tai muokata tekstiä. LlamaPDF:n OCR (Optical Character Recognition) analysoi kuvat ja poimii tekstin — sopii erinomaisesti vanhoille asiakirjoille, kuiteille ja sopimuksille.

OCR:n jälkeen voit pakata, jakaa tai suojata tiedoston.

Mikä on OCR?

OCR (Optical Character Recognition) on teknologia, joka tunnistaa ja poimii tekstiä kuvista ja skannatuista asiakirjoista. Se muuntaa muokkaamattoman kuvasisällön digitaaliseksi tekstiksi, johon voidaan hakea, jota voidaan kopioida ja muokata.

Usein kysytyt kysymykset

Mitä kieliä OCR tukee?

Yli 100 kieltä Tesseract.js:n kautta. Valitse mikä tahansa kieli pudotusvalikosta tai yhdistä enintään 3 kieltä monikielisiä asiakirjoja varten.

Kuinka tarkka tekstin poiminta on?

Selkeät, korkearesoluutioiset skannaukset saavuttavat yleensä 90–98 % tarkkuuden.

Miksi 100-sivuinen PDF on joskus valmis sekunnissa?

Jos PDF:ssä on jo valittavissa oleva tekstikerros (natiivi, ei skannattu), teksti poimitaan suoraan sen sijaan, että ajettaisiin OCR. Skannatuissa PDF:issä ilman tekstikerrosta OCR ajetaan jokaiselle sivulle.

Liittyvät työkalut