Skip to content
LlamaPDFLlamaPDF
🔍

PDF 转文本 (OCR)

从扫描的 PDF 中提取文本

最后更新:

OCR 用于从图片和 PDF 中提取文本。LlamaPDF 会先检查 PDF 是否已经包含可选中的文本图层,如有则直接复制——快速且无损。否则(或对于图片)将退回到完全在你的浏览器中运行的 Tesseract.js,支持 100+ languages,并可选自动语种识别。

将文件拖放到此处

点击选择文件

.PDF.JPG.PNG.WEBP

最大 50 MB · 无需注册

您的文件保留在设备上 — 从未上传

如何使用 OCR 识别文字

  1. 1

    将扫描的 PDF 或图片上传到 LlamaPDF。

  2. 2

    选择文字语言。

  3. 3

    下载可编辑的文字或可检索的 PDF。

为什么要使用 OCR?

将扫描文档、书籍或照片中的文字转为可检索和可编辑的内容,使用 LlamaPDF 的 OCR 工具

支持多语言 OCR,完全免费,支持手机使用。

OCR 技术说明

OCR(光学字符识别)技术识别图片或扫描 PDF 中的文字,并将其转换为可编辑、可检索的格式。LlamaPDF 支持 100 余种语言。

常见问题

OCR 支持哪些语言?

通过 Tesseract.js 支持 100 多种语言。您可以在下拉列表中选择任意一种语言,或为混合语言文档组合最多 3 种语言。

文字提取的准确度如何?

清晰、高分辨率的扫描件通常可达到 90–98% 的准确率。

为什么有时一个 100 页的 PDF 一秒就完成?

如果 PDF 本身已经有可选的文本层(原生 PDF,而非扫描件),工具会直接提取文本,无需运行 OCR。对于没有文本层的扫描 PDF,每一页都会进行完整的 OCR。

相关工具