🔍
PDF 转文本 (OCR)
从扫描的 PDF 中提取文本
最后更新:OCR 用于从图片和 PDF 中提取文本。LlamaPDF 会先检查 PDF 是否已经包含可选中的文本图层,如有则直接复制——快速且无损。否则(或对于图片)将退回到完全在你的浏览器中运行的 Tesseract.js,支持 100+ languages,并可选自动语种识别。
将文件拖放到此处
或 点击选择文件
.PDF.JPG.PNG.WEBP
最大 50 MB · 无需注册
您的文件保留在设备上 — 从未上传
如何使用 OCR 识别文字
- 1
将扫描的 PDF 或图片上传到 LlamaPDF。
- 2
选择文字语言。
- 3
下载可编辑的文字或可检索的 PDF。
为什么要使用 OCR?
将扫描文档、书籍或照片中的文字转为可检索和可编辑的内容,使用 LlamaPDF 的 OCR 工具。
支持多语言 OCR,完全免费,支持手机使用。
OCR 技术说明
OCR(光学字符识别)技术识别图片或扫描 PDF 中的文字,并将其转换为可编辑、可检索的格式。LlamaPDF 支持 100 余种语言。
常见问题
OCR 支持哪些语言?
通过 Tesseract.js 支持 100 多种语言。您可以在下拉列表中选择任意一种语言,或为混合语言文档组合最多 3 种语言。
文字提取的准确度如何?
清晰、高分辨率的扫描件通常可达到 90–98% 的准确率。
为什么有时一个 100 页的 PDF 一秒就完成?
如果 PDF 本身已经有可选的文本层(原生 PDF,而非扫描件),工具会直接提取文本,无需运行 OCR。对于没有文本层的扫描 PDF,每一页都会进行完整的 OCR。