❤️ 如果你也关注大模型与 AI 的发展现状,且对大模型应用开发非常感兴趣,我会快速跟你分享最新的感兴趣的 AI 应用和热点信息,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

微信订阅号|搜一搜:蚝油菜花
在这里插入图片描述
在这里插入图片描述

🚀 快速阅读

  1. Surya 是一款功能强大的开源 OCR 工具包,支持超过 90 种语言的识别。
  2. Surya 能准确识别出文档中的文本,分析文本的阅读顺序,检测文档中的布局元素,如表格、图片和标题,及识别和解析表格内容。
  3. Surya 完全免费且用于商业用途,支持跨平台运行,包括 Windows、Mac 和 Linux 系统,适合处理敏感信息的离线环境。

正文(附运行示例)

Surya 是什么

Surya 是一款功能强大的开源 OCR(光学字符识别)工具包,专门用于文档识别,支持超过 90 种语言的识别。它能准确识别文档中的文本,分析文本的阅读顺序,检测文档中的布局元素(如表格、图片和标题),并识别和解析表格内容。Surya 以其高效的表格识别能力而闻名,性能优于许多现有的开源模型,如 Table Transformer。Surya 完全免费,可用于商业用途,支持在 Windows、Mac 和 Linux 系统上运行,非常适合处理敏感信息的离线环境。

Surya 的主要功能

  • 多语言 OCR 识别:Surya 支持超过 90 种语言的光学字符识别,能够处理包括中文、日文、韩文、阿拉伯文等多种语言的文档。
  • 表格识别:Surya 强化了表格识别功能,能够识别文档中的行、列和单元格,甚至包括旋转和复杂布局的表格。
  • 复杂布局识别:Surya 能够识别文档中的复杂布局,例如标题、图片等,处理文档中的各种元素。
  • 文本检测与阅读顺序:Surya 能够进行文本的行级检测,确定文本的阅读顺序,确保输出的文本内容顺序正确。

如何运行 Surya

Surya 的安装和使用都非常简单。首先,你需要安装 Python 3.10+和 PyTorch。然后,你可以使用 pip 安装 Surya:

pip install surya-ocr

模型权重将首次运行 Surya 时自动下载。

OCR(文本识别)

此命令将写入一个包含检测到的文本和边界框的 json 文件:

surya_ocr DATA_PATH
  • DATA_PATH可以是图像、PDF 或图像/PDF 文件夹
  • --langs是一个可选的(但建议)参数,用于指定 OCR 的语言。你可以用逗号分隔多种语言。使用语言名称或来自此处的双字母 ISO 代码。Surya 支持languages.py中的 90 多种语言。

文本行检测

此命令将写入一个包含检测到的边界框的 json 文件。

surya_detect DATA_PATH

布局分析

此命令将写入一个包含检测到的布局的 json 文件。

surya_layout DATA_PATH

阅读顺序

此命令将写入一个包含检测到的阅读顺序和布局的 json 文件。

surya_order DATA_PATH

表格识别

此命令将写入一个包含检测到的表格单元格和行/列 ID 的 json 文件,以及行/列边界框。

surya_table DATA_PATH

资源


❤️ 如果你也关注大模型与 AI 的发展现状,且对大模型应用开发非常感兴趣,我会快速跟你分享最新的感兴趣的 AI 应用和热点信息,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

微信订阅号|搜一搜:蚝油菜花

Logo

技术共进,成长同行——讯飞AI开发者社区

更多推荐