Umi-OCR丨截图识别复制文字丨支持批量操作最新版

官方版无广告7,705

Umi-OCR 是一个免费、开源的可批量处理的离线OCR软件。它基于paddle，适用于 Windows7 x64 及以上版本。它支持截图OCR / 批量OCR / 二维码 / 公式识别（测试中） / PDF识别（测试中）等多种形式内容的识别。还支持命令行与http接口等调用方式。另外，它还支持批量OCR处理。

更新日期：

2025年8月14日

分类标签：

图像设计实用工具软件版软件版一键提取免费图片开源识别

语言：

中文

平台：

6530 人已下载手机查看

Umi-OCR

1. 免费：所有代码开源且完全免费。2. 方便：解压即用，离线运行，无需网络。3. 高效：自带高效率离线OCR引擎。4. 灵活：支持命令行、HTTP接口等多种调用方式。5. 功能：截图OCR / 批量OCR / 二维码 / 公式识别（测试中） / PDF识别（测试中）

功能目录

•截图识别 •段落合并 – 优化不同文字排版•批量识别 •忽略区域 – 排除截图水印处的文字•二维码 – 支持扫码或生成二维码图片•文档识别– 从PDF扫描件中提取文本，或转为双层可搜索PDF• 全局设置 – 添加更多PP-OCR支持的语言模型库！•命令行调用•HTTP接口•构建项目

使用源码打包

开发者可以使用源码来构建打包，但在使用源码前，务必阅读并遵循构建项目的相关指南来进行。

构建项目的指南：https://github.com/hiroi-sora/Umi-OCR?tab=readme-ov-file#%E6%9E%84%E5%BB%BA%E9%A1%B9%E7%9B%AE

直接下载包使用

1. 下载地址:

可以在GitHub[1] 和蓝奏云[2]或者Source Forge[3]上下载包。2. 使用方式:

软件发布包下载为 .7z 或 .7z.exe，自解压包可在没有安装压缩软件的电脑上，解压文件。解压后，点击 Umi-OCR.exe 即可启动程序，无需安装。如遇任何问题，可以在github上提issue。

多种语言支持

Umi-OCR 支持多国语言。在第一次打开软件时，将会根据电脑的系统设置，自动切换语言。

目前中英文都是支持的，如果需要手动切换语言，请参考下图，全局设置→语言/Language 。

界面语言设置

界面设计——标签页

Umi-OCR v2 界面设计风格像浏览器一样由一系列灵活好用的标签页组成。您可按照自己的喜好，打开需要的标签页，在每个标签页上进行特定的功能操作。

窗口的设计很人性化，在标签栏左上角可以切换窗口置顶。右上角能够锁定标签页，以防止日常使用中误触关闭标签页后导致数据丢失。

截图OCR识别示例

截图OCR

截图OCR功能：打开这一页后，就可以用快捷键唤起截图，从而识别图中的文字。

1. 使用快捷键唤起截图，识别图中的文字。

2. 左侧图片预览栏可直接用鼠标划选复制（有点类似于微信图片上的文字识别复制功能）。

3. 右侧识别记录栏可编辑文字，允许划选多个记录复制。

识别后段落合并

段落合并

关于OCR文本后处理 – 段落合并：可以帮助整理OCR结果的排版和顺序，使文本更适合阅读和使用。

预设方案选项：

•单行：合并同一行的文字，适合绝大部分情景。•多行-自然段：智能识别、合并属于同一段落的文字，适合绝大部分情景，如上图所示。•多行-代码段：尽可能还原原始排版的缩进与空格。适合识别代码片段，或需要保留空格的场景。•竖排：适合竖排排版。需要与同样支持竖排识别的模型库配合使用。

批量OCR识别

批量OCR

批量OCR：这一页支持批量导入本地图片并识别。

1. 识别内容可以保存为 txt / jsonl / md / csv(Excel) 等多种格式。2. 支持文本后处理技术，能识别属于同一自然段的文字，并将其合并。还支持代码段、竖排文本等多种处理方案。3. 没有数量上限，可一次性导入几百张图片进行任务（前提是机器性能跟得上，不然会比较慢）。4. 支持任务完成后自动关机/待机。

识别时忽略部分不需要识别的区域

忽略区域

关于 OCR文本后处理 – 忽略区域：批量OCR中的一种特殊功能，适用于排除图片中的不想要的文字。

1. 在批量识别页的右栏设置中可进入忽略区域编辑器。2. 如上方样例，图片顶部和右下角存在多个水印 / LOGO。如果批量识别这类图片，水印会对识别结果造成干扰。3. 按住右键，绘制多个矩形框。这些区域内的文字将在任务中被忽略。4. 请尽量将矩形框画得大一些，完全包裹住水印所有可能出现的位置。

二维码识别与生成

二维码

扫码识别：

1. 可截图/粘贴/拖入本地图片，读取其中的二维码、条形码。2. 支持一图多码。3. 支持19种协议，如下： Aztec,Codabar,Code128,Code39,Code93,DataBar,DataBarExpanded,DataMatrix,EAN13,EAN8,ITF,LinearCodes,MatrixCodes,MaxiCode,MicroQRCode,PDF417,QRCode,UPCA,UPCE,

生成二维码：

1. 输入文本，生成二维码图片。2. 支持19种协议和纠错等级等参数。

文档识别

仅在 最新测试版 中支持。

文档识别：

1. 支持导入pdf, xps, epub, mobi, fb2,cbz格式的文件。2. 支持识别扫描件，转为文本文件（支持所有格式文档）或可搜索双层PDF（仅支持原文件为pdf格式）。3. 支持设定忽略区域，可排除页眉页脚的文字。

全局设置参数

全局设置

全局设置：在这里可以调整软件的全局参数。常用功能如下：

1. 一键添加快捷方式或设置开机自启。2. 更改界面语言。Umi支持繁中、英语、日语等语言。3. 切换界面主题。Umi拥有多个亮/暗主题。4. 调整界面文字的大小和字体。5. 切换OCR插件。6. 渲染器：软件界面默认支持显卡加速渲染。如果在你的机器上出现截屏闪烁、UI错位的情况，请调整界面和外观 → 渲染器 ，尝试切换到不同渲染方案，或关闭硬件加速

接口调用支持

Umi-OCR可以提供图片识别server类型的服务，一方面它的exe文件可以作为主程序入口，提供命令行模式下的调用。另一方面，它可以对外提供http服务，可以用http接口的形式来访问。

命令行接口

•命令行手册：请参阅项目中的README_CLI.md文件，其中包含了关于如何使用命令行接口进行OCR操作的详细说明。文档地址：https://github.com/hiroi-sora/Umi-OCR/blob/main/docs/README_CLI.md

HTTP接口

•HTTP接口手册：具体使用方法请查看README_HTTP.md文件，该文件提供了HTTP接口的详细文档，包括API调用方式、参数说明等。文档地址：https://github.com/hiroi-sora/Umi-OCR/blob/main/docs/README_HTTP.md

协助软件界面翻译

•参与翻译：请访问dev-tools/i18n目录，该目录包含了软件界面翻译的相关资源和说明。文档地址：https://github.com/hiroi-sora/Umi-OCR/blob/main/dev-tools/i18n

后续开发计划

已完成的工作

在之前的版本中，我们已经完成了多项关键功能的开发，包括基础的OCR识别、多语言支持、用户界面优化等。

近期开发计划

在接下来的v2版本的头几个更新中，我们计划逐步推出以下新功能：

•PDF识别：将支持从PDF文件中识别文本，包括从扫描的PDF文档中提取文字。•图片翻译：实现OCR后直接翻译图片中的文本，提高用户处理外语材料的效率。

去官方网站了解更多

压缩软件7-Zip（开源版） - 最新版

一款免费开源的压缩软件：俄罗斯大神开发丨高压缩比+支持多种文件格式丨稳定安全

实用工具软件版 # 7-Zip # 压缩 # 多种文件格式

026,24821.3K 24K

蝴蝶号下载工具 - 最新版

专攻蝴蝶号解析丨视频随意保存本地丨一定要看教程

实用工具软件版 # 微信 # 短视频 # 视频

07,4176.9K 5.6K

飞侠试卷答案提取格式化 - 最新版

一款 word 秒变填空题的神器丨家长辅导、老师备课、自我测验的提效神器丨支持批量处理

下载版办公工具 # 家长辅导 # 批量处理 # 文档处理

022,44218K 19.9K

暂无评论

您必须登录才能参与评论！

立即登录

暂无评论...

Umi-OCR丨截图识别复制文字丨支持批量操作 最新版