软件工具

免费无限制、跨平台可离线的文字识别工具 - PearOCR


说到 OCR 图片文字识别,小编曾经介绍过不少相关工具(),大家应该都不会陌生。
不过这些OCR软件都涉及将本地图片上传服务器的操作,或是需要调用百度、腾讯、讯飞等大厂的OCR API(识别引擎与相关接口),如果部分私密图片需要识别的话,不妨可以试试OCR工具“新秀”——PearOCR。

PearOCR 主要特色
完全免费——市面上提供OCR的软件大部分有各种限制(识别次数或者文件大小),需要收费才能解除限制,而PearOCR的识别完全免费,没有次数和文件大小限制。本地运算——市面上的OCR软件大部分是利用大公司的API进行识别,需要把图片上传到服务器再返回识别结果,这个过程有可能导致个人数据的泄露和滥用。PearOCR基于自研的轻量化识别引擎,整个过程都在本地运算,不会把图片或者识别结果上传,从原理上保护数据安全。优化排版——PearOCR的识别结果采用和原图文本相同位置的排版,便于进行文字的提取和分析无需下载——PearOCR所有过程均在网页端完成,无需下载任何软件,点开即用PDF导出——提供导出PDF的功能,把图片和文本都集在同一个PDF中,方便存档和对照,同时提供了不同的PDF排版选项

PearOCR 支持本地图片和剪贴板,所有的运算都是纯前端完成,图片和识别数据都不会经过服务器,把 OCR 做成一个网页只是为了无需下载点开即用,网页加载完成后断开网络一样可以正常识别,不会和服务器有数据交互。

快速上手PearOCR
打开PearOCR主页(https://pearocr.com/)就可以使用,首次使用需要联网加载本地程序,推荐使用Chrome、Edge浏览器,直接点击添加本地文件即可。
此后,哪怕你没有网络,都可以再打开这个网页并使用,因为程序已经缓存到本地了。

PearOCR使用非常简单,它提供有多种加载图像的方法,支持拖拽、本地图片上传、剪贴板加载三种方式进行识别,左侧图片区域,上传之后右侧自动识别结果。
除了通过打开选择对话框,还可以直接把文件拖到识别框内进行识别:

PearOCR可以直接读取剪贴板的图像,配合截图工具(如微信,QQ),截图完直接识别,无需另存为本地文件(除了点击按钮,也可以通过Ctrl+V快捷键加载剪贴板中的图像)。
PearOCR提供了三种方式查看识别的结果文本。一是带位置信息的文本(推荐),可以按照原图中出现文本的位置进行排版,这种方式能十分方便地从杂乱的文本中提取所需信息。

为了方便对照,PearOCR提供了图片衬底的功能,能在图片上面对应位置显示文本,更方便地查看识别结果二是纯文本,把识别的文本位置从上到下排列组合成一段文本,这种方式适用于规则的从上到下排版的文本段。
三是表格,识别的结果以附带识别置信度的表格形式呈现,这种方式用于评估识别效果。

除了标准的文档,对于表格的识别也很准确。
如果遇到识别错误,那么可以手动进行修正,编辑好识别结果后,我们可以选择直接复制,也可以点击“PDF”的图样,我们的识别文字就可以以“PDF”格式进行导出。
当然,在识别过程中有时候会出现错误的识别结果,这时候可以手动修正。在纯文本模式下可以直接修正,表格模式不支持修正,这里着重要说明的是位置文本模式下的修正。默认情况下,位置文本不能编辑,需要打开编辑开关后才能编辑文本,绿色表示经过编辑的文本。

完成识别之后,PearOCR支持导出识别结果为PDF用于归档和日后查阅,导出PDF我们还可以进行选择——导出数据、文字位置、附带原图等多项设置,并且支持隐藏文字的方式,能直接在图片上选择和复制文本,PearOCR支持先预览PDF的导出效果!

本地运算

市面上绝大多数的识别软件都需要将图片上传到开发商的服务器,或者诸如腾讯云、阿里云、讯飞等云端识别引擎 API 进行识别,再将结果返回给用户的,这个过程可能会有隐私数据泄露和被滥用的风险。

而 PearOCR 文字识别采用的不会把图片或者识别结果上传,即便断网离线了 OCR 识别一样可以正常工作,无需和服务器进行任何数据传输,从原理上保护数据安全。

而且也可以从侧面说明,PearOCR 采用的是自研识别引擎,而非使用大厂的API识别。

要知道市面上的白描等其他OCR软件,大多是百度、微软等大厂的API调用,所以识别效果几乎一样。

离线安装

虽然 PearOCR 是网页版工具,但它支持 “PWA” 应用模式,可以将该网页变成 “应用” 的方式安装到你的电脑桌面,之后即便完全离线也依然可以使用。常用的 Chrome、Edge、Firefox 浏览器都支持 PWA 标准。
以谷歌浏览器Chrome为例,打开 PearOCR 官网,只要点击地址栏上的安装图标,然后选择安装即可。
安装后在桌面可以看到 PearOCR 的图标,点击图标即可打开 PearOCR 。

Edge 浏览器安装方法类似 Chrome 浏览器,但是安装后不会在桌面显示图标,而是加到 Windows 应用列表里。


目前 Firefox 与 Safari 等浏览器不支持安装为应用,但同样支持 PWA 离线使用,也就是在没有网络的情况下正常使用 PearOCR 。
如果不想要 PWA 应用了,谷歌浏览器可以在应用的菜单里选择卸载,Edge 浏览器在控制面板中卸载。

小结
PearOCR网站手机端用起来也很给力,同样可以添加桌面快捷方式。
只是移动设备上目前没有进行页面自动适配,我们可以双击页面,即可自动缩放到合适效果,一点都不影响使用体验。


PearOCR相较于白描等云OCR的前辈来说还是个“新兵”,其自研的OCR引擎在识别效率和准确度方面还有很大提升空间,不过如果只是临时应急使用或是考虑私密内容识别,PearOCR还是值得体验的,大家有兴趣不妨试试看!
PearOCR 网站:https://pearocr.com/

小飞
没有人可以左右你的人生,只是很多时候我们需要多一些勇气,去坚定自己的选择。
查看“小飞”的所有文章 →

发表评论

您的电子邮箱地址不会被公开。 必填项已用*标注

相关推荐