PaddleOCRLabel是基于百度飞桨(PaddleOCR)开发的一款半自动标注平台。
本项目提供了不需要任何编译工作就可以直接运行的方法。 解压缩根目录下的PaddleOCRLabel-Release-1.0.zip,运行其中的exe文件,可以直接使用。 此时,该exe程序使用的PaddleOCR服务,是作者搭建在一台云服务器上的服务,地址是http://1.117.249.116:5000。
1. 运行python_rest
python_rest是一个使用Python Flask编写的Rest服务,调用paddleocr库,获取扫描识别后的文字。(python_rest所用到的Python第三方库请自行安装)
运行命令: cd python_rest python rest.py
python_rest服务可以运行在本机,默认会在本机启动一个http://127.0.0.1:5000的服务。
python_rest服务也可以运行在另一台linux服务器上。点击COR自动标注软件的菜单“设置”->“设置代理”中,把代理服务器的地址,配置为linux服务器的ip和端口即可。
2. 运行paddle_ocrlabel项目
使用Visual Studio 2017打开paddle_ocrlabel目录下的paddle_ocrlabel.sln即可。
3. 不使用Visual Studio 2017,直接运行paddle_ocrlabel
解压缩PaddleOCRLabel-Release-1.0.zip,运行paddle_ocrlabel.exe即可
python_rest目前支持三个服务:
[POST]输入参数为图片本地的路径,只返回检测区域
http://127.0.0.1:5000/recognition
[POST]输入参数为图片本地的路径,返回检测区域和识别文本
http://127.0.0.1:5000/regregion
[POST]输入参数为图片本地的路径和局部区域的坐标,返回这个局部区域的识别文本
点击软件左上角的“打开目录”按钮,打开要标注的图片所在的目录。
点击软件左下角的某张图片,点击“单张标注按钮”,对该图片进行标注。
点击软件左上角的“全部标注按钮”,对该目录下的所有图片进行标注。
点击标注按钮后,获取到的标注区域,会显示在图片上为蓝色边框的矩形框,并自动保存在本地。
软件中间的标注区域,虚线为安全区域分界线,手动标注只能在安全区域内进行。
对服务返回的标注结果不满意?可以手动标注,包括以下几个步骤:
6.1) 点击软件右上角的“启动矩形标注”按钮,然后就可以在软件中间的标注区域,用鼠标圈选区域了。新选的区域的边框为橙色。同时,会在软件左下角的标注区域的列表中新增一个条目,显示新增标注区域的坐标。
6.2) 点击软件右上角的“重新识别选中区域”按钮,会调用python_rest服务,返回该区域的文字,显示在软件左下角的标注区域的列表中。
6.3)软件也支持四点标注功能,点击“启动四点标注”按钮,先后在图片上点击四个点,就显示出一个橙色区域,然后点击“重新识别选中区域”按钮,识别橙色区域中的文字。
<img src="./images/a4.png" width="300">
对于返回的识别区域的坐标和文字,显示在软件左下角的标注区域的列表中。有两种排序方式,一种是通用的横排版书籍(自上而下,从左到右),另一种是竖排版的古籍(从右到左,自上而下),可以灵活切换。
对于手动标注和重新识别文字的结果,可以保存至本地,点击软件右上角的“保存标注”按钮即可,也可以使用快捷键Ctrl+S。
手动标注过程中,支持回滚操作,点击软件右上角的“撤销标注”按钮即可,也可以使用快捷键Ctrl+Z。回滚支持以下操作:
9.1)新增矩形标注
9.2)新增四点标注
9.3)删除标注
9.4)移动标注位置
9.5)重新ocr识别后改变文本内容
9.6)手动修改文本内容
软件左上角的的单选框,默认选中“只检测文字区域”,这样python_rest服务只返回检测到的区域的坐标,而不进行文字识别,这样很快就能返回结果。如果选择“检测区域,并识别文字”,则python_rest服务不光返回区域的坐标,还会返回识别的文字,接口速度要比前面的慢一些。
标注区域支持选中和移动功能。用鼠标选中某个标注区域,该区域的边框会变为红色,可以使用鼠标移动到另一个区域。
点击标注区域,可以看到标注的四角都有一个小矩形框,拖拽小矩形框,可以改变标注区域的形状。
标注区域支持删除功能,用鼠标选中某个标注区域,按删除键即可删除之。
双击右下角的标注列表的某个节点,会弹出修改标注内容的对话框。
软件左边的“到处该目录下所有标注”,可以把该目录下所有图片的标注内容,导出为一个log格式的文件,以供PaddleOCR训练时作为训练数据使用。
此处可能存在不合适展示的内容,页面不予展示。您可通过相关编辑功能自查并修改。
如您确认内容无涉及 不当用语 / 纯广告导流 / 暴力 / 低俗色情 / 侵权 / 盗版 / 虚假 / 无价值内容或违法国家有关法律法规的内容,可点击提交进行申诉,我们将尽快为您处理。