中年|8.6M超轻量中英文OCR模型开源，训练部署一条龙

鱼羊发自凹非寺
量子位报道 | 公众号 QbitAI
要说生活里最常见、最便民的AI应用技术， OCR（光学字符识别）当属其中之一。
寻常到日常办理各种业务时的身份证识别，前沿到自动驾驶车辆的路牌识别，都少不了它的加持。
作为一名开发者，各种OCR相关的需求自然也少不了：卡证识别、票据识别、汽车场景、教育场景文字识别……
那么，这个模型大小仅8.6M ，没有GPU也能跑得动，还提供自定义训练到多硬件部署的全套开发套件的开源通用OCR项目，了解一下？
话不多说，先来看效果。

本文插图

本文插图
可以看到，无论文字是横排、还是竖排，这个超轻量模型都有不错的识别效果。

难度略高，且实际生活当中经常遇到的场景也不在话下：

本文插图
那么，如果情况更复杂一点，这么小的模型能hold住吗？

毕竟，在实际应用场景中，图像中的文字难免存在字符弯曲、模糊等诸多问题。
比如，并不高清的路牌：

本文插图
主体部分基本都识别无误，只有英文小字部分因为确实比较模糊，识别效果不太理想。

再看一张文字背景复杂的图像识别效果：

本文插图
出现一个错别字，扣一分。满分10分的话，可以打个9分了。

其实，在实际OCR项目落地过程中，开发者往往面临两个痛点：
1. 无论是移动端和服务器端，待识别的图像数目往往非常多，都希望模型更小，精度更高，预测速度更快。 GPU太贵，最好使用CPU跑起来更经济。在满足业务需求的前提下，模型越轻量占用的资源越少。
2. 实际业务场景中， OCR面临的问题多种多样，业务场景个性化往往需要自定义数据集重新训练，硬件环境多样化就需要支持丰富的部署方式。再加上收集数据之类的dirty work ，往往一个项目落地中的大部分时间都用在算法研发以外的环节中，迫切需要一套完整全流程的解决方案，来加快研发进度，节约宝贵的研发时间。
也就是说，超轻量模型及其全流程解决方案，尤其对于算力、存储空间有限的移动端、嵌入式设备而言，可以说是刚需。
而在这个开源项目中，开发者也贴心提供了直接可供测试的Demo 。
在量子位的实际上手测试中，在移动端Demo上这样一个不到10M的模型，基本上可以做到秒出效果。

在中文公开数据集ICDAR2017-RCTW上，限定图片长边尺寸960px ，测试数据与测试条件相同的前提下，将该项目与之前一度登上GitHub热榜的Chineseocr_Lite（5.1k stars）最新发布的10M模型进行测试对比。在模型大小、精度和预测速度方面，结果如下：
该8.6M超轻量模型， V100 GPU单卡平均预测耗时57ms ， CPU平均预测耗时319ms 。
而Chineseocr_Lite的10M模型， V100单卡预测速度230ms ， CPU平均预测耗时739ms 。
当然，这里面模型预测速度的提升不仅是因为模型大小更小了，也离不开算法与框架深度适配优化。
项目中给出的Benchmark如下：

本文插图
作为一名面向GitHub编程的程序员，顿时感到老板再来各种OCR需求都不方了。

中年|8.6M超轻量中英文OCR模型开源，训练部署一条龙 | Demo可玩

推荐阅读

卢伟冰|月销44万台，力压华为P40 Pro成老大，卢伟冰这波操作堪称经典

车家号|竞争力再次升级？，2021款奥德赛又是大改

厦门警方：在超市内掐伤婴儿的违法人员已被依法治安拘留

第一财经|疫情打击需求，壳牌道达尔二季度均巨亏

DrG育儿|各位家长别再跟风“婴儿游泳”了，为了孩子

高工智能汽车|AEB...，数据发布！前三季度AEB前装搭载率升至3成

户型图，求设计

汽车之家|PLUS引人观，北京车展看奇瑞，火爆瑞虎8

赵丽颖|《风吹半夏》首播：躲过了赵丽颖，却被46岁女三号给惊艳了

汽车漆面除胶小妙招去除粘胶的最快方法

『小泡泡星座』怎样看得出他们的漏洞，情感中不能努力付出真心实意的3大星座

魔兽世界字体下载排行！魔兽世界怀旧服，哪个插件最好用

蔡国庆|蔡国庆家庭照曝光，网友表示：父子帅气如兄弟，妻子素颜富婆范

官方回应个税零申报等于没纳税：可开具纳税记录

陈伟霆■陈伟霆喊话粉丝送签名照：男人的温柔，藏在细节里

宇宇爱编发|今秋流行穿这5款平价又高级的鞋子，增加时髦度，品质女人最爱款式

婚姻登记，将有大变化！

日韩欧美有哪些好看的时尚节目服装化妆时尚理念等

白酒■白酒越放越值钱？鉴酒师：这3种白酒，放1000年，也没价值

王者荣耀里物理穿透和法术穿透是什么意思,王者里的穿透是干什么用的-