中年|8.6M超轻量中英文OCR模型开源，训练部署一条龙 | Demo可玩( 二 ) |ocr|轻量|

而且这个8.6M超轻量开源模型，背后还有大厂背书。
因为出品方不是别人，是国产AI开发一哥百度，他们把这个最新开源的OCR工具库取名：PaddleOCR 。
8.6M的通用OCR模型如何炼成
PaddleOCR发布的超轻量模型，主要由4.1M的检测模型和4.5M的识别模型组成。
其中，检测模型的Base模型采用DB算法，文本模型的Base模型采用经典的CRNN算法。
鉴于MobileNetV3在端侧系列模型中的优越表现，两个模型均选择使用MobileNetV3作为骨干网络，可将模型大小初步减少90%以上。

本文插图
除此之外，开发人员还采用减小特征通道数等策略，进一步对模型大小进行了压缩。

模型虽小，但是训练用到的数据集却一点也不少，根据项目方给出的数据，模型用到的数据量（包括合成数据）大约在百万到千万量级。

本文插图
但是也有开发者可能会问，在某些垂类场景，通用OCR模型的精度可能不能满足需求，而且算法模型在实际项目部署也会遇到各种问题，应该怎么办呢？

本文插图
PaddleOCR从训练到部署，提供了非常全面的一条龙指引，堪称「最全OCR开发者大礼包」。
「最全OCR开发者大礼包」

本文插图
△礼包目录，堪称业界最全
支持自定义训练
OCR业务其实有特殊性，用户的需求很难通过一个通用模型来满足，之前开源的Chineseocr_Lite也是不支持用户训练的。
为了方便开发者使用自己的数据自定义超轻量模型，除了8.6M超轻量模型外， PaddleOCR同时提供了2种文本检测算法（EAST、DB）、4种文本识别算法（CRNN、Rosseta、STAR-Net、RARE），基本可以覆盖常见OCR任务的需求，并且算法还在持续丰富中。

特别是「模型训练/评估」中的「中文OCR训练预测技巧」，更是让人眼前一亮，点进去可以看到「中文长文本识别的特殊处理、如何更换不同的backbone等业务实战技巧」，相当符合开发者项目实战中的炼丹需求。

本文插图
打通预测部署全流程

对开发者更友好的是， PaddleOCR提供了手机端（含iOS、Android Demo）、嵌入式端、大规模数据离线预测、在线服务化预测等多种预测工具组件的支持，能够满足多样化的工业级应用场景。
数据集汇总
项目帮开发者整理了常用的中文数据集、标注和合成工具，并在持续更新中。
目前包含的数据集包括：
5个大规模通用数据集（ICDAR2019-LSVT ， ICDAR2017-RCTW-17 ，中文街景文字识别，中文文档文字识别， ICDAR2019-ArT）
大规模手写中文数据集（中科院自动化研究所-手写中文数据集）
垂类多语言OCR数据集（中国城市车牌数据集、银行信用卡数据集、验证码数据集-Captcha、多语言数据集）
还整理了常用数据标注工具（labelImg、roLabelImg、labelme）、常用数据合成工具（text_renderer、SynthText、SynthText_Chinese_version、TextRecognitionDataGenerator、SynthText3D、UnrealText）
并且开源以来，受到开发者的广泛关注，已经有大量开发者投入到项目的建设中并且贡献内容。

中年|8.6M超轻量中英文OCR模型开源，训练部署一条龙 | Demo可玩( 二 )

推荐阅读

穿搭|钟丽缇大女儿晒泳照！一袭黑色U领bra勾勒性感身材，笑容甜美

女性形象管理蒙娟|还是可以打扮的多变又好看，让上班心情不要太厌世！，天天穿白衬衫当制服

『十大方面』十大方面论证游泳婴幼儿与不游泳婴幼儿的区别

小晴天儿0707|你好！，30岁

良渚文化展——陶器时代-艺创网

孟川|恭喜！巨兴茂小15岁娇妻晒孕妇照，正式官宣怀孕，肚大如箩仍运动

都市星座说TB|但是最撩人的三个星座，虽然冷淡

木爱科技树重磅消息！中国安芯半导体：交付两台国产光刻机

&lt|信达地产联合控股股东竞买青岛金泰盛源

我美丽的家乡作文450字我美丽的家乡-我的家乡最美丽作文500字-

王者荣耀1v1的话，哪个英雄可以打得过貂蝉？

洗脸帕怎么清洗洗脸帕怎么洗脸

全国党媒信息公共平台|鲁西集团：分段包工制促进效率提升

高铁|河南又现“猛虎”城市，4627亿357个项目同时开工，未来将通高铁

无锡博报吹空调追剧刷手机……这样的夏天够不够健康？

怎样的夫妻能白头偕老?所谓白头偕老并没有什么秘籍只是在相爱时

教师节|靖边三中隆重举行开学典礼暨教师节庆祝大会

美通社头条| 美通社，“5G应用与产业可持续发展论坛”即将举办

长得好看的女生为啥没有对象?

中国新闻网|湖北一中型水库出现散浸和脱坡转移民众2.8万余人