想让文本识别更“智能”，来数据堂获取这些OCR转写数据！

近年来，学生党们拥有了一款新的学习神器——拍照搜题。当遇到不会做的题目时，只需要对着题目拍照，手机中就会出现这道题目的详细解答思路和答案。
“拍照搜题”背后的黑科技就是光学字符识别技术，即OCR 。 OCR是指电子设备，例如扫描仪或相机检查纸上打印的字符，通过检测暗、亮的模式确定其形状，然后用字符识别的方法将形状翻译成计算机文字的过程。

想让文本识别更“智能”，来数据堂获取这些OCR转写数据！
文章图片

OCR的应用领域十分广泛。最早为我们熟知的“哪里不会点哪里”的点读机就应用了OCR 。点读机的点读笔中装有一个扫描文字的摄像头，当点读笔接触到书本后，便可将文字内容识别和提取。
作为常用的一款办公软件，扫描全能王可以实现“图片转文字”的功能。软件可以识别各种文件类型中的文字信息，这是非常典型的OCR技术的应用。

想让文本识别更“智能”，来数据堂获取这些OCR转写数据！
文章图片

目前，文本识别分为以下几类：
· 通用文字识别：一般是指如PDF等不规则文档类的识别。
·卡证识别：包括身份证、银行卡、营业执照、名片、护照、港澳通行证、户口本、驾驶证、行驶证等等。
· 票据识别：包括增值税发票、定额发票、火车票、出租车票、行程单、保单、银行单据等等。
· 其他：如车牌、车辆合格证、印章检测等等。
随着分类的不断拓展， OCR技术的应用场景也越来越广泛，以下是几个应用较为成熟的领域：
· 远程身份认证：结合OCR和人脸识别技术，实现用户证件信息的自动录入，并完成用户身份验证。应用于金融保险、社保、O2O等行业，有效控制业务风险。
· 内容审核与监管：自动识别图片、视频中的文字内容，及时发现涉黄、涉暴、政治敏感、恶意广告等不合规内容，规避业务风险，大幅节约人工审核成本。
· 纸质文档票据电子化：通过OCR实现纸质文档资料、票据、表格的自动识别和录入，减少人工录入成本，提高输入效率。
针对上述的场景，基于深度学习的技术而言，训练数据的数量很大程度上影响了技术效果。
数据堂作为深耕于AI数据领域近10年的人工智能数据服务提供商，一直致力于为全球人工智能企业提供专业的数据服务。
依托自身的数据优势以及丰富的数据处理经验，数据堂推出了系列OCR标注及转写数据，为相关技术应更广泛的落地提供助力。

想让文本识别更“智能”，来数据堂获取这些OCR转写数据！
文章图片

数据涵盖8种语言、多种场景、不同拍摄角度、不同拍摄距离、不同光照条件。在标注方面，标注行级文本的四边形框，行级文本转写。

想让文本识别更“智能”，来数据堂获取这些OCR转写数据！

推荐阅读

王慧|凌晨两点转发王思聪的视频，郭德纲的妻子王慧到底怎么了？

虎扑|大巴黎0-1马赛，比赛火药味十足五人被罚下托万建功

有尿不尽的感觉怎么回事呢

白酒为什么不会结冰

华人在异乡如何过年？离家越远，越要好好过

华为|显示器也停止供应！三大韩企在美禁令下“出手”，华为终于“回应”了

盘和林经济观察|AI语音行业迎来广阔发展前景，人工智能技术走向成熟

中国新闻网|法国百余议员发表联名文章反对种族歧视声援亚裔

小纪谈育儿|会不会发育不良？准妈妈别多虑，胎动一直没有出现

新华网|直播带货7类行为将被依法查处

高氯酸酸性最强原因高氯酸的化学性质

信贷那点事|贷款常见骗局有哪些？如何避坑？

七零八落是指什么动物

中餐厅|200715 怀念王俊凯《中餐厅》美好瞬间带你瞬间回到那年夏天

想足不出户享受森林级空气，DAGX狄格空气净化器可以帮你

新手化妆教程步骤教你如何化淡妆

鄂州公安霹雳行动| 华容民警巧借微信群帮其找回家人，鄂州一男童外出走失

长顺宣传|第五个“中华慈善日”！长顺这几家单位开展“一日捐”献爱心！

企业|稳定可靠的企业税收优惠来袭

狒狒|移植动物器官：36年前女婴为活命，移植狒狒心脏，现在怎么样了？