大模型时代的下OCR,“CPU味道”更重了

来源:量子位 作者:金磊、杨净
经典技术OCR(光学字符识别),在大模型时代下要“变味”了 。
怎么说?
我们都知道OCR这个技术在日常生活中已经普及开了,像各类文件、身份证、路标等识别,可以说统统都离不开它 。
而随着近几年大模型的不断发展,OCR也迎来了它的“新生机”——
凭借自身可以将文本从图片、扫描文档或其他图像形式提取出来的看家本领,成为大语言模型的一个重要入口 。

大模型时代的下OCR,“CPU味道”更重了

文章插图
在这个过程中,一个关键问题便是“好用才是硬道理” 。
过去人们会普遍认为,像OCR这种涉及图像预处理、字符分割、特征提取等步骤的技术,堆GPU肯定是首选嘛 。
不过朋友,有没有想过成本和部署的问题?还有一些场景甚至连GPU资源都没得可用的问题?
这时又有朋友要说了,那CPU也不见得很好用啊 。
不不不 。
现在,大模型时代之下,CPU或许还真是OCR落地的一种新解法 。
例如在医保AI业务中,在CPU的加持之下,医疗票据识别任务的响应延时指标,在原有基础上提升达25倍!
大模型时代的下OCR,“CPU味道”更重了

文章插图
为什么会有如此大的转变?
一言蔽之,因为此前做OCR任务的时候,CPU的计算潜能并没有完全释放出来 。
OCR,进入CPU时代那么到底是谁家的CPU,能让经典OCR产生这般变化 。
不卖关子 。
它正是来自英特尔的第四代至强® 可扩展处理器 。
据了解,第四代至强® 可扩展处理器增加了每个时钟周期的指令,每个插槽多达60个核心,支持8通道DDR5内存 。
在内存宽带方面实现了50%的性能提升,并通过每PCIe 5.0(80个通道)实现了2倍的PCIe带宽提升,整体可实现60%的代际性能提升 。
大模型时代的下OCR,“CPU味道”更重了

文章插图
但解锁如此能力的,可不仅仅是一颗CPU这么简单,是加成了英特尔软件层面上的优化;换言之,就是“软硬一体”后的结果 。
而且这种打法也不是停留在PPT阶段,而是已经实际用起来的那种 。
例如国内厂商用友便在自家OCR业务中采用了这种方案 。
大模型时代的下OCR,“CPU味道”更重了

文章插图
性能比较上,用友在第三/第四代英特尔® 至强® 可扩展处理器上进行了算法对比,推理性能提升达优化前的3.42倍:
大模型时代的下OCR,“CPU味道”更重了

文章插图
而在INT8量化后的性能更是提升到原来的7.3倍:
大模型时代的下OCR,“CPU味道”更重了

文章插图
值得一提的是,OCR的响应时间直接降低到了3秒以内,还是切换架构不影响业务,用户无感知的那种 。
除了用友之外,像亚信科技在自家OCR-AIRPA方案中,也是采用了英特尔的这套打法 。
大模型时代的下OCR,“CPU味道”更重了

文章插图
【大模型时代的下OCR,“CPU味道”更重了】与用友类似的,亚信科技实现了从FP32到INT8/BF16的量化,从而在可接受的精度损失下,增加吞吐量并加速推理 。
从结果上来看,人工成本降至原来的1/5-1/9,效率还提升约5-10倍 。
由此可见,释放了AI加速“洪荒之力”的CPU,在OCR任务上完全不亚于传统GPU的方案 。
那么问题来了:
英特尔是如何释放CPU计算潜力的?实际应用过程中,企业通常选择自己使用CPU来做OCR处理,但由于缺乏对CPU硬件加速和指令集的了解,就会发现CPU处理性能与理想峰值相差甚远,OCR程序也就没有得到很好的优化 。
至于以往更常见的GPU解决方案,始终存在着成本和部署的难题 。一来成本通常较高,且很多情况下,业务现场没有GPU资源可以使用 。
但要知道OCR本身应用广泛、部署场景多样,比如公有云、私有云,以及边缘设备、终端设备上……而且随着大模型时代的到来,作为重要入口的OCR,更多潜在场景将被挖掘 。
于是,一种性价比高、硬件适配性强的解决方案成为行业刚需 。
既然如此,英特尔又是如何解决这一痛点的呢?
简单归结:第四代至强®? 可扩展处理器及其内置的AI加速器,以及OpenVINO™? 推理框架打辅助 。
当前影响AI应用性能的要素无非两个:算力和数据访问速度 。第四代至强®? 可扩展处理器的单颗CPU核数已经增长到最高60核 。


推荐阅读