当人工智能遇上“之乎者也”( 二 ) _人工智能

最后，将古籍划分等级，如经典书目、常读书目、基础书目，像《论语》这种经典书目，对正确率、标点和注释的要求都较高。负责人介绍，目前这些功能有的已经成型，有的还需要进一步增强，古籍数字化并非易事。
古籍数字化的现实困境
中国是全球拥有古籍最多的国家，国内现存汉文古籍300万部，散居在海外的古籍超过40万部，它们依然面临着衰朽，而已完成数字化的古籍为7.4万部，数字化进程仍处于初步阶段。
其中面临几大难点。首先是部分古籍在数字化之前要先完成修复，但古籍修复工序复杂，难以完全用科技手段，且培养古籍修复人员需要极高的时间成本。其次，花费高昂，有专家估算，如果将全国尚未数字化的古籍全部数字化，采集、组织、加工、存储、管理等费用大约需要60亿元。第三，技术难度高，现有的数字化很多是由缩微胶片转换而成，呈黑白影像且分辨率较低，难以切实满足读者的需求。
过去，古籍内容转化为数字文本主要依靠专家人工录入，耗时费力。北京大学数字人文研究中心主任王军算过一笔账：我国现存古籍约有20万种，从1949年到2019年，共修复整理出版了近38000种，要将现存古籍全部修复整理出来，可能需要三百年的时间。若利用人工智能技术辅助修复整理，大概二三十年就能完成。
相关负责人介绍说，目前古籍的使用人数众多，一些高校斥资买古籍数据库，但是访问不是很方便。建立数字化平台，各类学科的专业人士能更容易查看古籍文献。一些潜在的古籍爱好者，数字化平台可将这部分用户迅速连接起来。
目前，识典古籍测试版的句读错误率在3%到4%，文字识别也有一定的错误率存在，影响阅读体验。在人工智能机器学习一段时间后，准确率将会提升到98%左右。

文章插图
古籍修复师在工作
作为北京大学-字节跳动数字人文开放实验室的成员，王军有着丰富的古籍数字化经验，他曾研发过“《宋元学案》知识图谱可视化系统”，对240万字的《宋元学案》进行了文本处理和分析，将2000多位宋元理学学者、近100个学术流派所涉及的人物、时间、地点、著作等提取出来构造成知识图谱。
据他介绍，对于识典古籍的开发和应用，北京大学主要从三方面入手，第一，联络国内的图书馆寻求公版资源，保障版本的正当性；第二，联系北师大、复旦、南大、陕西师大等高校的学者和文献专家，进行人工审核与校对，弥补人工智能有识别错误率的短板；第三，北大利用自有的学术平台，链接学术界和高校的年轻用户，对识典古籍进行推广。
古籍保护的更多可能
字节跳动旗下有多个信息分发平台，沉淀着大量关于内容平台的经验和技术，这些技术可以逐渐向古籍智能数字化的方向上迁移。过去半年，识典古籍技术开发团队整合了包括字节跳动人工智能实验室、今日头条的设计团队和抖音的开发、测试团队成员加入，其中有不少是古文献专业和文史哲专业的成员。
识典古籍在使用性上强调用户体验，网页打开流畅。主页有检索栏，用户可直接搜索书目；右上方是书库，点进去可看到经、史、子、集四个栏目；下方是古籍书样，如《周易》、《荀子》、《左传》，主页下方是“儒家经典”“道家经典”“文学经典”三个栏目。点开一本书，左边是目录，右边是正文，上方有四个功能项，依次点击可看到古籍原本的影像、注疏、繁简字体切换以及书库，且每部古籍都有精校和粗校的标签提示。

文章插图
点开古籍呈现出的界面
目前识典古籍只有网页版，相关技术负责人预测，今年11月份识典古籍将会推出移动端，到时会链接到抖音和今日头条，活化更多的古籍内容。
在数字化之外，一年多来，字节跳动在古籍修复和活化上也有所进展。现在，字节跳动资助国家图书馆定向修复的珍贵古籍104册件，现已完成50多册件，包括一批稀有的样式雷图档。在活化方面，抖音平台推出“寻找古籍守护人”计划，四大名著、二十四史、四书五经相关的视频播放量超过600亿次，涵盖漫画、影视、美食、音乐等多种内容体裁。
古籍承载着中华文明，它的传播是需要大众参与。未来，通过识典古籍，向全社会开放古籍阅读检索研究能力，还将实现全自动整理校对，更高效地实现存量古籍全部数字化。同时，鼓励拥有文献的学者自行上传文献，丰富平台内容，用户甚至可参与再创作和再阐释，与平台形成一种良性互动，助力古籍文化传承和研究。