最后,将古籍划分等级,如经典书目、常读书目、基础书目,像《论语》这种经典书目,对正确率、标点和注释的要求都较高 。负责人介绍,目前这些功能有的已经成型,有的还需要进一步增强,古籍数字化并非易事 。
古籍数字化的现实困境
中国是全球拥有古籍最多的国家,国内现存汉文古籍300万部,散居在海外的古籍超过40万部,它们依然面临着衰朽,而已完成数字化的古籍为7.4万部,数字化进程仍处于初步阶段 。
其中面临几大难点 。首先是部分古籍在数字化之前要先完成修复,但古籍修复工序复杂,难以完全用科技手段,且培养古籍修复人员需要极高的时间成本 。其次,花费高昂,有专家估算,如果将全国尚未数字化的古籍全部数字化,采集、组织、加工、存储、管理等费用大约需要60亿元 。第三,技术难度高,现有的数字化很多是由缩微胶片转换而成,呈黑白影像且分辨率较低,难以切实满足读者的需求 。
过去,古籍内容转化为数字文本主要依靠专家人工录入,耗时费力 。北京大学数字人文研究中心主任王军算过一笔账:我国现存古籍约有20万种,从1949年到2019年,共修复整理出版了近38000种,要将现存古籍全部修复整理出来,可能需要三百年的时间 。若利用人工智能技术辅助修复整理,大概二三十年就能完成 。
相关负责人介绍说,目前古籍的使用人数众多,一些高校斥资买古籍数据库,但是访问不是很方便 。建立数字化平台,各类学科的专业人士能更容易查看古籍文献 。一些潜在的古籍爱好者,数字化平台可将这部分用户迅速连接起来 。
目前,识典古籍测试版的句读错误率在3%到4%,文字识别也有一定的错误率存在,影响阅读体验 。在人工智能机器学习一段时间后,准确率将会提升到98%左右 。
文章插图
古籍修复师在工作
作为北京大学-字节跳动数字人文开放实验室的成员,王军有着丰富的古籍数字化经验,他曾研发过“《宋元学案》知识图谱可视化系统”,对240万字的《宋元学案》进行了文本处理和分析,将2000多位宋元理学学者、近100个学术流派所涉及的人物、时间、地点、著作等提取出来构造成知识图谱 。
据他介绍,对于识典古籍的开发和应用,北京大学主要从三方面入手,第一,联络国内的图书馆寻求公版资源,保障版本的正当性;第二,联系北师大、复旦、南大、陕西师大等高校的学者和文献专家,进行人工审核与校对,弥补人工智能有识别错误率的短板;第三,北大利用自有的学术平台,链接学术界和高校的年轻用户,对识典古籍进行推广 。
古籍保护的更多可能
字节跳动旗下有多个信息分发平台,沉淀着大量关于内容平台的经验和技术,这些技术可以逐渐向古籍智能数字化的方向上迁移 。过去半年,识典古籍技术开发团队整合了包括字节跳动人工智能实验室、今日头条的设计团队和抖音的开发、测试团队成员加入,其中有不少是古文献专业和文史哲专业的成员 。
识典古籍在使用性上强调用户体验,网页打开流畅 。主页有检索栏,用户可直接搜索书目;右上方是书库,点进去可看到经、史、子、集四个栏目;下方是古籍书样,如《周易》、《荀子》、《左传》,主页下方是“儒家经典”“道家经典”“文学经典”三个栏目 。点开一本书,左边是目录,右边是正文,上方有四个功能项,依次点击可看到古籍原本的影像、注疏、繁简字体切换以及书库,且每部古籍都有精校和粗校的标签提示 。
文章插图
点开古籍呈现出的界面
目前识典古籍只有网页版,相关技术负责人预测,今年11月份识典古籍将会推出移动端,到时会链接到抖音和今日头条,活化更多的古籍内容 。
在数字化之外,一年多来,字节跳动在古籍修复和活化上也有所进展 。现在,字节跳动资助国家图书馆定向修复的珍贵古籍104册件,现已完成50多册件,包括一批稀有的样式雷图档 。在活化方面,抖音平台推出“寻找古籍守护人”计划,四大名著、二十四史、四书五经相关的视频播放量超过600亿次,涵盖漫画、影视、美食、音乐等多种内容体裁 。
古籍承载着中华文明,它的传播是需要大众参与 。未来,通过识典古籍,向全社会开放古籍阅读检索研究能力,还将实现全自动整理校对,更高效地实现存量古籍全部数字化 。同时,鼓励拥有文献的学者自行上传文献,丰富平台内容,用户甚至可参与再创作和再阐释,与平台形成一种良性互动,助力古籍文化传承和研究 。
推荐阅读
- 快走是有氧运动吗?
- |当红男演员的青涩秘恋:最长的同居9年,却为何转身娶了别人?
- 当公司高层内斗 高层 内斗
- 这里有一些制作水果沙拉的小建议首先使用当季水果,水果沙拉的做法大最简单的做法-
- 与特朗普不同 拜登宣扬美国回来了,特朗普和拜登谁能当上美国总统-
- 蒿子怎么做好吃
- |当一个人在职场中,能力提升了,往往就会得到更多的机会
- 郑秀文|在众多天后中脱颖而出,郑秀文当年的《值得》有多火!
- 底线|当事人要求《底线》停播!案件过度渲染,掐头去尾为主因?
- 活着余华豆瓣书评,活着 余华 评价-