古文字考释与人工智能

作者:吴振武(吉林大学考古学院教授、博士生导师)
“人工智能+”已经跟很多行业发生关系 。据人工智能专家介绍 , 凡是边界清楚的问题 , 最适宜用人工智能来解决 。因此 , 像古文字考释这种道理上只允许存在一种正确结论的学问 , 利用人工智能技术来辅佐研究 , 自然再适合不过 。事实上 , 古文字行业大概在30多年前 , 已有学者在探索利用计算机帮助缀合那些破碎的甲骨片子 。最近看到“AI驱动的甲骨缀合”报道 , 是古文字学家和计算机专家合作 , 利用人工智能技术缀合了一批甲骨碎片 , 似乎相当准确 。而诸如图像捕捉与提取、字形识别与转换、数据聚合与分类等与人工智能有关的工作 , 也都有学者在努力研究 , 并都有喜人突破 。其目的都是希望靠计算机来解决人工做起来十分烦琐且不容易准确的工作 。
这里举几个自己以往考释古文字的例子 , 来说明人工释读古文字的很多关键点今后是完全有可能利用人工智能技术去帮助解决的 。
第一 , 古文字中有些字 , 形体非常接近 , 却是不同的两个字 。
古文字考释与人工智能
文章图片
文章图片
图一
如甲骨文、金文中的“並”和“替” , 差别只在它们所从的两个“立” , 一是左右并排(並) , 一是高低错落(替) 。楚文字中的“之”和“出” , 差别只在最底下一笔 , 一作平画(之) , 一作上弯形(出) 。历史上 , 在学者正确分辨出来之前 , “替”字都被误释成“並”;而楚国印章中的“出” , 也多被误释为“之” , 致使一些重要商业史料被湮没 。20世纪30年代 , 在洛阳金村出土的一批青铜方壶上 , 都有记录容量和重量的铭刻 。在容量“四斗”之后 , 有“[~符号~]([~符号~])客”二字 , 过去多有误释 , 目前最流行的释法就是释为官名“[~符号~](司)客” 。我多年前曾在一次演讲中指出 , “客”前一字 , 跟“[~符号~]”字是有区别的 。其所从的[~符号~] , 不但比“司”字所从的[~符号~]少一画 , 连首笔的斜度 , 也就是笔势 , 二者都是不同的 。这个字实际上就是“以”字 。释作“以” , 不但字形上解释起来毫无障碍 , 文意也极为通畅 。“以客”要读作“已格” , 就是已经校量过了的意思 。“以”读“已” , 在古书中本是很常见的 , 而“客”与“格”的通假 , 早在西周铜器铭文中就已出现过了 。近年新出的好几件记容铜器上 , 都发现“客”读作“格”(度量)的例子 。而三晋记容铜器铭刻中 , 也曾出现过“已[~符号~](校)”这样的话 。所以金村方壶铭文中这两个字的正确释读 , 一定是“以(已)客(格)” , 而不能是其他 。这种字形上的细微差别 , 往往是误导学者释读的一个重要原因 。
第二 , 即使字都不难认识 , 但因某些特殊情况的存在 , 也会导致人眼的疏忽 , 进而导致错误的释读 。
古文字考释与人工智能
文章图片
文章图片
图二
过去我曾讲过一个反书的例子:徐国青铜器上曾出现过“鱼腊”(腊音昔 , 干肉) , 这是古代礼书上常见的连举名物 , 但因“鱼”字在铭文中是反写的(与铭文铸造有关) , 结果导致各种各样的误释 , 致使我们丧失一次古代礼制方面的“二重证据”机会 。这里再举一例:《古玺汇编》2238号是一枚三晋阳文小方印(图一) , 旧以为其上只有三个字 , 定为私印 。我在2006年审读一篇博士学位论文时曾指出 , 此印实际上是五个字 , 前两个字的下部 , 都含有合文符号“=”(两个字合在一起占一个字的地位 , 称为合文) 。只是因为印面地位狭窄 , 加上所有文字都并排横列 , 所以看起来非常隐晦 , 以致一般研究的人都会疏忽放过 。正确的释读应该是“曲邑匀邑守” , 是一方很特殊的官印 。过了11年 , 2017年 , 陕西收藏家公布了一方新发现的类似三晋官印 , 印文是“曲邑武阴守” , 其上“曲邑”二字也同样作合文并有合文符号(《戎壹轩藏三晋古玺》) , 证实了我之前的看法(图二) 。


推荐阅读