利用统计数据进行文学研究后发现,那些说要少用副词、作品要简洁的作家,往往自己并没有做到

本文刊载于《三联生活周刊》2019年第12期“生活圆桌”栏目 , 原文标题《用大数据研究文学的发现》

文/茸成

利用统计数据进行文学研究后发现,那些说要少用副词、作品要简洁的作家,往往自己并没有做到

----利用统计数据进行文学研究后发现 , 那些说要少用副词、作品要简洁的作家 , 往往自己并没有做到//----[ http://www.caoding.cn]

图 谢驭飞

一个学数学的人可以热爱文学 , 但也许他只是刚好拥有这两种不同的爱好而已 , 就如同一个学物理的同时也喜欢听摇滚 。 华师大数学系教授周克希后来转行去做翻译 , 他就说 , 翻译和数学并没有多少关系 。 但华师大中文系教授陈大康本科学的是数学 , 他上世纪80年代起就用数学研究文学 , 发表了《人物性格的数学抽象与定量分析》《从数理语言学看〈红楼梦〉后40回的作者》等文章 。 毕业于哈佛大学应用数学专业的美国采访人员本·布拉特用大数学分析了众多经典文学名著和畅销书 , 他说:“在任何一个领域 , 如果拥有数十万个数据点 , 那么对这些信息进行挖掘一定有助于研究人的行为和心理 。 我相信 , 挖掘文学同样是有效的 。 ”

布拉特统计了作家们最喜欢用的词 , 因为“作家最喜欢的词能反映他们作品的独特语气或主题” 。 他的分析结果和我们对作家的印象确实比较吻合 , 比如华裔作家谭恩美最喜欢的词是“葫芦”“花生”和“面条” , 简·奥斯丁最喜欢的词是“礼貌”“幻想”和“轻率” , 爱喝酒的海明威最喜欢的词里有“干邑” , J.K.罗琳最喜欢的词是“魔杖”“巫师”和“魔药” , 纳博科夫最喜欢的词依次是“淡紫色”“平庸的”和“双关语” 。

比较让人感到意外的是作家使用陈词滥调的情况 , 使用陈词滥调最多的作家除了畅销书作家詹姆斯·帕特森、史蒂芬·金 , 居然还有作品难懂的詹姆斯·乔伊斯 , 使用陈词滥调最少的作家是简·奥斯丁、伊迪丝·沃顿、伍尔夫、福克纳等 。

我儿子从二年级开始 , 语文课上有写话练习 , 他的开头总是 , “一天 , 天气晴朗……”看了本拉特的分析 , 我也就释然了 , 他说:“尽管饱受诟病 , 老套的天气开头仍然是许多作者的备用手法 。 比如奥威尔《1984》里那句被认为是有史以来最伟大的开篇之一:‘四月寒冷晴朗的一天 , 钟敲了十三下 。 ’用天气开篇不一定糟糕 , 尤其是奥威尔这样的开头 , 足以挑起读者的期待 。 即使在最受推崇的作品中 , 天气仍然是一个常见的开篇模式 , 在86部普利策奖获奖作品中 , 有13部用天气开头 。 ”

有人批评说 , 用数据分析搞文学研究 , 就像是通过计算建筑物正面的墙上用了多少块砖来搞建筑评论 。 布拉特也承认:“分析数字进行计算 , 可以帮助我们阅读和发现其中的模式 , 但不能告诉我们该在什么时候打破模式 。 ”搞清楚画家用的各种颜料的比例、作曲家用了哪些音符 , 并不能解释哪些作品就成了名作 。 但统计数据给出的一些结果会纠正我们对文学一些错误的直觉 , 比如有的作家说要少用副词 , 其实他本人并没做到;作品要简洁 , 但作者走红后 , 常常会越写越长 。


    推荐阅读