对于人文研究来说,计算方法以往只是作为辅助手段而存在的,而今天已取得了不可替代的地位。一种新的人文研究形态应运而生,这就是“数字人文”。学者莫莱蒂曾设想一种建立在全部文学文本之上的世界文学研究,人们必须借助计算机对大规模的文学文本集合进行采样、统计、图绘,分类,描述文学史的总体特征,然后再做文学评论式的解读。为此,他提出了与“细读”相对的“远读”作为方法论。弄清计算机的远读与人的细读之间的差别,不仅能使我们清晰地界定计算方法在人文研究中的作用,而且可以帮助我们重新确立人的阅读的价值。
计算机是为科学计算而创造出来的,擅长的是“计数”,而非理解。要处理自然语言文本,计算机必须先将文本置换成便于计数的词汇集合,或者用更复杂的代数模型和概率模型来表示文本,这一过程被称为“数据化”。数据化之后所得到的文本替代物(集合、向量、概率)虽然损失了原始文本的丰富语义,但终究是可以计算的了。不过,尽管计算机能处理海量的语料,执行复杂的统计、分类、查询等任务,但它并不能理解文本的内容。
远读是数字人文的基石。大规模的文本集合上的远读,基本上可以归为两类:一是对文本集合整体统计特征的描述,一是对文本集合内在结构特征的揭示。例如,数字人文学者米歇尔等人对数百万册数字化图书进行多种词汇和词频统计,以分析英语世界的语言演变,这属于前者;莫莱蒂用地图、树结构来分别展示文学作品的地理特征和侦探故事的类型结构,这属于后者。无论是宏观统计描述还是内在结构揭示,都是超越文本具体内容的抽象表示,所得结果都是需要解读的。正如米歇尔所说,在巨量文本集合上得到的统计分析结果,为人文材料的宏观研究提供了证据;但是要解读这些证据,就像分析古代生物化石一样,是有挑战性的。对远读结果的解读,仍然是依赖学者在细读文本的基础上所建立起来的对本领域的认知和理解。一句话,人的阅读不可替代。
需要补充的是,当考查单篇文本的文本特征(例如计算一篇文档中所有单字的出现频率),或者分析其内部结构(例如提取一部小说中所有人物的对话网络)时,数据量也会增长到个人无法处理的程度。所以,上述对文本集合所做的讨论在单篇文本层面也是成立的。
一个普遍存在的对数字人文的评判依据,是看数字人文能不能更好地回答传统人文学者所关心的问题。严格说来,只有当数据量或者数据精度超出了个人阅读理解的能力范围时,才有理由借助计算机来对文本或者文本集合的特征予以量化描述,进而提供给人去进行深入解读。数字人文不仅仅是新的手段和方法,更重要的是,它赋予我们提出新问题的能力。我们现在可以问,五千年来全人类使用最频繁的词是什么。透过这类问题,可以获得观察超长历史时段文化现象的新视角。
(摘编自王军《从人文计算到可视化——数字人文的发展脉络梳理》)