内容摘要:当代学者必须面对这样的现实:我们正处在一个传统媒介文献和数字文献交错并行的时代,这个时代的学者必须同时具备处理两种文献的能力才能从事学术研究。
关键词:人文;研究;发展趋势;学术研究;索引
作者简介:
当代学者必须面对这样的现实:我们正处在一个传统媒介文献和数字文献交错并行的时代,这个时代的学者必须同时具备处理两种文献的能力才能从事学术研究。
传统媒介文献大家都非常熟悉,不再胪列;数字文献大致可分为三类:传统纸本文献的数字影像、数字编码的全文文本、结构化的数据库或知识库。处理传统媒介文献,人类已经积累了数千年的经验,而处理数字文献则是一个新命题。
研究如何利用数字文献以解答人文学术问题,并探求如何,可称为数字人文研究。这是一个崭新的跨学科的研究领域,从事这个领域的学者往往来自传统人文学科、图书情报学、语言学、计算机学等学科,有着不同的学术背景,他们固然对于这个领域各有贡献,但不同学科之间的鸿沟仍然难以逾越。
其实传统人文学术为我们提供了多种知识管理解决方案,最新的解决方案可能就蕴涵在古老的文献之中,我们今天应该善加继承、利用。需要特别强调的是,电子文献不会天然比传统媒介有优势,其至少存在两个方面的缺陷,一是文本准确率,一是检索的查全率、查准率。纸本文献必须达到万分之一以下的差错率才能出版,而目前既有电子文献远低于这个水平。又,利用检索工具书,纸本文献可以达到很高的查全率和查准率,目前还没有哪种数据库或知识库超过纸本文献既有的水平。人文学者有责任总结人类既有的知识管理策略和人文学术方法论,并积极普及推广,同时也要积极学习统计学、计算语言学、计算机科学和网络技术,提出更为明确的应用需求,寻求成熟而适用的方法以实现智能化的数字人文方法;而科学家们也要破除傲慢的现代中心观和科学主义偏见,积极学习并继承人类社会积累了数千年的有效知识。
关于数字人文研究的基础理论,笔者19年前发表了《论中国古籍的数字化与人文学术研究》(《北京图书馆馆刊》1999年第2期,第28-35页),十二年前发表《索引与知识发现》(《中国索引》2006年第1期,第2-9页)和《古籍数字资源的知识库建设解析》(《数字图书馆论坛》2006年第12期,第1-4页,与程佳羽合作),这些文章提出数字人文研究的基础是建立通用的词汇级的本体,转化、集成传统文献检索工具,建立基于本体的神经网络式的知识管理系统,提供语义网的智能知识服务。
最近几年越来越多的同行认同我的观念,但我当年思考的问题目前还没有引起人文学术研究领域的重视,尚未形成共识,故有必要著文申述。笔者认为,数字人文研究应有两个层面的基本要素:即知识本体和知识网络,用传统词汇概括,相当于“辞典”和“索引”。知识本体如同辞典,是指一个不可再分的意义的规范表达形式及其权威解释;知识网络如同索引和索引的综合体,包括各种类型检索工具,例如范畴索引、主题词表、人物关系索引(传记索引、交往索引、世系表)、年表、地图、书目等等,知识网络把这些索引中的同一意义的标目提取出来,加以综合归纳,形成反映知识自身关联的网络,人文学者可以循此网络进行无限的知识运算,包括聚类、筛选、比较、统计、推理。







