古农书本体的构建及其可视化 何 琳 杜慧平 侯汉清
发布时间:2018-09-25  浏览次数:11

古农书本体的构建及其可视化

  杜慧平  侯汉

(南京农业大学信息管理系210095

    本文构建了古农书本体,对古农书进行了全面的揭示,系统地描述了古农书的版本、内容以及相关的研究论著,并利用protégé对古农书本体进行了可视化显示。通过古农书本体可以有效实现对信息资源的整合、导航以及智能检索,大大提高查阅相关资料的效率,是本体技术在农史学科的首次尝试。

关键词  古农书   本体构建   protégé   知识表示   知识组织

 

古农书集中记载和反映了传统农业的科技知识和生产经验,它对于研究传统农业科学发生、发展的过程和规律,探讨中国农业的历史特点,吸取传统农业精华,为现代农业发展服务,以及进行中华民族历史传统教育和文化建设,均具有重要的文献资料价值和现实意义。经过近百年的努力,我国农史学家已经陆续整理出版了绝大多数重要的农业典籍。为了更好地开发与利用这些史籍及其包含的信息资源,本文采用最新的知识表示技术,构建了中国农书本体,可以多维度、可视化、动态地表示和组织农书知识和相关的信息资源,是进行农书知识传播、知识组织和知识发现的有力工具。

1  古农书本体构建的必要性

20世纪初期至20世纪90年代,经过几代农史学家的不懈努力,绝大多数重要古农书相继被整理出来,而《中国农学书录》(王毓瑚编著)、《中国古农书考》(天野元之助著)、《中国古代农书评介》(石声汉著)、《古农书总录》(胡道静著),以及《中国农业古籍目录》(张芳、王思明主编)等则对古农书的内容、版本以及收藏等进行全面的著录和研究,是中国农书研究的重要工具。石声汉先生还首次编制了《中国农书系统图》及《中国古代重要农书内容演进表》[2],这是中国农史知识表示的重大革新。这些图表不仅展示主要古农书的成书年代和主要内容,而且总结了中国古代农业典籍内容的传承演变,突出地反映出它们之间的源流和继承关系,是进行中国古代农业遗产整理与研究的科学指南。

但是,从它们的利用效果和效率角度来看,这些古农书研究工具仍有以下不足:

1)尚未电子化,利用范围有限。这些资料目前都还是纸本,纸本资料长期翻阅会破损,而且很多珍贵的资料,仅为少数单位收藏,也限制了知识的传播范围和利用效率。

2)书本式目录,不利于检索。这些资料都是书本式存储,目录是唯一的检索工具。而且我国图书大都缺乏完备的书后索引,给这些重要资料的检索造成了不便,检索者不得不逐页翻阅才能获得所要的资料。如果能够提供一种自然语言式的查询方式,例如“记述小麦种植的农书有哪些”,检索系统将会立即返回查询结果,将大大地节省农史学者查询资料的时间。

3)知识表示方式单一。这些古农书资料无论是文本还是目录或图表,都是文字性描述,是一种线性的、单一的知识表示方式。从感官角度考虑,不够生动和直观。石先生的《中国农书系统图》虽然打破了线性描述方式,以图表形式简单明了地总结了我国重要农书的重要属性及其演变过程,但其图表仍嫌简单。若能采用可视化技术,则可以多维度揭示农书的重要属性。

目前网络技术和信息处理技术的发展,给古农书资料的利用提供了新的契机。利用这些技术手段可以大大提高学习和研究工作效率,将人们从繁琐的资料收集整理过程中解放出来。古农书本体的构建正是基于这样的宗旨,采用目前最新的本体技术来描述农书知识,对古农书的版本沿革、收藏情况、内容主题以及相关的研究论著、研究者和研究机构等进行全方位多维度的描述,使众多农书的知识点及知识结构一目了然,一览无余,使清代学者章学诚“辨章学术,考镜源流”的目录学思想在新的知识组织工具中得到充分体现。

2  古农书本体的构建

本体[3](Ontology)的概念起源于哲学领域。上世纪90年代以来,研究者将本体的概念引入人工智能、知识工程和数字图书馆等领域,用来解决知识表示和知识组织等问题。本体由类、实例、公理和函数组成。本体是以机器可以理解的形式化语言来描述知识,目的是从根本上解决人与机器、机器与机器之间的信息、知识交流障碍;在用户间或软件代理间达成对信息组织结构的共同理解和认识;复用专业领域知识,使专业领域内的知识变得更加明确。因此,在语义网络中,本体作为新一代的知识组织工具,具有非常重要的地位,是实现语义层次上网络信息共享和交换的基础。

2.1  构建步骤

本体的构建方法目前有TOVE法、骨架法、SENSUS法、七步法等[4],其中七步法是较为完备的方法,为许多机构采用,因此,本文利用七步法,同时吸收图书馆和情报领域的分面分析方法来构建古农书本体。

首先,邀请专业人员给出中国农书本体的知识框架作为本体构建的指导;

第二,根据知识框架的范围,从农史领域文本以及专业词典中抽取关键词,得到中国农书领域的概念集合;

第三,将农史概念进行分面分析,形成表达相同含义的一些组面(facet);

第四,结合农史框架给出本体的等级体系,同时细化概念的各种语义关系,形成中国农书本体类模型;

第五,利用专门的本体构建软件工具protégé输出形式化语言的本体描述,采用OWL描述语言,提供机器可理解的描述。构建古农书本体的数据来源为:《中国农业百科全书(农业历史卷)》[7]、《中国农书概况》[8]、《中国古农书考》[9]、《中国农业古籍目录》[10]、《中国农学书录》[11]以及部分农史研究论文,从中获取了农书的版本沿革、内容主题、研究概况、研究论著以及收藏情况等数据。

2.2  总体设计

农书本体的构建目标是:对古农书的版本沿革、收藏情况、内容主题以及后世对该农书的研究论著及研究专家等进行多维度、多层面的描述。经过概念的分面分析、细化和归纳,形成以下几个大类:

(1) 农书类:我国古代重要农书(春秋时期――清代),分为综合性农书、月令体农书等。

(2) 版本类:农书的各个版本,包括原本、辑本、点校本、校释本。描述版本的成书时间、收藏地、版本作者。

(3) 知识元类:农书描述的内容主题,主要包括农书所描述的农业思想体系和农业技术体系。

(4) 研究论著类:主要是农书的后世研究论文和图书。

(5) 人物类:包括农史人物类以及农书专家类。主要是农书以及农书各版本的作者,农书研究论著的作者。描述其籍贯、生卒年代、主要著者和研究领域。

(6) 时间类:时间是农史研究中重要特征,用来描述不同时期的农书、研究成果等。将时间按照朝代进行划分。

(7) 地点类:地点用来描述农书所论及的地区以及人物的籍贯和研究机构的地点属性。将地点进行二重划分,一是现有区划,包括华北、华东、西北、西南等地区,每个地区下进一步划分;二是农书内容所涉及的某些范围较含糊的传统地域,如关中地区、黄河流域、江南地区等。1中国农书本体类模型图

2.3  中国农书本体样例

本文采用OWL语言作为农书本体的语义描述语言。以《农政全书》为例,从图2中可以看到该农书的各种版本、各版本的收藏地以及该农书论及的主题。该图是动态图,点击各个节点还可以进一步显示该节点的相关信息,例如进一步点击“大豆”,可以显示更多描述大豆的相关农书信息。点击“马首农言”,可以显示该农书的所有相关信息。2  中国农书本体样例

3  古农书本体的作用

3.1  多途径多层面的知识表示

本体可以描述事物的属性、关系和分类。可以利用古农书本体中不同的语义关系多维度表示各种知识以及知识之间的关联。如下图3所示,图中的任意一个节点都可以作为检索点,从不同的角度对农书知识进行多维度的揭示,把有语义联系的事物都连通起来。可以按照某个时代(唐、宋、元等)、某种知识元(小麦、水稻、玉米等)、某个机构(收藏机构、研究机构、出版机构等)、某个地点(江南地区、黄河流域等)、某种人物(贾思勰、万国鼎等)等多途径全方位地进行可视化显示和查询。

3  农书本体检索点示意图

3.2  信息资源的整合

    古农书本体更加完善地实现了知识组织的两种方式,即分类法与主题法的一体化:由概念以及概念之间的关系形成分类体系,众多概念的实例形成词表。利用农书本体的“分类―主题”结构,可以将古农书相关的不同类型的信息资源有效、有序地整合起来,使得各种不同类型的信息资源成为古农书本体的各个节点,实现对信息资源的结构化组织。例如可以把农书的各个版本的图片、文字组织于不同的版本节点之下,把相关的机构、人物介绍等的声音文件、视频文件等多媒体文件合理地组织于古农书本体节点之下,把相关的研究论著组织于古农书本体之下,实现“一站式”检索。

3.3  知识导航

古农书本体整合了分类表、叙词表和元数据的功能,用领域置标语言全面描述了领域知识,再加上可视化语义工具的支持,集中表现了农书概念之间的复杂关系,是一种表现丰富的知识表示工具,不失为一种生动的教学工具,可以总揽每种农书的版本、存佚以及研究概况等,因而可以成功地用于知识导航。图4以《�胜之书》为例显示了该书的各个知识点。

4  《�胜之书》知识导航图

3.4  知识获取

由于信息的急剧增长,使得人们在因特网时代更希望直接获得所需的知识,从对文本的获取提升到对知识需求的层面。古农书本体在一定程度上可以视为古农书专家知识库,利用其中的关联可以实现对古农书知识的问答和获取,例如“万国鼎撰写了哪些关于《�胜之书》的研究论著”、“哪些农书论述了大麻的栽培”。本文以古农书本体为基础开发了一个农书本体的检索系统。例如输入“清代哪些农书论述了大麻的栽培?”系统检索结果如下图所示:

5  古农书本体问答查询示意图

3.5  智能检索

传统信息检索是以单纯的词作为检索的入口。这种关键词匹配方式仅仅是字面或某种意义上的匹配,不能获取概念层面的相关含义,而基于本体的信息检索可以弥补这种不足。首先,农书本体引入了和古农书相关的语义属性和语义关联,可以将对农书的检索结果按照其语义属性和语义关联分类,使得检索结果不再是孤立的,不再是类似搜索引擎似的字面匹配,而是一种概念匹配。其次,通过农书本体中的各项属性和关联,可以自由实现扩检,使得检索结果更加全面和准确。

4  结语

本体是用来进行知识表示和知识组织等的新技术,可以从根本上解决人与机器、机器与机器之间的信息、知识交流障碍,是语义网实现的基础。古农书本体采用了最新的知识表示和知识组织技术构建,因而能以可视化方式动态地展示其中所有知识点之间的关联;多维度地描述古农书知识之间的语义关系;以自然语言方式轻松展示古农书中的知识体系,是农史研究和教学的一种新的有力工具。随后进行的研究则以古农书本体为基础,进一步开发农史语义检索系统,为农史知识组织、检索、发现和利用提供一个新的平台。

 

本文为科技部“社会公益研究专项”项目资助的研究成果。项目编号:2005DIB6J028

[本文承蒙南京农业大学中华农业文明研究院惠富平教授指导,谨致谢忱]

参考文献

1李根, 王小嘉. 中国农史研究的回顾与展望[J/OL][2006-7.http://economy.guoxue.com/article.php/1990

2石声汉. 中国古代农书评介. 北京: 农业出版社, 1980. 5

3李健康, 张春辉. 本体研究及其应用进展. 图书馆论坛. 20046

4李景. 本体理论在文献检索系统中的应用研究. 北京: 北京图书馆出版社, 2005

5Jena - A Semantic Web Framework for Java J/OL][2006-4.http://jena.sourceforge.net/

6Terence R. Smith, et,al. Building Semantic Tools for Concept-based Learning Spaces: Knowledge Basesof Strongly-Structured Models for Scientific Concepts in Advances DigitalLibrariesJ/OL.2006-1http://jodi.tamu.edu/Articles/v04/i04/Smith/

7中国农业百科全书编辑部. 中国农业百科全书(农业历史卷). 北京: 农业出版社, 1993

8惠富平, 牛文智. 中国农书概况. 西安: 西安地图出版社 1999

9() 天野元之. 中国古农书考. 北京: 农业出版社, 1992

10张芳, 王思明. 中国农业古籍目录. 北京: 北京图书馆出版社, 2003

11王毓瑚. 中国农学书录. 北京: 农业出版社, 1964

12薛春香. 农史知识组织系统构建与应用研究. 南京: 南京农业大学, 2006

 

   1980- ),女,南京农业大学信息管理系在读博士,主要研究方向信息组织,领域本体构建。

杜慧平  1980- ),女,南京农业大学信息管理系在读硕士,主要研究方向信息检索。

侯汉清 1943- ),男,南京农业大学信息管理系教授、博士生导师,主要研究方向信息检索与信息组织。