近年来国内知识组织研究热点综述�
卜书庆 刘华梅 王广平
(国家图书馆 北京 100081)
摘 要 以“中国期刊网”、“维普中文科技期刊数据库(全文版)”为基础,跟踪调研近两年国内发表的关于知识组织研究方面的200多篇期刊论文、会议文献、年度报告等,对国内近年来的知识组织研究的热点进行分析总结。
关键词 知识组织 主题法 分类法 本体 主题图 知识地图 主题网关 分众分类法 综述
“知识组织”(KnowledgeOrganization) 最初由美国著名图书馆学家、分类法专家布利斯于1929年提出,此后随着相关学者的关注而逐渐成为图书馆学信息学等领域的研究热点。我们以“中国期刊网(CNKI)”、“维普中文科技期刊数据库(全文版)”为基础,跟踪调研了近两年国内发表的关于知识组织研究方面的200多篇期刊论文、会议文献、年度报告等,对国内近年来的知识组织研究的热点进行了分析总结。
1 知识组织理论研究
知识组织理论研究集中在知识的结构化组织、个性化(服务)组织、系统化组织、集成化组织和可视化组织等方面。
根据知识存在的空间结构特点,知识分布的地域状态即为宏观空间,宏观空间中的各种知识集合点,包括信息机构、信息系统、文本空间和知识单元空间等为微观空间,知识组织物理空间的虚化或镜像化即为虚拟空间,因此,白华认为知识组织的实质是在这三种空间结构中实现知识控制,从而使知识的空间分布合理化、有序化[1]。王曰芬、熊铭辉等研究了面向个性化服务的知识组织机制,将用户需求信息资源和服务人员的隐性知识也纳入到知识组织的对象中,通过分析内在要素及变化规律、外在要素的作用和影响等,从而形成面向个性化服务的知识组织[2]。冯兰萍、朱礼军等提出一种基于模块化本体的知识组织方法,该方法对知识进行分割,将其分配给独立工作的领域专家或用户建立本体模块,采用OWL DL语言描述,按照一定规则进行本体模块组装,实现模块间知识语义的集成和开放知识组织[3]。
另外,很多学者都探讨了系统论与知识组织的关系,提出将系统论应用到知识组织系统中,包括在分类系统、主题系统、专家系统中的应用,从而创建智能化的知识组织系统。也有学者提出基于知识元的知识组织理论,将知识分割为多层次、多知识元组成的知识体系,从而实现以知识元为基础的知识序化、知识发现、知识导航、知识评价等服务功能。
2 知识组织系统研究
知识组织系统是对人类知识结构进行表达和组织的语义工具的统称,既包括传统图书馆环境下建立在文献单元基础上的分类法、主题表、叙词表等,也包括网络环境下建立在概念单元上的本体和可视化的主题图、知识地图、主题网关等。知识组织系统是目前研究的热点,很多学者对其类型、概念、网络化描述、构建、可视化、互操作以及应用等方面进行研究。
2.1 主题法与分类法
主题法、分类法作为传统知识组织工具,一直是图情界关注的重点,近两年相关研究内容主要包括:情报检索语言的发展趋势研究;国外分类法、主题法研究;分类法与词表的自动构建、更新修订、可视化及互操作技术的研究;分类法与词表在网络信息组织、自动分类、自动标引、文献推荐服务系统等方面的应用研究等等。
(1)理论研究
近年来有关主题法和分类法的理论研究主要集中在分类法和词表的标准化、分类法和词表的网络化应用、受控检索语言与自然语言和新兴工具的有机结合等方面。
两部作为国家标准的新分类法――《军事信息资源分类法》和《中文新闻信息分类与代码》的颁布[4],表明我国情报检索语言在规范化和标准化方面的发展进步。侯汉清等介绍研究了美英等国分别制定或修订的分类表编制标准Z39.19及BS 8723,以及我国陆续制定或者修改的一系列相关标准[5]。网络化的词表联机显示及应用是词表在网络环境下应用的主要形式之一,司莉对国外40个网络叙词表用户界面进行了全面调查,从词表可用性、易用性及界面友好性的原则出发,提出了词表用户界面设计策略[6]。她还对基于国会图书馆分类法的等级浏览界面(HILCC)研究项目进行了介绍,提出建立基于《中图法》的电子资源的主题浏览界面设想,通过主题来访问电子资源,促使《中图法》向用户检索服务方向迈进[7]。对于国际分类法的新发展,马毓、邓小昭介绍了国际十进制分类法(UDC)自2000年到2005年的新进展[8];李军莲介绍了2007年MeSH的词条增减情况及有关标引规则的变化,并就2008年MeSH可能在副主题词方面发生的变化进行简单阐述[9]。此外,很多学者都认为,受控语言和自然语言相互渗透、有机结合是未来情报检索语言发展的必然趋势,可促进网络信息资源的有效存取和检索;也有学者认为兼容改造传统的叙词表、分类表研发知识本体等语义工具已成为我国网络知识组织工具研发的总趋势。侯汉清等用网络信息检索的大量实践回答了检索语言能否适应网络信息组织这个问题,分析其在网络环境下表现出的强大生命力[10]。
(2)技术研究
近两年关于分类法和主题法的技术研究主要包括词表的自动构建、传统分类法的更新修订、可视化以及互操作等。
目前的词表自动构建方法主要有合并现有词表、用户生成词表、通过语法分析自动构建词表、通过同现分析自动构建词表等。杜慧平等以电子政务主题词表为例,探讨了词表自动构建的方法,主要技术有基于模式匹配或同义词词典的等同关系识别、基于字面相似度算法和词聚类算法的等级关系识别、基于相关度算法的相关关系判断等[11,12]。桂胜等遵循政务信息资源分类体系建立的主要原则和关键标准,建立了《国土房产管理信息资源分类体系》[13]。
更新修订的方法和技术以及概念体系建设主要集中在《中图法》与《中国分类主题词表》的研究上。白华认为,传统分类法可以借鉴Web数据库、本体论与语义网技术的优势进行现代化改造。可以汲取关系数据库、Web数据库技术,建立多维、灵活的等级描述结构,建立事物领域细化的概念体系;还可以借鉴ontology、语义网等的分类技术和词语定义方法,建立简洁的分类框架,减少类目层级;还要规范类目,采用简明的规范语言和共享性强的自然语言,提高类目的描述能力和适应机器处理的能力[14,15]。孔晨妍、侯汉清对《中图法》和DDC的更新周期和方法进行比较,提出了《中图法》日常更新的途径和方法[16];黄如花提出《中图法》第五版在修订时要注意充分利用现代信息技术,注意研究用户的需求,注意了解国际分类法的最新动态,加强对《中图法》的宣传和网站建设[17]。施振宏认为《中图法》的类目设置缺乏简练性、多重列类过多过细罗列,大量类目虚设,脱离图书分类实际等,希望《中图法》第五版能予以改正[18]。
在词表的可视化研究方面,斯坦福大学医学院的可视化本体构建工具Protégé受到研究者的关注,被用来研究叙词表、分类表的可视化显示。侯汉清指导学生以《汉语主题词表》、《中图法》为例,利用Protégé的可视化插件,对叙词表等同、等级和相关关系,以及《中图法》中一些具有从属、并列、交替和相关关系的类目进行可视化显示[19]。实验证明,Protégé基本上能够满足动态、全面地实现词表可视化的需求。
情报检索语言的互操作是实现跨库浏览与检索的关键技术之一。司莉例举和分析了国内外学术界已开展的37项互操作研究计划,总结了知识组织系统间互操作的模式和方法。就我国知识组织系统间的互操作问题,她建议从以下几方面进行努力:在不同语言间的互操作方面,在中外分类法的兼容与互换方面,在领域本体集成化的互操作模式方面[20]。侯汉清指导学生采用构建集成词库的方法实现不同词表间的兼容,并以教育类数据为例,研究了基于词表结构的自动匹配和基于同义词表的语词匹配两种互操作技术的基本原理、实现过程及结果分析评价[21]。
(3)应用研究
关于分类法与主题法的应用,一方面,很多学者对传统分类法在网络信息资源组织中的优势与不足进行了分析。分类主题一体化能够使分类法和主题法优势互补,是目前比较适合网络信息组织的一种模式。还有学者借鉴传统分类法,提出在中文网络目录分类体系构建时,采用以主题聚类和以学科聚类的方法设置类目,并参照网页使用频率和《中图法》的排序原则进行排序的优化方案[22]。鞠福琴等提出构建多层次的、相互兼容的网络信息分类体系,即面向博客等用户发展和完善自由分类法、面向普通用户优化现有网络分类法、面向学术用户研制《中图法》搜索引擎版[23]。夏崇镨等研究了基于叙词表的主题爬虫技术,通过主题域对网页的主题过滤和链接分析控制,实现页面主题资源的自动形成,极大地提高了信息检索的查准率[24]。关键词法在网络信息组织中得到广泛的应用,针对关键词法检准率低的缺点,使用后控制词表可以改善其性能。建立等同词词典、提供信息检索图等方法可以改进关键词检索效率。
另一方面,应用分类法和主题法对文献资源进行自动标引、分类的相关问题仍然为人们所重视。自动标引包括自动抽词标引和自动赋词标引两种类型。章成志对自动标引的五十年研究历程进行了总结与回顾[25],并提出一种自动标引通用评价模型,该模型主要借助于外部资源,根据有参照情况与无参照情况,分别对标引结果进行评价。蒲筱哥对Rocchio方法、决策树方法、贝叶斯分类、K近邻算法和支持向量机等目前已经研究出的经典文本自动分类方法进行了述评,同时,他还指出,随着人工智能、机器学习、模式识别和数据挖掘等领域的不断发展,一些新的文本分类方法涌现出来,如:多分类器融合的方法、基于模糊-粗糙集的文本分类模型、基于群的分类方法、基于RBF网络的文本分类模型、潜在语义分类模型等[26]。白振田、侯汉清提出了一个基于词典约简及多分类算法的文本分类模型,主要是对自动分类的几个环节提出了改进措施:采用约简法进行抽词词典的构造,采用投票法进行文本特征的选择,采用层次法进行逐层次的分类,采用统计与规则相结合的方法进行分类器的构造等[27]。傅亮参考基于标引经验的自动分类模式,针对军事信息资源构想出了一种基于《军事信息资源分类法》标引经验的自动分类模式[28]。
2.2 本体
本体作为一种能在语义和知识层次上描述概念体系的有效工具,是知识工程及其相关领域的研究热点之一,在图书馆学情报学领域也得到了相当广泛的关注,成为近年来一大研究热点。近年来我国对本体的研究主要集中在本体与叙词表的比较、本体构建工具、语言、方法以及本体的应用等方面。
(1)本体理论
对于本体概念,有学者认为本体是通过描述、捕获领域知识,确定领域内共同认可的概念和概念间的关系,以用于领域内的不同主体之间交流与知识共享的形式化规范说明[29]。也有学者认为本体是词汇表、知识库,是一个数据库之类的东西,本体就像智能的知识库,位于机器和人中间,使人和机器的交流像人和人的交流一样[30]。
李景对本体技术标准化问题进行了研究,认为本体技术的标准化包括:叙词表、分类法、本体表示语言、本体设计基本技术路线、本体系统的开发、顶级本体的逻辑结构、领域本体的构建、本体在语义网中的应用等多方面[31]。李弘伟等从主要元素和推理机制对8种常用本体表示语言进行了分析研究,探讨其语法和语义转换技术、转换模型和转换工具[32]。
目前,最常用的本体编辑工具是KAON和Protégé,很多学者从基本信息、本体构建、管理机制以及应用等方面进行了比较和分析。可以看出,Protégé应用的优势在于是开源软件、提供多钟可选择的插件、支持基于框架和网络本体语言两种可选模式、有规范化的检索式和相应的关系词等,但其存储管理比较薄弱,很难适应数据量较大的情况。KAON查询形式则与编辑的可视化相统一,易于学习,令用户更方便把握全局,它是基于关系数据库的存储,是目前功能和结构较完善的语义网的支撑软件[33]。
(2)本体构建
本体构建包括:确定本体的领域与范围,领域信息的收集和分析;建立本体框架;设计元本体,重用已有的本体,定义领域中概念之间的关系;形式化编码;检验与评价等[34]。从构建方式上看,很多学者都在研究将自动化或者半自动化的方式融入到本体资源的建设中,从而提高本体构建的效率。孙玉娣等提出基于可视化文本挖掘本体构建的方法,由挖掘信息来部分替代传统的领域专家的作用,使本体的建立更加智能化[35]。张新等提出基于规则匹配和统计方法相结合的中文领域本体概念获取方法[36]。王昊等建立了基于模式匹配的中文通用本体概念抽取模型(PMCEM),以此作为领域本体自动构建的基础[37]。目前本体构建研究中存在本体构建与本体应用脱节、难以复用集成等问题。丁晟春、甘利人等结合“骨架”法和“七步”法,融合了叙词表和顶层本体资源的优势,提出了基于顶层本体的综合本体构建方法,并利用该方法构建了军用飞机领域本体[38]。李景、孟献学将领域本体中的概念分为绝对无关概念、通用概念、相关概念和核心概念,并提出“领域属性”概念来表示和构建领域本体[39]。本体在应用中要解决如何自动发现领域中新出现的概念和关系的关键问题,葛宁、王军通过实例研究提出了一种对领域本体进行自动丰富的方法[40]。
许多学者提出基于现有的受控语言的本体构建,如基于字典、叙词表、主题词表、分类表进行融合、转换、改造来构建本体,并在实践中进行了尝试研究。近两年领域本体的构建涉及法律、医学、古籍、电子政务、计算机等领域。贾君枝提出了《汉语主题词表》转换为本体的思想,指出未来的研究更应注重探讨采用机器学习的方式构建人工智能系统,实现《汉语主题词表》到领域本体的自动转换[41]。很多学者提出了基于《中国分类主题词表》构建领域本体,其中,杜小勇、马文峰以《中国分类主题词表》为基础构建经济学学科领域初始核心本体[42]。此外,还有基于《农业科学叙词表》构建果树学领域本体;以《医学主题词表》(MeSH)为基础构建医学领域本体;依照《综合电子政务主题词表》主题分类类目表构建电子政务领域本体。曾新红等人则提出了中文叙词表本体(OntoThesaurus,即基于中文叙词表建立的本体知识库)的概念,并研究构建了中文叙词表本体共建共享系统[43]。本系统为中文叙词表的升级、共享和动态完善提供了解决方案。
贾君枝、郭丹丹等在国家社科基金项目“汉语框架网络知识本体构建研究”的支持下,对法律框架网络知识本体进行了深入研究。以法律文本语料库为依据,通过抽取核心概念集并建立概念之间关系,形成法律框架网络知识本体模型;采用本体构建工具Protégé进行形式化描述,对相关的类、属性及公理进行定义,并运用RacerPro工具进行推理,以验证描述的一致性及分类的合理性[44]。然后基于已构建的法律框架网络本体,探讨在领域本体之下的语义检索的解决方案,旨在提高用户检索网络法律信息资源的效率[45]。他们还对法律框架本体与顶层本体SUMO进行了映射研究[46]。刘耀等对中医药本体概念描述体系的自动构建进行了研究。他们利用自然语言处理理论和技术方法对已有公认领域知识进行重构利用,在利用Protégé3.1的基础上,加入大量自然语言处理技术,成功开发出中医药本体辅助构建系统[47]。何琳、侯汉清等以半自动模式构建了古农书领域本体,他们借鉴软件工程中的领域建模、图书馆学中的分类学和本体学习的方法论,由领域专家给出领域的上层知识模式,通过机器学习技术从领域语料库中学习等级关系和相关关系,将专家的自顶向下和机器学习的自底向上的结果结合起来构建本体。最后利用protégé工具对古农书本体进行了可视化显示,大大提高了查阅相关资料的效率[48]。
(3)本体应用
本体应用也是近两年的研究热点,主要集中在基于本体的智能检索、基于本体的信息集成、基于本体的可视化检索等方面。
当前,许多研究者从不同角度探讨基于本体的信息检索方法,旨在利用本体知识实现对用户提问及网络资源的语义理解与分析,实现概念而不是字词匹配检索,从而提高查询的精确率。姜华提出在本体基础上计算语义相似度和相关度,利用语义推理将描述的隐含语义显式化,以充分挖掘出与检索内容相关的信息[49]。丁晟春等基于本体设计了问题处理引擎、问题类型识别器、问题处理器等模块,通过对用户提问进行分词、类型识别、知识查询后,将答案加以组织提供给用户[50]。一些学者还在某些具体领域做了构建基于本体的小型检索系统方面的尝试和实验。如李宝敏等以农业果品领域本体为例,开发了一个语义智能检索系统[51]。钱智勇以基于本体的张謇研究知识库智能检索系统开发为例,探讨基于本体的专题领域知识库智能检索系统的框架结构、工作流程以及功能实现[52]。另外,还有一些学者将领域本体引入到数字图书馆的信息检索中,更好地为用户提供服务。但是总体来说,基于本体的信息检索研究主要还是停留在理论研究方面,在具体的实施和系统构建上还比较少。
信息集成自被提出来就引起了众多学者的关注,随着该领域研究的不断深入,有人提出将本体技术运用于信息集成中,以解决传统信息集成技术所无法解决的语义异构问题。本体应用于信息集成有三种方法:单本体方法、多本体方法和混合方法。焦玉英、成全就是采用混合本体方法,将知识网格内的信息资源组织成全局概念层、局部概念层和信息资源层三个层次,在此基础上构建基于本体的知识网格集成服务平台,实现一站式的集成信息服务[53]。王兰成指导学生对基于本体的知识集成进行了研究,提出了一种基于领域本体的Web信息个性化集成方法[54]。
查询检索是开展本体应用的重要环节,常用的本体构建工具多以列表、树状结构或文本超链接方式显示本体,可视化效果不够理想。颜端武、甘利人等通过加入可交互的动态网状图形元素,丰富了本体检索的可视化效果。他们以军用飞机领域试验型知识本体OntoAvion为例,实现了基于J2EE的B/S结构的通用本体可视化检索系统,该系统能够将本体中的类层次、属性、实例等语义关系以图形化方式直观显示,实现可视化语义检索,在此基础上还支持关键字、SPARQL的本体检索[55,56]。
2.3 知识组织系统网络化描述
简单知识组织系统(SimpleKnowledge Organization System ,SKOS)是W3C下的语义网工作组发布并维护的,为叙词表的形式化表达提供了概念、模型,使各叙词表之间、叙词表与本体之间的映射成为可能。目前已有一些叙词表尝试采用SKOS描述。如英国档案叙词表(UKAT),本身被定义为一个概念框架,其下所有词汇又被划分为8个大类83个小类,在UKAT网站(http://www.ukat.org.uk/)上提供在线检索和浏览服务;在一定条件下还提供SKOS Core格式的数据下载[57]。国内很多学者也都尝试将主题词表、叙词表用SKOS进行描述,实现不同叙词表间的映射,实现叙词表到本体的转换。还有学者提出对基于SKOS构建的知识组织模型中的类与属性进行扩展,增强对知识的描述能力,并将SKOS与其他语义描述语言(如FOAF、Dublin Core等)结合,发挥SKOS模型在语义Web中的作用[58]。
XML、DC元数据作为结构化的知识描述语言,仍得到广泛关注。XML语言可以用来描述知识本体的术语、术语的定义以及术语之间的语义网络,所以基于XML本体在多个领域得到应用,有学者提出基于XML的大学图书馆知识管理系统的体系架构,从而有效地解决多源多格式知识的存储、交换、发布和发现等问题[59]。还有学者论述了XML语言在数字图书馆Web信息资源整合方面的优势,探讨了基于XML本体语言描述的资源整合系统的功能及其实现途径[60]。王兰成、李超提出用DC元数据的15个核心元素描述网页数据,并在此基础上实现知识集成和知识检索[61]。白海燕、胡铁军等提出了Multi-MARC架构统一知识描述机制的思想,将MARC的定义方式应用于不同对象的方法,基本思想是建立一套以规范MARC为基础,适用于所有对象属性的统一描述机制,为各种对象建立相同的描述规范和体系架构[62]。
在开放和分布式网络环境中,如何解决元数据格式的多样性与交叉性,克服元数据标准间的差异,实现数据的有效共享与互操作,成为了信息领域研究的热点。孔庆杰、毕强等都从语义、结构、语法、检索协议等角度对元数据互操作问题进行了深入分析[63,64]。语义互操作解决的方法主要有元数据衍化、应用方案、元数据映射、通过中心元数据格式进行转换、元数据框架、元数据注册系统等。语法、结构互操作解决的关键在于建立一个标准的资源描述框架,如XML、RDF、XML与RDF的融合、XSLT等。协议互操作的典型代表是Z39.50、OAI协议。他们还指出,随着高层互操作协议的出台、新的资源描述语言的产生及本体技术的发展,元数据的互操作性问题将会得以彻底地解决。
2.4 知识组织系统可视化模型
(1)主题图
通过对国外主题图相关研究的调查分析,刘丹等指出国内应研究开发适合各个具体项目和不同领域的主题图技术工具,积极尝试将利用主题图构造的试验模型推进到实际应用中,通过用户的使用评价来不断改进和完善系统的建设[65]。吴江宁等提出了一个基于主题地图的多层文献组织模型(TMD0M),通过从文献内容中概化出主题并定义主题之间的关联,将领域内主要的概念及其关联以合理的层次结构体现出来,以实现对文献资源的有效组织[66]。吕元智等从主题地图的角度对电子政务信息资源组织进行探讨,提出构建电子政务信息资源的主题地图[67]。德国环境学科信息门户(PortalU)成功地应用了主题图技术进行信息组织[68],值得我们学习借鉴。
(2)知识地图
知识地图作为一种指南和导航系统,以可视化技术显示各种知识及其相互关系,帮助用户方便快捷地找到他们所需要的知识。知识地图正在成为网络时代知识管理领域的研究热点之一。很多学者从知识地图的概念、特点、类型、功能、构建技术、评价指标以及知识地图的应用等方面对国内外知识地图相关研究进行了全面的分析与总结[69,70]。知识地图是实现知识管理的重要工具,学科知识地图的建设更是意义重大。潘有能、丁楠探索了图书馆学学科知识地图的构建。他们通过对CSSCI 2003-2005年数据的统计分析,构建了图书馆学关键词关联图、学科专家知识地图、学科交叉图等学科知识地图,并提出了应用聚类分析来构建图书馆学关键词聚类树状图的方法[71]。有学者结合图书馆实际,探索影响情报研究中知识地图构建的因素,提出了情报研究知识地图的绘制步骤[72]。还有学者研究了一种基于层次分类体系的知识地图结构,并提出了一个以层次分类方法为核心的知识地图自动生成方法,用来自动构建符合组织需求的知识地图[73]。
(3)主题网关
主题网关主要是针对专业研究用户的需要,对具有一定学术价值的网络信息进行搜集、选择、描述和组织,建立本学科权威专业信息资源的规范导航系统。主题网关在国内也逐渐被重视起来,近年来理论研究和构建实践方面都不断得到加强。
很多学者分析了我国主题网关建设过程中存在的问题,如资源规模较小、低水平重复建设等。有人提出发展网上资源自动跟踪、自动分类、自动标引和自动文摘技术,采用人机结合方式进行分类标引、主题标引,为用户提供更优质、高效的信息服务。李育娥分析了分类法在主题网关信息资源组织中的基本功能、应用特点及存在的问题,在此基础上提出了进一步完善分类法的具体措施[74]。她还研究了主题网关互操作问题,指出主题网关的互操作包括两种模式:链接模式和集成模式。王雅戈等以茶主题网关为例研究了主题网关的构建,主要由资源精选、元数据制定、目录组织、主题和分类标引、资源来源地址项标引、检索功能配置等环节组成。他们还提出在茶主题网关中嵌套搜索引擎,当茶主题网关中的资源不能满足需求时,用户可以方便地转换到嵌套的搜索引擎,在整个互联网中进行搜索,发现新的资源[75]。
(4)分众分类法
一些学者对分众分类法(Folksonomy)的涵义和功能进行了研究,认为它是由网络信息用户自发为某类信息定义一组标签进行描述,并最终根据标签被使用的频次,选用高频标签作为该类信息类名的一种网络信息分类的方法。信息资源、信息用户以及信息标签能够在大众化分类过程中互联和共享,并能够个性化地进行信息的获取和推荐。有学者就其特点和不足,提出对标签进行规范,对一些主要信息源进行信息特征提取再组织。目前分众分类法已在一些网站中应用,如分享书签网站delicious、相片分享网站Flickr、学术论文共享网站CiteULike、网上书城Amazon.com Books、书签共享网站BooksWeLike和共享编目数据网站LibraryThing等。有学者认为分众分类法还可以与图书馆传统目录结合以整合馆内外在线资源[76]。还有学者参照分众分类的模式,提出了优化学科导航库建设的具体措施[77]。
3 知识组织的应用研究
3.1 数字图书馆的知识组织
目前,数字图书馆知识组织研究主要集中在知识组织系统构建模式的研究方面,包括采用分类主题一体化模式,集成分类法、主题词表和语义元数据,采用专家系统的构造模式等。
基于本体组织、整合数字图书馆信息资源已成为该领域近两年的研究热点。张敏勤提出从文献信息资源、Web信息资源、知识库这三个层次来进行基于本体的数字图书馆信息资源组织[78]。廖君华等提出一种新型的基于本体的数字图书馆门户网站模型,通过引入Ontology概念,将传统门户网站的资源集成、服务集成、个性化服务、统一认证、统一检索等功能扩展到语义层面[79]。孙雨生提出基于本体论的数字图书馆互操作机制,利用专业元数据方案描述微观层面的信息资源,利用元数据采集协议采集元数据,利用ABC本体模型实现元数据记录的互操作,最终实现分散信息资源的整合[80]。
此外,很多学者对知识组织系统在数字图书馆的应用进行了综合研究。司莉等对国内27个数字图书馆的知识组织系统应用现状进行了全面整理,认为遵循创建数字图书馆知识组织系统的一般步骤,有机融入各类型知识组织系统,提供易用的用户界面,加强本体的应用,可以获得更快更好的发展[81]。徐晓梅等归纳出数字图书馆知识组织的4个研究热点:标准、协议的研究和制定;知识组织系统登记注册;互操作研究;DL-KOS的应用研究[82]。
网格技术也是近年来在数据图书馆知识组织领域研究的热点。毕强、韩毅等在国家自科基金项目“语义网格环境下数字图书馆知识组织的应用”中,对语义网格下数字图书馆知识组织理论方法、过程以及语义互联策略等进行了系统研究[83]。将网格计算的研究成果与数字图书馆环境中数字资源的语义互联研究结合起来,提出了语义网格环境下数字图书馆的概念模型。黄勇凯等从平台构架、设计思想、关键技术等方面例析了网格技术在数字图书馆领域的应用,认为分布式异构资源的体系结构、信息资源描述标准、信息共享服务平台技术及知识管理等内容将成为未来的研究方向[84]。
3.2 网络信息资源的知识组织
网络信息知识组织方法的研究主要分为两类:一类是基于图书馆传统信息组织方法,如分类法、主题法和元数据等;另一类是IT界新的知识信息组织方法,如语义网和Web 2.0等。网络信息组织中的本体应用仍是研究的热点,对网络信息资源进行知识重组和表示,实现计算机自动组织,从而为用户提供智能的检索与服务。博客是近年来出现的新型网络资源。陈志新通过调查研究,总结了博客的信息组织方法:时序组织、形式分类法、形式主题法以及关键词聚类组织,博客文章的自我组织、博客网站的公共组织方法以及博客资源网络分类目录,内容聚合、信息推送以及博客搜索引擎等[85]。冯向春提出增加检索功能、专业知识分类与专题分类相结合、创建个性化标签、增加真实性和资源类型等博客组织建设方式[86]。Wiki作为一种新型的网络知识组织工具,具有操作简易、成本低廉、协作共享、开放、自组织、知识挖掘等特点,使得它在许多领域得以广泛应用[87]。都蓝分析了知识组织在Wiki中的应用,如知识分类、知识聚合、语义网络的应用等,并提出增强Wiki结构化程度的改进措施[88]。向菁等详细分析了Wiki在国内外图书馆领域的应用:目录评注、主题指引、搭建新型交流平台等[89]。
4 总结与展望
综上所述,国内近年对知识组织的研究呈迅速发展、不断深化和拓展的趋势,主要表现在知识组织与服务工具的多元化及可视化的研究方面,除分类法、叙词表等传统工具之外,还涉及本体、主题图、主题网关、分众分类法等新型工具。其研究主题大多仍然集中在知识组织系统的基础理论、构建方法与软件技术、应用方法等领域,但研究的具体内容开始细化,并与语义网、搜索引擎、数据挖掘等新技术更紧密地结合,知识组织系统在网络信息资源、数字图书馆等领域的应用研究得到重视。
叙词表、主题词表、分类法作为传统知识组织工具,一直是图情界关注的重点,近年的研究主要集中在情报检索语言的电子化、网络化的发展,及其在网络信息组织、信息检索、自动分类、自动标引等方面的广泛应用等方面,进一步说明了情报检索语言的强大生命力,它在网络环境下必将有广阔的发展前景。加强情报检索语言与自然语言的有机结合,科学地改造原有词表、类表,研发本体等语义工具,分类法与词表的自动构建、更新修订、可视化、互操作等技术方面的研究也成为近年的热点。
本体是近年来的一大研究热点,在本体理论、领域本体的构建实践、基于本体的应用研究等方面比较突出。本体理论的研究包括本体概念、语言、工具、标准化等方面,基本上没有新的突破,还是对以往概念的进一步阐述。关于本体构建,很多学者都在研究将自动化或者半自动化的方式参与到本体建设中,如自动聚类、自动抽词、相似度计算等技术,从而提高本体构建的效率。另外,利用已有知识组织工具(如《汉语主题词表》、《中国分类主题词表》、多语种农业叙词表(AGROVOC)、专业词表等)构建本体是研究者们关注较多的内容。本体应用包括基于本体的智能检索、信息集成、主题抽取、文本分类、语义挖掘、语义分析等方面。总的来说,关于本体的应用研究很多还是停留在理论研究方面,而在具体的实施和系统构建上还很少,一些学者在某些具体领域对构建小型系统做了一些尝试和实验,但是这些成果还没有得到推广应用。而传统的知识组织工具具有语料丰富、结构严谨、关系明确等优点,是转换、构建本体的基础平台,利用已有知识组织工具构建本体必将成为知识服务发展趋势之一。
主题图、知识地图、主题网关等新型知识组织工具仍是研究的热点,包括理论研究和构建实践、应用等方面。一些学者尝试在特定领域构建主题图、知识地图、主题网关等试验模型,旨在更有效的组织、管理知识资源。我们希望将更多这种构造的实验模型推进到实际应用中,并通过用户的使用评价来不断改进和完善系统的建设。分众分类法由于具有标签不受限制、公开共享等优点,一直受到业界的关注,但其存在的问题也是显而易见的,很多学者提出了改进的意见,如对标签进行规范、形成标注规则和模式等等,并提出将其应用到图书馆、学科导航建设中等,更好地发挥其组织知识资源的作用。
网络知识组织系统是近年研究的热点和重点,它是为解决目前基于一般检索系统进行网络信息资源组织和检索的弊端而出现的,尤其分众分类法、术语注册、术语服务、词表间的互操作、以用户为中心的设计和网络化词表等,作为开展知识检索等知识服务项目的基础,在近年来各种相关机构组织的项目和会议中都占据了重要位置。其中知识组织系统的XML、RDF、SKOS及OWL描述在实现词表及类表网络化的同时,实现机器理解和M2M交换,欲为语义智能检索提供重要帮助。目前知识组织系统的XML、RDF表示已基本成熟,SKOS、OWL表示的研究仍处于实验阶段。网络知识组织系统的发展、完善和实际应用,作为一个发展迅速的方向,将会成为知识组织系统产生重大突破的重要分支。
�本文为国家图书馆研究院“国内外图书馆学研究与实践进展”项目成果的部分内容。
参考文献
1 白华.知识组织的空间问题[J].情报理论与实践,2007(2):161-163
2 王曰芬,熊铭辉,吴鹏.面向个性化服务的知识组织机制研究[J].情报理论与实践,2008(1):7-11
3 冯兰萍,朱礼军,张继国.一种基于模块化本体的知识组织方法研究[J].现代图书情报技术,2007(12):30-33
4 张琪玉.我国情报检索语言在进步中――两部分类法的特点[J]. 图书馆杂志,2008(7):2-4
5 黄建年,侯汉清.分类表编制技术标准发展态势研究[J].图书馆工作与研究,2008(2):30-35
6 司莉.叙词表在网络信息组织中应用的调查分析及其优化[J].图书馆论坛,2007(6):183-186
7 司莉,陈红艳,徐丽晓等.基于国会图书馆分类法的等级浏览界面(HILCC)研究及其启示[J].图书馆杂志,2007(1):26-29
8 马毓,邓小昭.世纪之初UDC的新进展[J].现代情报,2007(1):29-31
9 李军莲.MeSH词表的新变化及有关标引规则[J].医学信息学杂志,2008(2):285-288
10 康艳,张虹,侯汉清.情报检索语言不是“明日黄花”[J].图书情报工作,2007(10):139-142
11 杜慧平,何琳,侯汉清.基于聚类分析的自然语言叙词表的自动构建[J].国家图书馆学刊,2007(3):44-48
12 仲云云,侯汉清,杜慧平.电子政务主题词表自动构建研究[J].中国图书馆学报,2008(3):97-101
13 桂胜,李霖,成建国,等.政务信息资源分类体系的研究与构建――以深圳市国土房管理信息资源为例[J].图书情报工作,2008(4):25-28
14 白华.Web数据库技术、ontology与当代分类法的发展[J].图书情报工作,2007(1):39-41
15 白华.人工智能与现代叙词表和分类法的革新[J].情报理论与实践,2007(1):84-87
16 孔晨妍,侯汉清.《中国图书馆分类法》类目更新途径之探讨[J].图书馆工作与研究,2007(1):42-45
17 黄如花.数字信息资源管理的重要工具――分类法在构建元数据框架体系中的应用调查及建议[J].情报科学,2007(11):1606-1607
18 施振宏.关于精简《中图法》的探讨[J].图书情报工作,2007(9):109-112
19 李华,刘竟,侯汉清.用本体构建工具Protégé实现叙词表的可视化[J].图书馆杂志,2007(4):45-48
20 司莉.知识组织系统的互操作及其实现[J].现代图书情报技术,2007(3):29-34
21 刘华梅,侯汉清.叙词表互操作技术研究――教育集成词库的试验[J].中国图书馆学报,2008(5):59-62
22 孙玉英,王世萍.中文网络目录分类体系的优化[J].情报科学,2008(2):233-236
23 鞠福琴,徐至明,胡仲谋.从自由分类法看网络信息的分类组织[J].情报探索,2008(5):6-7
24 夏崇镨,康丽.基于叙词表的主题爬虫技术研究[J].现代图书情报技术,2007(5):41-44
25 章成志.自动标引研究的回顾与展望[J].现代图书情报技术,2007(11):33-37
26 蒲筱哥.自动文本分类方法研究述评[J].情报科学,2008(3):469-473
27 白振田、侯汉清.基于词典约简及多分类算法的文本分类系统的设计与开发[J].情报学报,2008(3):337-343
28 傅亮.基于《军事信息资源分类法》标引经验的自动分类模式构想[J].现代图书情报技术,2007(11):76-79
29 张秀兰,蒋玲.本体概念研究综述[J].情报学报,2007(4):527-530
30 刘春,黄定光.本体初探[J].现代情报,2008(1):38-39
31 李景. 本体技术标准化综述研究[J].现代图书情报技术,2007(5):12-16
32 李弘伟,王惠临.本体表示语言转换技术研究综述[J].图书情报工作,2007(5):82-85
33 范轶,牟冬梅.本体构建工具Protégé与KAON的比较研究[J].现代图书情报技术,2007(5):18-21.
34 刘琳娜,薛建武,汪小梅.领域本体构建方法的研究[J].情报杂志,2007(4):14-16
35 孙玉娣,裴勇.基于可视化文本挖掘的本体构建[J].情报杂志,2007(12):103-104
36 张新,党延忠.基于规则与统计的本体概念自动获取方法研究[J].情报学报,2007(6):813-820
37 王昊,苏新宁.基于模式匹配的中文通用本体概念抽取模型[J].情报理论与实践,2008(2):292-297
38 丁晟春,李岳盟,甘利人.基于顶层本体的领域本体综合构建方法研究[J].情报理论与实践,2007(2):236-240
39 李景,孟宪学,苏晓路,等.领域本体中的概念及其领域属性研究[J].现代图书情报技术,2007(2):5-7
40 葛宁,王军.领域Ontology的自动丰富――基于ADL地名表的实例研究[J].计算机科学,2007(9):156-162
41 贾君枝.《汉语主题词表》转换为本体的思考[J].中国图书馆学报,2007(4):41-44
42 杜小勇.学科领域本体的构建与进化――以经济学领域本体为例[J].现代图书情报技术,2007(3):7-11
43 曾新红,明仲,蒋颖,等.中文叙词表本体共建共享系统研究[J].情报学报,2008(3):386-394
44 贾君枝,郭丹丹.法律框架网络知识本体构建与实现[J].情报学报,2007(5):733-740
45 贾君枝,邰杨芳.基于法律框架网络本体的信息检索研究[J].情报学报,2007(4):562-566
46 贾君枝,郭丹丹.法律框架本体与顶层本体SUMO的映射研究[J].图书情报工作,2008(4):74-77
47 刘耀,穗志方,周扬,等.中医药本体概念描述体系的自动构建研究[J].现代图书情报技术,2008(5):21-26
48 何琳,杜慧平,侯汉清.古农书本体的构建及其可视化[J]. 图书馆杂志,2007(10):4-9
49 姜华.基于本体的语义检索技术研究与实现[J].现代图书情报技术,2008(4):39-43
50 丁晟春,成晓.基于用户提问的领域本体知识库的知识检索[J].现代图书情报技术,2007(1):62-64
51 张娜,张玉花,李宝敏.基于本体实现有效语义智能检索系统研究[J].情报杂志,2008(3):118-120
52 钱智勇.基于本体的专题知识库智能检索系统研究――以张謇研究知识库检索系统实现为例[J].图书情报工作,2008(4):78-80
53 焦玉英,成全.基于本体的知识网格集成服务研究[J].现代图书情报技术,2007(5):6-10
54 李超,王兰成. 应用领域本体的Web信息知识集成研究[J].情报科学,2007(3):430-434
55 颜端武,岑咏华,毛平,等.领域知识本体的可视化检索研究[J]. 中国图书馆学报,2007(4):60-63
56 丁晟春,甘利人,陈开浩.本体的图形化可视检索研究与应用[J].中国图书馆学报,2007(3):64-68
57 王一丁,王军.网络知识组织系统表示语言:SKOS[J].大学图书馆学报,2007(4):30-34
58 王茜,陶兰,王弼佐.语义Web中基于SKOS的知识组织模型[J].计算机工程与设计,2007(6):1441-1443
59 来玲,杨宝森.基于XML的大学图书馆知识管理系统研究[J].图书情报工作,2007(2):92-95
60 王军.基于XML本体描述语言的数字图书馆Web信息资源整合[J].现代情报,2007(11):84-86
61 王兰成,李超,何志浩.数字图书馆都柏林核心集网页文本的知识集成与检索研究[J].中国图书馆学报,2007(2):52-55
62 白海燕,胡铁军,梁芳,等.利用Multi-MARC实现文献信息管理系统对知识组织系统的支持[J].现代图书情报技术,2007(1):26-28
63 孔庆杰,宋丹辉.元数据互操作问题技术解决方案研究[J].情报科学,2007(5):755-758
64 毕强,朱亚玲.元数据标准及其互操作研究[J].情报理论与实践,2007(5):666-670
65 刘丹,包平.国外主题图研究综述[J].现代图书情报技术,2007(12):39-42
66 吴江宁,田海燕.基于主题地图的文献组织方法研究[J].情报学报,2007(3):324-330
67 吕元智,王心裁,谭必勇.基于主题地图的电子政务信息资源组织研究[J].中国图书馆学报,2007(4):73-76
68 郭清蓉.德国环境学科信息门户(PortalU)中主题图技术的应用[J].新世纪图书馆,2008(2):90-91
69 司莉,陈欢欢.国内外知识地图研究进展[J]. 图书馆杂志,2008(8):13-16
70 杨曦宇.知识地图研究综述[J].图书馆学刊,2007(3):133-135
71 潘有能,丁楠.图书馆学学科知识地图的构建[J].大学图书馆学报,2007(4):10-13
72 杨扬.图书馆情报研究知识地图的构建[J].现代情报,2008(4):37-38
73 蒋翠清,幸龙潮,丁胡送.基于层次分类体系的知识地图自动构建方法研究[J].情报学报,2008(4):499-505
74 李育嫦.分类法在主题网关信息资源组织中的应用探析[J].图书情报知识,2007(1):58-61
75 王雅戈,费志勇,李华.主题网关构建研究――以茶主题网关为例[J].常熟理工学院学报,2007(11):95-98
76 李丹.论分众分类法在图书馆的应用[C]//中国图书馆学会.中国图书馆学会年会论文集:2007年卷.北京:北京图书馆出版社,2007:180-185
77 张燕萍.用分众分类模式优化学科导航库建设[J].情报理论与实践,2007(4):552-556
78 张敏勤.基于本体的数字图书馆信息资源构建[J].大学图书馆学报,2007(3):13-45
79 廖君华,白如江.基于ontology的数字图书馆门户网站模型[J].图书情报工作,2007(2):36-37
80 孙雨生.基于ontology的数字图书馆互操作机制研究[J].情报资料工作,2007(3):79-81
81 司莉,徐丽晓,陈红艳.知识组织系统在我国数字图书馆中的应用及界面研究[J].情报科学,2007(3):445-450
82 徐晓梅,牛振东.数字图书馆的知识组织研究[J].现代图书情报技术,2007(10):1-5
83 毕强,牟冬梅.语义网格环境下数字图书馆知识组织理论、方法及其过程研究[J].图书情报工作,2007(8):6-9
84 黄勇凯,詹萌,夏正伟等.网格技术在国内外信息领域中的应用分析[J].图书情报知识,2008(1):93-97
85 陈志新.博客(Blog)资源的信息组织[J].图书情报知识,2007(4):76-79
86 冯向春.论国内图情博客资源的组织建设[J].情报理论与实践,2008(2):237-240
87 李瀚瀛. Wiki作为知识组织工具的应用初探[J].国家图书馆学刊,2007(3):50-53
88 都蓝.知识组织在Wiki中的应用探析[J].图书馆学研究,2008(5):38-41
89 向菁,黄如花,吴振新.Wiki在图书馆领域的应用[J]. 图书馆杂志,2008(7):53-56
卜书庆 国家图书馆研究馆员。
刘华梅 国家图书馆工作。
王广平 国家图书馆工作。