国外近几年网络环境下知识组织理论、方法的深化与拓展 卜书庆郝嘉树喻菲王广平
发布时间:2018-09-25  浏览次数:2

国外近几年网络环境下知识组织理论、方法的深化与拓展

卜书庆 郝嘉树  王广平

(国家图书馆  北京  100081

 

我们以ISIProceedingsIEEE/IEEElectronic LibraryEBSCOhost/LISTAElsevier-Science Direct SAGE Journals OnlineAcademic Research LibraryABI/INFORM Trade & IndustryLibrary and Information ScienceAbstracts等数据库为基础,跟踪调研了近年国外出版或发布的140多篇期刊论文,对国外近年来的知识组织的理论和实践进展、研究的重点和热点进行了概括总结。

1 知识组织理论研究

近年来知识组织理论研究主要包括以下3方面:

对用户认知和用户行为的关注。在用户行为对知识组织的影响方面,匈牙利赛格德大学的研究人员,研究了知识组织的理论和实践及其同人类知觉的关系,寻找契合用户直觉的最佳的知识组织系统设计方案,提出可视化是将用户直觉融入知识组织系统设计的一种方案[1]。知识组织团体应该仔细理解这些新的分类方案,思考和决定怎样使现有的知识组织结构更优更具活力,从而使知识组织得到更好的改编、扩大和发展。在用户认知对知识组织的影响方面,以色列巴伊兰大学的研究人员在研究认知理论对网站目录建构的影响。他们通过认知理论认为目录结构尤其适合于儿童进行信息检索,建议让儿童参与目录的设计过程,包括界面设计过程和内容结构设计[2]

对知识组织和知识管理的关系的继续探讨。最近两年两者共有成果的研究领域得到拓宽。描绘两个学科边界变的越来越不容易,它们有着共同要处理的问题,通过探索两者之间的关系和知识管理系统操作依赖的知识环境,得出知识管理的功能需有强大的知识组织做为基础来支持它[3]

网络环境对知识组织的威胁。有研究者认为图书馆已经失去了垄断地位,同时OPAC的时代已经结束。他们认为应该摒弃传统的信息资源和知识组织理念,而是集中于新领域的资源,如3D信息的可视化、分众分类法/标签、大规模数字化、Library2.0和与数字资源相关的元数据[4],并开展与之适应的知识组织理论、形式、方法和技术研究。

2 知识组织系统研究

2.1 分类法

1)分类法结构、功能研究

动态分类法正迅速成为一个热门话题,它是一个多维的分类法,一个子类可以有多个属类,并且文献中如果发现分类法中的概念有关系,则将它们联系起来,它在工业领域得到了迅速的发展,如基于存取范例的电子商务应用、元数据存取复杂信息、分面检索系统。有人提出了不按学科组织的综合级别的自由分面分类法,传统分类法在数字环境中存在局限性,并且有些类在多个学科的等级体系中都会出现,自由分面分类法可按领域和资源类型分类检索,返回结果中会显示所有包含此类的等级信息,在排序时不按字母而是按功能来排序。然而分面分类法却得不到广泛的应用,原因归纳如下:①图书馆信息科学对它不是很了解,在检索界面的设计中没有把该理念加进去;②比其他分类法复杂,需要事先大量的调查;③要实现分面分类法系统需要多个层面的合作,包括概念结构、标识、自然语言标题、数据库管理、标引界面和用户界面等[5]Hedden对现有的分类法进行了概括总结,提出将分类法分为四种,包括平面、等级结构、分面和网状分类法。

有人研究了功能分类法的重要性、功能和设计及设计的基本模式等。2008年,Connelly研究了功能分类法的重要性、功能和设计,认为要把记录管理和信息技术联系在一起,关注功能性系统和功能分类法的方案,并研究了功能模式的检验、分类法设计的基本模式、人们对分类法设计的期望和当模式出现故障时应采取何种补救措施[6]。分类法与XML结合是继续谈论的一个话题。将分类法封装在XML结构中,能够清楚的展现分类法结构,可以准确地被任何XML工具理解,从而解决传统方法编制的分类法无法在不同系统通用的弊端,为语义网和本体的构建打下基础。采用XML和诸如ZthesSKOSOWL这些标准框架,可以大大减少在系统和应用之间共享分类法的兼容和转换[7]

2)分类法的构建

分类法可用在人工标引、自动标引和自动分类等方面,不同的应用对分类法构建的要求各不相同,如用于组织和导航的分类法对等级结构要求较高,用于检索的分类法更关注同义词集合。

构建面向手工标引的分类法和面向自动标引的分类法主要有以下四方面的不同要求:①在分类法的术语方面:前者要求术语要尽量颗粒度小;后者则要求使用与以前完全一致的术语,并且要避免同时出现谓词和主题术语。②在术语关系的方面:前者中的关系非常重要;而后者中的关系却不是很需要。③在术语注释定义方面,只有前者需要为人工标引员标引提供注释帮助;而后者则不需要。④在同义词/变量方面,前者的同义词目的是方便书写,如缩写(国家、工业号等)和按字母浏览;后者的同义词则越多越好,并且单复数和词性变化都要包含在内。

在具体执行时,构建用于手工标引的分类法首先要确定标引人员的类型(是否专业),是否需与外界交流,提供标引员训练文档(标引政策指南、检测和质量控制方法)。其次可通过分类法的使用反馈进行构建。在使用中,如果术语被完全忽略,词表构建时就应多增加相关链接;如果经常用错则要增加范围注释和重新命名;如果使用标引软件来标引文献要确定标引界面的易用性、速度和正确性。在构建用于自动标引的分类法中,分类法专家需为每个术语提供多个有代表性的文献来训练自动标引系统。基于规则的自动归类中,分类法专家必须为每个分类法术语写规则[8]

    3)分类法软件系统

用来创建和维护分类法的软件开发工具蓬勃发展。目前较有名的分类法软件有Multisystems公司的MultiTes Pro2007.02.01版本)、Pty公司的Term Tree 20002.3版本)和Webchoir公司开发的TCS-102.26版本),它们都达到了维护词及其之间关系和属性的分类法基本功能,除此之外还提供了一些附加功能。

面对分类法的网络化,分类法软件的评价指标有所扩充和丰富,包括编辑功能,如创建、合并节点、范围注释、拼写检查、检索、版本管理等;附加特性,包括支持的语言、可量测性、输入输出格式、支持的标准、分类法之间的映射、是否提供API接口和安全性。作为平台的分类法指标包括实体抽取、自动分类(训练集、术语、规则、布尔)、情感分析、与分面、本体和语义网的结合[9]

2.2 叙词表

1)理论研究

有学者认为叙词表应是一个语义工具,在设计叙词表时应该以此为指导,拓展叙词表关系中除等级关系以外的语义的不同方面以及它们之间更复杂的结构。目前,表示复杂知识和文献中出现的不同主题领域的术语语义工具的性能需求已经提出,尽管是一个初步的方式有人探索了设定叙词表框架的可能性,它还涉及语言游戏和注解学范围[10]

2)自动构建

这几年叙词表的研究热点主要集中在自动构建方面,包括较新的自动构建方法、针对应用的跨语言叙词表的自动构建和特种叙词表的自动构建方法。详细如下:

近两年较新的自动构建方法有:(1NLP方法。在NLP方法中,常用到同现分析、N-gram分析和TF-IDF权重算法。针对歧义和同义问题,需要的NLP前处理技术包括:词干分析、形态分析、句法分析和标记等。自动构建叙词表的方法包括三个步骤:通过分词技术形成术语向量;通过计算每个术语的权值识别出重要概念并去除停用词,从而形成最终的术语向量;通过聚类算法挖掘词间关系[11]。(2)网络结构挖掘。网络挖掘包括网络内容挖掘、网络日志挖掘和网络结构挖掘,其中尤以基于网络结构挖掘的方法引起极大的关注。使用该方法构建叙词表的过程概括如下:选择构建领域高质量和有代表性的网站;通过一些迭代规则抽取网站之间的语义关系;为选择的每一个网站构建网站内容结构;通过后退链接文本分析将获得的内容结构融合起来。但由于同义歧义和算法复杂度的问题,Kotaro等人提出了利用大型网络词典巨大的词库及其超链接功能,构建联合叙词表的方法[12]

跨语言叙词表的半自动和自动构建成为词表构建的研究热点。有学者使用一种半自动翻译词汇方法,通过处理大量的多语种网络资源(包括网页文本和检索结果页),构建了中英文的MeSH叙词表。他们利用这种方法开发出了中英文Mesh编辑系统,帮助词表维护人员编辑19,000多条中英文叙词[13]。德国的一些学者也提出自动获取多语种医学词汇(西班牙语、法语和瑞典语)的方法,将来自UMLS超级叙词表的种子辞典和可靠的词汇翻译整合在一起,通过处理术语转化来确认词汇和语义的假说,并根据它逐步扩充目标词典,最终将把现存的一个6万英、德、Portuguese词条的叙词表,自动地扩充成具有17万新的西班牙语、法语和瑞典语词汇的新词表,并在文本检索系统框架中使用[14]。也有学者提出一种联合限制网络(associativeconstraint network)方法自动构建跨语言叙词表,采用后退标示算法(Backmarking algorithm) 和前进评估算法(forward evaluation algorithm)解决联合限制网络中的受限制满足问题。

图像叙词表的构建。Joohyoun等人提出了从WWW搜集训练图像集构建图像叙词表的新颖方法。训练图像集的要求是能收集大量的图像,并要和给定的概念高度相关。为了达到这些要求,系统据概念和图像的相关性标准从WWW搜集和给定概念相关的大量图像。然后分配一定的权重来合并5MPEG -7图片的可视化描述和概念对簇的相关性值,从而优化等级聚类方法来过滤掉不相干的图像。实验结果表明,该方法产生的图像叙词表的精确度比其它方法高18%[15]Tuuli在构建可视化叙词表时,将其分为两个主要的层次。视觉特性包括叙词表色彩(上色、主导颜色、颜色反差)和图像结构(组成、表层、突出和线),视觉印象包括若干对应的词对,如正式-轻松、静止-动态等。

2.3 网络分类体系与分众分类法

1)网络分类体系

构建用于网络信息组织的分面分类体系也是本领域关注的热点。为解决网站中缺乏信息资源组织、检索困难等问题,有学者提出开发一种多维分类体系,用于网页信息的组织和浏览,改善用户检索的效果。这个多维分类体系的原型系统是根据阮冈纳赞分面分类法的观点开发的,通过面向内容的元数据组织在不同的分面(类目的正交群)下,提供网页文件的多重分类[16,17]。此外,利用程序集成互联网应用的不同网络分类法也是一个研究方向。台湾的一些学者采用等级收缩算法和细粒度关系集成来自不同互联网应用的网络分类法。

2)分众分类法

随着分众分类法在各领域的广泛应用,其性能的评估以及与搜索引擎、主题目录、专业元数据框架等知识组织工具的比较成为目前研究的一个热点。分众分类法目前最大的问题在于怎样标准化从而能在元数据环境中实现互操作。有学者正在研究是否应该使用一个更结构化的界面来激励用户对资源添加标识,它能否得到推广和起到作用是将来需要考虑的问题[18]

针对用户自定义的标签存在模糊、同义和歧义现象而导致检索效果下降的问题,目前构建分众分类法的方法有:①基于共现方法的聚类。该方法的缺点在于如果标签内容是单个时将无法使用共现率,而且不具有语义。②基于语义相关的方法。通过标签聚类的相似度计算,形成标签云或主题等级。通过计算标签和标签、标签和用户、标签和标签簇之间的相似度,然后再寻找最佳簇的大小,从而形成同义词簇[19]。③前组配的结构。Smith提出用分面或同义词的形式对标签进行事先组织[20]。针对同义歧义的问题,Sun等人使用Wordnet来寻求解决的方法,Cheng等通过分析分众分类法的三重结构来消除标签的歧义性[21]

近几年提出的分众分类法系统和模式有:①基于部件的分众分类法系统SynTag。用户可以安装这一新组件到自己的系统,它支持用户上传资源和标签,并可检索外部的分众分类法系统,如Del.icio.usFlickr。②Munk等人研究了在实际中操作和建立分众分类法的模式。根据词频从del.icio.us随机选500个标签云,通过关键词统计频率和百分比的分配进行数学统计学上的分析,通过量化数据帮助找出使用者标记标签的某种模式③与受控词表的结合。目前有一些机构和个人在研究如何结合两者的优点将受控词表和分众分类法加以合并。如EnTag项目中,分别使用标签、DDC、标签和DDC的结合来标引文献进行实验,目的是调查是否能使用已建立的受控词表帮助消除免费的社会标签中的同义歧义问题,发挥其在信息环境和电子框架中资源发现的作用[22]

通过分众分类法进行知识发现,如通过分众分类法网站中标签的使用频率、用户上传的资源和用户信息等识别出有相同兴趣的用户组、大众的信息需求、发现标签云、实现标签的检索和订阅等,是分众分类法目前最主要的应用领域[23]

2.4 本体

近两年在知识组织领域本体探讨本体的论文,涉及到了本体的构建、本体的校正,以及本体在知识管理、自动分类、信息检索、商业管理等方面的应用。

1)构建方法

本体的构建方法仍然是这个时期研究的热点问题,研究人员提出了多种形式的本体构建方法,近几年出现的一些较新的本体自动构建方法有:(1)自下而上的方法。以往的方法大多是自上而下的方法,但没有自下而上的方法效益好,Park等人提出了系统的方法论,从工程文献中以自下而上的方法编制本体,叫做DocOnto。该方法主要分三个阶段进行,首先定义工程文献中的术语,为单个文献和聚焦的文献组联合语义网络来整合本体,最后进行修剪[24]。在此方法中,用一阶逻辑正式代表本体,用语义映射与相似度评价方法来整合本体,该做法可以用在结构化工程文献的计算机处理中。(2)从文本中学习亚层次结构。有学者提出从文本语料库中发现本体概念的亚层次结构,该方法据文本揭示出多集合的潜在话题,再通过对潜在话题对的有条件的独立测试,构造一个亚层次[25]。(3)基于大型中间本体映射构建全球本体。大量的本体缺乏映射成为语义网的严重问题,一对一映射显然不是有效的方法。由于分布式环境的特点,有人提出使用维基百科作为中间概念来映射全球本体。维基百科是一项规模宏大的概念网络,涵盖了现实世界中几乎所有的概念。由于维基百科叙词提供联合的概念没有明确的关系类型,学者Minghua等建议使用“名称映射”和“基于逻辑的映射”两个子方法来进行概念匹配[26]

模块化本体的构造技术。与传统的知识组织相比,模块化本体的构造能够将知识分配给专门知识用户进行本体模块的构建、分析、维护,能够改善知识用户对跨领域知识的理解,实现知识的开放组织,这将大大降低知识组织的复杂度及知识的共享和协作能力,提高知识组织的质量,降低知识组织的复杂性及其成本。

2)本体校正

本体校正是建立不同本体的概念间联系的过程。一个本体校正被定义成来自两个本体的一组概念对,由一个关系R连接,R不限制为等价关系或包含关系。法国的一些研究人员提出利用句法模式和UMLS语义校正生物医学本体的方法。他们开发出一种方法,利用OBO本体中的词汇合成原则,以及UMLS提供的同义词和词间关系,界定句法语义模式的概念语义关系。这种方法有助于找到本体中概念之间的语义关系[27]

3)本体应用

领域本体在企业知识管理、企业整合和e-商务中的应用。本体在这些领域扮演着重要的角色并有很深的影响,如应用在企业发布信息、开展业务和进行交易、整合信息等方面。本体具有良好的概念层次结构,可以用来帮助组织、浏览、搜索企业管理平台和e-商务中的知识和信息;本体对逻辑推理的支持使得在e-商务中可进行更高级的在线信息服务,如在数据挖掘商业理解阶段,组织-本体框架可以以半自动化的形式整合输出该阶段应进行的活动;由于本体是一套共享通用的术语和知识表示结构,所以为信息整合提供了一个统一的模式,目前国际上相关的著名项目有(Onto) [2]AgentOntobrokerSKC等。

基于本体的知识管理是知识组织领域的重要研究方向。一些研究人员利用医学本体的语义关系进行自动分类,解决主诉词汇变化问题及多组病症分类问题(multiple sets of syndromic categories)。奥地利维也纳大学的研究人员,提出使用本体对(专家)的知识建模,以提高从法律知识系统的文献中提取和利用信息的能力[28]。德国不来梅大学(Universityof Bremen)和德国数据中心(GermanyData Centre)的学者,研究了本体在生物分类学的应用,提出了利用本体和排名算法记录和管理生物分类知识的方法。他们的实验结果表明,将生物分类同义词作为本体的一部分是记录和管理生物分类知识一种方法,从而有助于保护科学遗产[29]

3 知识组织系统的应用研究

3.1 自动分类、自动聚类技术

近年来,随着人工智能、机器学习、模式识别和数据挖掘等的不断发展,自动分类和聚类技术得到了长足的进步。目前主要的方法为基于统计学习的方法与基于语言分析的方法。

基于受控词汇的文本自动分类是分类法的一个重要应用。最近流行的基于图书馆分类法(如LCCDCCNLMUDC等)的文本分类项目和应用包括PharosScorpionDESIREWolverhampton Web library等。经实验研究,目前基于分类法的文本分类效果依赖于分类法的数量、结构特性、对类的等级结构的限制和各分类法的互操作性等 [30]。自动聚类可以用于受控词表的关系发现和层次构建,以及检索结果的自动聚类和排名算法的优化。

3.2 知识检索

知识检索是一种基于知识组织系统,能够实现知识关联和概念语义检索的智能化的检索方式。目前学界所提出的“概念检索”、“语义检索”、“智能检索”都是基于知识的信息检索的表述形式。目前有基于知识组织系统的检索、基于语义网技术的检索和基于语义繁殖的图像检索。其中,基于知识组织系统的检索是当前的研究热点[31],以下为各种类型知识组织系统的知识检索介绍。

基于本体的知识检索和语义概念扩展查询。丹麦的一些学者,介绍了基于本体的信息检索的一些原则,由于本体的不同关系会影响全部概念之间的相似性等检索匹配结果[32],他们还计算了来自本体结构和关系的原子概念和复合概念之间的相似性。以知识本体作为概念语义空间,实现基于本体的查询扩展也是知识检索的重要研究领域,也是当前语义概念查询扩展的研究热点。美国的一些研究人员,提出了一种通过关联规则结合本体和自然语言处理技术的新型的语义查询扩展技术。利用关联规则发现的重要词的内容属性;通过词义消将本体款目添加到查询中[33]。台湾的一些研究人员提出一种基于本体的自适应语义检索方法,改进较长检索结果列表的排序靠前的检索结果。

基于叙词表的检索技术。荷兰阿姆斯特丹大学的一些研究人员进行了视频信息语义检索方法的研究,提出了一种基于高层概念探测器的视频自动检索方法,他们利用这套探测器构建多媒体叙词表,就像从词网(WordNet)不断丰富的语义描述和语义结构的一套机器学习概念探测器,结论显示这是一种有前途的研究方向[34]。美国斯坦福大学医学院的研究人员研究将“组织微阵列数据库”(TMAD)中的组织样本的病理诊断映射到NCI叙词表的方法,他们提出了NCI-T方法,有效的将TMAD中描述样本的与诊断有关的术语映射到NCI-T,促进组织微阵列数据的集成和查询[35]

基于网页目录或OPAC的检索技术。在搜索引擎中,用户通过人名检索某人信息时,返回的结果往往包含多个人的信息。日本的一些研究人员提出使用网页目录作为知识基础,计算文献的相似性从而对人名消歧,以帮助用户找到他们感兴趣的人的信息的方法,并对网络中提及现实中人物的文献以及一些著名的网络目录结构进行试验,显示使用网页目录进行人名消歧比其它常规方法更有效[36]。美国芝加哥大学的研究人员研究了一个分面OPAC界面,试图改善学术研究的信息发现的问题。他认为在一个图书馆目录中采用分面界面和检索词建议,可能帮助那些高度依赖图书馆资料的学者找到仍隐藏在传统的图书馆目录里的文献。

基于自组织地图和主题网关的分类检索。为了实现个性化网页检索,新加坡的一些研究人员提出用自组织地图(self-organizing mapSOM)进行用户兴趣建模。研究结果显示,SOM能够帮助用户找到网络检索中每个检索提问的相关类目,实现有效的个性化网页检索[37]。瑞士国家图书馆的SwissInfoDesk虚拟参考咨询台根据用户的兴趣选择出12个有关瑞士的主题建立了一个主题网关,帮助用户通过检索获得网络信息[38]

3.3 知识服务

知识组织系统在知识服务方面主要表现在元数据互操作、术语服务及跨语言的互操作检索。术语注册拥有表信息,可以列出、描述、识别和指出在信息系统和服务中可用的知识组织集合和其它类型的词汇。目前从事术语注册的工作和项目有JISCHILTⅡ和TRSSNERC的数据格词汇服务和OCLC的术语服务和国际术语信息中心的ISO/NP 29383术语计划政策-编制执行标准[39]。英国的一些研究人员评价了在分散术语服务器环境下方便互操作的等价范围或映射类型。他们逐条检查了这些映射类型,描述从选定的术语(AATLCSHMESHUNESCO)到《杜威十进制分类法》之间映射关系的特征,判断这些映射关系的有效性,提出了一组一般性的映射类型。但是在开发简单知识组织系统(SKOS)核心映射词汇说明书的过程中,对这组一般性的映射类型是否够用还有怀疑[40]。知识组织系统间的互操作包括不同的层次,具体如下表:

5-1  知识组织系统互操作类型[41]

互操作层次

互操作因素

词表层

不同的主题领域

前组配/后组配的程度

不同的粒度

不同的语种

记录层

不同的编目格式

描述KOS元数据表

系统层

检索KOS的不同协议

不同的信息检索系统

 

最近两年出现的知识组织系统互操作方法有:基于共现的方法、卫星和叶节点的链接、中间语言转换、直接语言的翻译转化、受控词表间的直接映射、通过临时统一表的链接、叙词表服务协议的链接和将要实现互操作的受控词表转化为SKOSRDF格式,从而寻找词间的关系。

4 知识组织系统的可视化研究

信息可视化技术和知识组织技术的结合,是知识组织工作注重用户体验的重要转变。以下为近年主要的知识组织体系的可视化研究。

专书索引的可视化。美国帕洛阿尔托研究中心的研究人员提出在阅读工具中设计可视化分析环境,帮助用户快速消化大量阅读资料。他们介绍了一种名为ScentHighlights的技术,通过概念组织满足特殊用户的信息需求,改善一本书的主题索引。用户首先通过关键词输入信息需求,描述他们想要检索和包含的概念,然后使用ScentHighlights技术计算什么索引项是概念相关,在单一页面组织和显示这些索引项,通过这种索引项列表向用户提供大量的检索提示,快速找到相关段落[42]

基于分众分类法的可视化。标签云,也叫加权清单,是一个与分众分类法紧密相连的概念。标签云作为标签系统中信息检索的可视化界面被广泛采用,可提供系统中资源所分配标签的全局环境视角。对已经形成的分众分类法,标签云采用其特定的方法将分众分类法显示给用户,它通常用字体的大小和颜色来表示标签的流行度。标签云出现在很多流行的基于分众分类法的网站上,在FlickrDeliciousTechnorati和许多其它网站的发展历史上具有重要的意义。澳大利亚国立大学的研究人员设计实验,检查标签云对于改善实际检索的帮助。实验结果显示,在特定信息的信息查找任务中,参与人员倾向于选择检索界面;在一般性的信息查找任务中,参与人员倾向于选择标签云。他们认为,标签云作为基于分众分类法数据库的唯一的浏览方式不能完全满足用户的需求[43]

基于SKOS的可视化构建。知识组织领域的学者们也在关注SKOS创建的可视化工具的开发。西班牙萨拉戈萨大学的研究人员,开发了一种开源工具――ThManager,可用来方便的创建基于SKOS的知识组织系统。ThManager被设计用于管理叙词表,也可以利用它用SKOS格式表示其它的知识组织模型。这个系统由3层组成:存储层用来存储相关元数据描述的叙词表;持久层提供访问存贮层叙词表API接口;图形用户界面层提供可视化叙词表的不同图形组件,通过属性检索并用不同的方式编辑叙词表[44]

分类法和叙词表的可视化。可视化分类法设计的关键在于加强界面的可理解性和加强界面所呈现的知识的可视化。目前分类法可使用一维、二维、三维设计的方法来显示,应用在图像检索的视觉分类法由两个层次组成,视觉印象和视觉特性,用于从视觉的角度为指定查询提供修饰语[45]。可视化叙词表多应用在专业图像检索中。

5 书目规范控制研究

书目规范控制属于文献单元的知识组织控制,近两年又出现了一些新的发展、服务和理论,包括FRAD概念模式、国际虚拟规范文档和国际标准规范数据标识控制等。国际图联在原有的FRAR基础上于200741推出新草案FRAD[46]FRAD的概念化应该更严谨,实体关系模式的使用说明要更清楚。尤其对辨识作品实体名称、主题关系非常有用的实体关系模式,及用来知识导航的优势。FRAD的发展势必会对编目规则产生冲击,未来的IFLA新国际编目规则与“资源描述和检索”将以FRAD为规范的理论基础。国际虚拟规范文档(VIAF)是国际规范控制的设想,由国际图联主持开展,它通过Z39.50协议将现有联机规范文档连接,同时支持检索及横跨多个规范文档的互操作方法,通过现有的记录号码连接同一实体的多个规范记录,同时支持规范标目多语种转换。其长远目标是连接来自许多国家图书馆和其他权威数据源的规范名称,形成一个共享的个人、团体、会议和地名的全球规范文档服务。20071114,法国国家图书馆、德国国家图书馆和美国国会图书馆签署有关扩大和增强虚拟国际规范文档谅解备忘录,这个项目整合多个名称规范文档为一个单独的名称规范服务。新的协议的签订提供了一个从其他机构增加更多规范文档的架构。

6 总结与展望

综上所述,知识组织研究的范围除在传统领域继续深入和细化,近几年国外开始与语义网、自然语言处理技术、搜索引擎和数据挖掘等新技术紧密地结合,除对网络环境下知识组织理论进行探讨外,更侧重知识组织系统的网络化、分布式管理、互操作以及相关的描述语言和词表管理平台等的研究,用户行为、用户参与和用户体验在知识组织界面设计中的应用等拓展研究也得到更多关注。具体而言,近几年国外有关知识组织的理论研究和实践进展主要包括以下两个方面:

知识组织系统及其应用研究。包括知识组织理论研究、知识描述研究、数字图书馆知识组织与网络知识组织方法的研究等。知识组织理论研究主要集中在知识的系统化组织、结构化组织、个性化组织、模块化组织、可视化组织等方面。SKOSRDFOWL是表达知识组织系统的新的通用数据模型,很多学者都尝试将主题词表、叙词表用SKOSOWL等进行描述,并实现不同叙词表间以及叙词表到本体的转换。还有学者对语义网格环境下数字图书馆知识组织的理论方法、过程以及语义互联策略等进行了系统的研究。网络信息的知识组织研究集中在对网络知识组织系统的类型和表示、互操作、相关标准与规范、构建和维护、应用等方面的问题。

知识检索与知识服务的研究。以各种类型知识组织系统,如本体、语义网、自组织地图、叙词表、分面目录等作为概念语义空间,实现基于语义的查询扩展也是知识检索的重要研究领域,是当前语义概念查询扩展的研究热点。知识服务的研究热点仍集中在知识服务模式、策略、服务管理机制、服务技术等方面,知识组织系统在知识服务方面主要表现在聚合、元数据互操作、术语服务及跨语言的互操作检索。其中,术语服务正处于快速发展的阶段,目前的研究包括术语注册的范围、协作、网络词汇表的编码和问题等。分众分类法也一直受到业界的关注,近几年的探讨和研究集中在对标签存在的模糊、同义和歧义现象的处理,及其与受控词表的结合使用方面。本体应用也是近些年的研究热点,包括基于本体的智能检索、信息集成、主题抽取、文本分类、语义挖掘、语义分析等方面。总的来说,关于本体的应用研究很多还是停留在理论研究方面,而在具体的实施和系统构建上还很少,其中基于本体的知识管理是国外知识服务的重要研究方向。

 

参考文献

1 Agnes HajduBarat. Human perception and knowledgeorganization: visual imagery[J]. Library Hi Tech20073:338-351.

2 Judit Bar-IlanYifatBelous.Children as architects of Web directories: Anexploratory study[J]. Journal of the American Societyfor Information Science and Technology20076: 895-907.

3 Kasten J. Thoughts onthe Relationship of Knowledge Organization to Knowledge Management.. Knowledge Organization, 2007, 34(1):9-15.

4 Brad Eden .Information OrganizationFuture for Libraries[R]. Library TechnologyReport,2008:43(6): 1-10.

5 Claudio G. Potential Offreely Faceted ClassificationforKnowledge Retrievaland Browsing. The 7th European Networked Knowledge Organization Systems (NKOS)Workshop..DanMark,2008.

6 Connelly J. Functionaltaxonomies: Myth or magic? [R].Records Management Society Bulletin,2008(142):11-15.

7 Stewart, Darin. (WHY) TAXONOMIES NEED XML[J]. Econtent20072:46.

8 Heather H. Taxonomies for Human vs.Auto-Indexing.Taxonomy Boot Camp 2008.USA,2008.

9 Tom R.Selecting TaxonomySoftware Who, Why, How[C].Taxonomy Boot Camp.USA,2008.

10 Mazzocchi F, Tiberi M. RelationalSemantics in Thesauri: Some Remarks at Theoretical and Practical Levels[J]. Knowledge Organization, 2007,34(4):197-214.

11 Li j,ZhangP,HuangCW,et al. AutomaticThesaurus Generation and Its Weight Assignment for External Information Supportin GSS[C]. International Conference on ManagementScience and Engineering. 2007:16-20.

12 Kotaro,HARAT, NISHIO SA.Thesaurus Construction Method from LargeScale Web Dictionaries[C]. International Conference on AdvancedInformation Networking and Applications.2007:932- 939.

13 Wen-Hsiang Lu etc.Using Web resources to construct multilingual medical thesaurusfor cross-language medical information retrieval[J].Decision Support Systems2008(6): 585-595.

14 KornélMarkó etc. Automatic lexemeacquisition for a multilingual medical subwordthesaurus[J]. International Journal of Medical Informatics20072-3:184-189.

15 Park J,NangJ A Novel Approach to Collect Training Images from WWW for ImageThesaurusBuilding[C]. IEEESymposium on .2007:301-306.

16 Mohammad NasirUddin, Paul Janecek.Theimplementation of faceted classification in web site searching and browsing[J]. Online Information Review20072: 218-233.

17 Mohammad NasirUddin, Paul Janecek. Facetedclassification in web information architecture; A framework for using semanticweb tools[J].The Electronic Library20072: 219-233.

18Marianne L N. Emerging Trends inTagging � and its Relation to KOS[C].The 7th European Networked Knowledge OrganizationSystems.Denmark,2008.

19 Lee S S; Yong, H S.Component Based Approach to Handle Synonym and Polysemy in Folksonomy.International Conference on 7th IEEE Computer andInformation Technology.2007:200 � 205.

20 Smith, G. Tagging: Emerging trends[R]. ASIS&T Bulletin, , 2008.

21 Cheng A Y, Gibbins N, ShadboltN.Tag MeaningDisambiguation through Analysis of Tripartite Structure of Folksonomies[C].IEEE International Conferences on Web Intelligenceand Intelligent Agent Technology Workshops, 2007 :3-6.

22 Jian Q. Folksonomiesand Taxonomies: Where the Two Can Meet[C] . The 8thNKOS Workshop .USA,2008.

23 Zauder K, LazicJ,ZoricaM B.Collaborative Tagging Supported KnowledgeDiscovery InformationTechnology Interfaces[C]. 29th International Conference onITI’2007.2007:437 - 442.

24 Park  JM.ProductOntology Construction from Engineering Documents;SmartManufacturing Application[C]. International Conference on ICSMA

.2008:305-310.

25Zavitsanos E,PaliourasG,VourosGA.Discovering Subsumption Hierarchies ofOntology Concepts from Text Corpora[C]. IEEE Conference on WebIntelligence.2007:402 � 408.

26 MinghuaP,NakayamaK,HaraT,et al. Constructing aGlobal Ontology by Concept Mapping Using Wikipedia Thesaurus[C]. InternationalConference on 22ndAdvancedInformation Networking and Applications Workshops.2008:1205-1210.

27 GwenaëlleMarqueta. A methodexploiting syntactic patterns and the UMLS semantics for aligning biomedical ontologies: The case of OBO disease ontologies[J]. Journal of Biomedical Informatics. Journal of BiomedicalInformatics20082: 353 � 361.

28 Erich Schweighofer, Doris Liebwald. Advancedlexical ontologies and hybrid knowledge basedsystems: First steps to a dynamic legal electronic commentary[J].Artificial Intelligence and Law20072: 103 � 115.

29 Robert Huber, Jens Klump.Charting taxonomic knowledge through ontologiesand ranking algorithms. Computers & GeosciencesMarch 2008

30 GolubK,HamonT, Ardo A. AutomatedClassification of Textual Documents Based on a Controlled Vocabulary inEngineering. Knowledge Organization, 2007, 34 (4):247-263.

31马文峰,杜小勇.知识检索研究[J].情报理论与实践,20062: 157-160.

32 RasmusKnappe.Perspectives onontology-based querying[J]. International Journal ofIntelligent Systems20077: 739 � 761.

33 Min Song etc. Integration of association rules and ontologies for semantic query expansion[J].Data & Knowledge Engineering20071: 63-75.

34 Cees G.M etc. AddingSemantics to Detectors for Video Retrieval[J]. IEEETRANSACTIONS ON MULTIMEDIA20075: 975-986.

35 Nigam H Shah. Annotation and query of tissue microarray data usingthe NCI Thesaurus[J]. BMC Bioinformatics20078: 296-296.

36 Quang Minh Vu etc.Improving theperformance of personal name disambiguation using web directories[J].Information Processing & Management20084: 1546-1561.

37 Chen Ding etc.User modeling for personalized Web search withself-organizing map[J]. Journal of the AmericanSociety for Information Science and Technology20074: 494 � 507.

38 Jean-PhilippeAccart.TheSwissInfoDeskexperiment: the building of a website subject gateway as a contributive part ofa virtual reference desk[J]. Collection Building20064: 134 � 138.

39 Zeng M. Registeries-Synergies andDifferences[C]. International Conference on Dublin Core and Metadata Applications.German,2008.

40 EmmaMcCullochGeorge Macgregor.Analysis of equivalence mapping for terminology services[J]. Journal of Information Science2008(1):70-92.

41 Libo S. Encoding Formats and Considerationof Requirements for Terminology Mapping[C].The 6th European Networked Knowledge Organization Systems (NKOS)Workshop.Hungary,2007.

42 Ed H Chi etc.ScentIndex and ScentHighlights: productive reading techniques forconceptually reorganizing subject indexes and highlighting passages*[J].Information Visualization2007(1): 32-47.

43 JamesSinclairMichael Cardew-Hall.Thefolksonomy tagcloud: when is it useful? [J].Journal of Information Science2008(1): 15-29.

44 Javier Lacasta etc.ThManager: An Open Source Tool for Creating and VisualizingSKOS[J]. Information Technology and Libraries20073: 39-51.

45 Nurminen, T. Visual Taxonomy for Professional ImageRetrieval and Automated Annotation of Images [C]. International Workshop on Content-BasedMultimedia Indexing,2007 :181-185.

46 IFLAWorking Group on Functional Requirements and Numbering of Authority Records(FRANAR).(2007).Functional Requirements for authoritydata: A conceptual model Draft.(2007.4-01).http://www.ifla.org//d4/wg-franar.htm

 

卜书庆 国家图书馆研究馆员。

郝嘉树  国家图书馆工作。

    国家图书馆工作。

王广平 国家图书馆工作。