分类:不可小觑的检索途径
华薇娜
(南京大学信息管理系 210093)
摘 要 本文从检索实践的角度归纳与总结了分类检索的重要性,分析了目前国内数据库分类检索的设置,比较了国内外数据库在内容特征检索方面的相同与不同,认为分类检索是中国数据库的优势与特色。完善分类检索系统、开发主题检索系统应该成为国内数据库开发的目标与努力的方向。
关键词 分类检索 主题检索 检索策略 检索途径
1 从几个检索题说起
在我们平时的信息检索实践中,人们一般习惯于从一个特定的概念入手,进行特性检索。这也许是网络搜索引擎带给人们这样的惯势吧。比如有这样的几个检索题:
题一:“近年来走向世界的中国大陆数学研究成果”。该题是希望检索出在世界性的学术期刊上由中国大陆作者发表的论文。检索者的选择一般是利用美国ISI公司的SCI数据库,这是一个正确的选择,因为这个期刊数据库覆盖了世界范围的基础理论方面的核心期刊。绝大部分的检索者都考虑应用该数据库的“Title”(篇名)检索字段,输入检索词“China and Mathematic*”(这里的Mathematic用了截断符,可以包括Mathematics,或Mathematical等相同词根的所有相关词)。按这个检索思路,在SCI数据库中自1997至2007年第三季度期间所能检得的结果为23篇。如果放宽到关键词和文摘字段,这个结果也只有60篇左右。对于这样的结果,恐怕谁都不会满意。而事实上在同一时间段,该题的检索结果数应该是近3万篇,其中中科院系统就有3000多篇,而复旦大学、清华大学、北京大学均各有1200多篇。其中有19位作者的个人论文量都在100篇以上(包括合作研究)。
人们不禁要问,数学研究一定需要在文章篇名中出现“数学”的字样吗?代数是数学吗?几何是数学吗?拓扑是数学吗?……当然是的,在数学这一概念中包含了太多的分支概念,而这些分支概念绝大部分并不以数学的字样出现。
题二:“抗日战争时期的中国对外关系”。该题是希望检索出在抗日战争期间有关中国对外关系方面的文献。按照一般的检索思路,检索者选用CNKI中国期刊全文数据库,在其“篇名”字段输入“(抗日+抗战)* 对外关系” 这样的检索要求,从该数据库1984年至今只检得5篇文章。假如看到这样的文章题名:“24道拐及其对中美关系发展的可能效应”,“第二次世界大战时期的中印关系及其影响因素”,“美国飞虎队老兵回访第二故乡重庆”,你能说它们与本题检索要求无关吗?但这些题名中并没有出现与检索输入要求所匹配的检索词。
题三:“地表水体的污染治理”。在维普中国科技期刊数据库中,在题名字段输入“地表水*污染”,只检索到90篇文章。试问:太湖、秦淮河、黄浦江、十三陵水库是地表水吗?但检索者在题名检索字段中却无法穷尽地将这些具体的地表水体名称列举到检索式中去。
以上例题在检索实践中俯拾皆是。篇名检索实际上是在主题检索的体系中进行的,检索者要求系统在篇名中寻找与匹配符合检索要求的结果,属于特性检索的范畴。上述几个检索策略的设计都是特性检索的概念,而检索题却反映了族性检索的要求。数学希望能覆盖属于数学学科的全部研究成果,对外关系则可以包括中国对外关系类目下的全部下位类,地表水也希望能囊括所有能隶属于地表水的所有河流、湖泊、水库等等。要想在主题检索体系中实施分类检索的概念,其检全率与检准率都是极低的。
2 国内数据库分类检索的设置
综观国内国外的数据库,提供主题检索方式的相当普及,只要是提供了检索功能的系统一般都至少提供了关键词或题名字段的检索途径。网络上的搜索引擎基本上也是基于主题性质的特定概念的检索。但提供分类检索的系统相对则少了很多。不过,我国的一些大型的期刊数据库都在一定程度上或多或少地采用了分类体系,尽管各系统在分类检索的功能或深度上还不尽相同。目前,国内数据库所提供的分类检索的模式有分类导航、分类号检索和分类检索系统这三大类型。
2.1 分类导航
目前国内的一些大型期刊数据库大多都采用了分类的方式来实施系统的导航。这是一种按照网络资源所属学科内容及其等级而建立的学科网络资源分类工具。它是以所收录的资源为对象,按照内容对象所在的学科,及它们之间的关系而有层次地展开的一种形式直观、浏览方便的导航体系。这种学科导航具有很好的直观性、适用性和易用性。
这些中文期刊数据库的分类导航都是按照学科分类设置的,与图书馆藏书的组织方式基本一致,符合人们的浏览习惯,具有易用性和实用性。这种方法提供了详细的导航内容,最大范围的选择空间,检索时只需知道检索课题的所属学科专辑,不需要输入检索词,直接点击相关的类别、相应的类目,或相关的专辑就可以完成检索操作。这对于那些希望从学科大类的角度进行浏览,或者对不熟悉数据库检索规则的用户来说,分类导航提供了很大的便利。
但是,分类导航的优越性只体现在以期刊刊名或以学科主题名称为入口的浏览方面,也就是说用户只能从期刊所处的学科,或者只能从检索目标所在的学科进行大范围的浏览。分类浏览是否能满足分类检索的要求呢?回答应该是否定的。因为分类浏览主要是在期刊的树状结构中通过层层点击浏览所需信息,并不能实现特定信息的检索;在分类浏览体系中要想取得特定信息,或专指度较深的明细信息,需要逐层点击,真是费时费力,还不能保证查全查准;对于跨主题跨学科的期刊,往往很难在多个分类类目中出现,同样,对于交叉主题的检索需求,又往往难以在一个分类类目中全面地得以浏览;大多数数据库的分类浏览系统都只是从期刊刊名角度的浏览,用户在期刊与期刊数据库的基本单元――论文之间还留有大量的筛选、甄别的工作。
因此,从用户检索的角度看,人们期望着能有更理想的、更能体现分类优势的分类检索体系。
2.2 分类号检索
除了刊名浏览外,在国内期刊数据库中能体现分类检索特征的还有分类号检索途径。这里的分类号主要是依据图书分类法而设置的,用以代表类目的数字、字母符号作为文献主题标识。目前国内数据库中所采用的分类号主要依据《中国图书馆分类法》而产生的分类号。用分类号检索,便于检索者对所研究的学科知识动态全面了解,便于检索者按学科迅速准确地查询。分类号比较简短,输入简单。同时,分类号是统一按图书分类法产生的,无论是存贮方还是检索方,均有法可依,有章可循。所以,分类号检索途径应该成为读者通过数据库查询信息的主要检索途径之一。
2.3 在线分类检索体系
分类号检索的一个最重要的前提是需要掌握正确的分类号。但是长期以来,网络数据库中的分类号检索却缺乏广泛深厚的读者基础,绝大部分的用户对分类号不熟悉,不会使用,用户分类检索的使用率很低,分类号检索可谓是叫好不叫座。究其原因,一方面是用户忽视了分类检索的存在,读者要使用分类号检索途径,必须准确地知道类目名称和分类号,并准确地输入分类号。这对于读者来说,显然是要求过高了。
另一方面系统不能在线产生分类号也是重要的原因。大部分的数据库在检索时却不能在联机状态下在线生成分类号,需要用户在脱机状态下离线通过工具书《中国图书馆分类法》自己去查找,或者借助网络查到比较粗分的分类号,或者参考相近内容的图书所附的分类号而间接获得检索所需的号码。而《中国图书馆分类法》并不是一种家常必备的图书,因此,用户准备这个分类检索字段的分类号是十分麻烦的。由此看来,在线生成检索所需的分类号对于分类检索的普及,对于数据库的充分利用就显得十分重要了。在当前国内的大型数据库中,能够在线自动生成分类号并进而通过分类号进行检索的系统是维普中文科技期刊数据库。该数据库除了提供分类浏览和分类号检索字段外,还另设分类检索模块。这个分类检索模块与快速检索,传统检索,高级检索,期刊浏览模块并列。依据《中国图书馆分类法》提供22个大类的分类,每个大类可以展开,类名前如果有符号“+”,表明该类目可以继续细分,直到类名前出现符号“・ ”为止。大多数类目可以细分到5级类目,也有的甚至细分到6级、7级。用户可以在类目等级的任何层次浏览分类表。在所选类目的类名前的复选框内打勾,并点击类目添加按钮,就可将所需类目添加到“所选分类框”。可以同时勾选多个复选框,以应对跨学科主题的检索。在所选类目下,还可以选择其他的检索字段(如作者、篇名、关键词等)与所选分类类目匹配。这样的检索,是分类检索与主题检索的结合,是族性检索与特性检索的结合。在很大的程度上满足用户的检索需求。这在网络环境下有其独特的作用,值得推广。
尽管维普数据库的这个分类检索体系目前为用户在分类检索方面提供了深入检索文献内容的途径,但依然有诸多不尽如人意之处,如系统中没有提供任何复分表,没有任何注释与说明,没有交叉参见类目,也没有一个例证。一句话,它不是图书分类法的链接,不能提供给用户完整地利用分类法深入挖掘检索文献内容的条件。
3 国内数据库分类途径的优势与不足
目前如果要综合评论国内数据库在分类检索途径方面的优势,有这样几点可以总结出来:一是国内有几乎统一的图书分类法,目前《中图法》的使用面很广,绝大部分的图书馆是用《中图法》来组织文献的。国内很多的知识整序工作也在很大程度上参照《中图法》的体系。并且其他分类系统的使用单位在很大程度上也会并列使用或参照使用《中图法》分类号。这是国内图书馆界的有识之士多年努力的结果,也是国内数据库加强分类检索功能的一个很好的前提。从这一点上说,国内数据库分类检索的优势远远大于国外的数据库,比如,美国就有几套分类系统在图书情报界所应用,并且都有一定的用户使用面。
二是国内图书分类的普及面广,只要是有一定规模的图书馆,都会有专人负责图书分类的工作,给每本进库图书编以图书分类号。大多数图书馆以图书分类号作为索书号的重要组成部分。于是,用户对分类号的了解就有了很好的基础,也便于用户借助于相同主题内容的图书的分类号来利用数据库进行分类号的检索。
三是期刊论文标注分类号有广泛的群众基础,长期以来,我国相当数量的学术期刊论文都附有《中国图书馆分类法》的分类号。这个分类号大多由期刊论文的作者完成,也有的是由期刊的编辑出版部门或数据库生产单位补充的。充分地利用这个有着广泛的作者编者基础、深入到研究主题内容深处的分类号,对于从学科主题的角度检索数据库可以起到纲举目张的作用。
对于目前国内数据库分类检索的不足之处,也有几点可以总结的:一是绝大多数系统不能在线生成分类号;二是到目前为止还没有能生成完整分类号的在线系统。
4 国内外数据库内容检索途径的比较
从数据库内容检索途径的角度上,了解一下国外数据库的情况,并对国内外数据库内容检索途径作一些比较后,得出如下一些结论:
(1)国外数据库几乎没有图书分类号的检索途径
除了较少的书目数据库,如国会图书馆的在线书目系统等外,国外数据库几乎没有图书分类号的检索途径。而即使是书目数据库,也很少使用严格的图书分类号,如DDC(杜威十进分类号)、UDC(国际十进分类号)等作为主要的图书检索字段的。连著名的网络书店亚马逊网站的图书检索模块中的高级检索中也没有提供分类号检索的字段(包括了关键词、著者、书名、标准书号、出版商、主题的检索字段)。
(2)国外数据库的专题分类很多
国外的数据库虽然很少提供图书分类号的检索途径,但专业或专题的分类检索途径却很多。主要的有:
①专利分类:在专利分类中,除了国际通用的国际专利分类(InternationalPatent Classification)外,较多地被数据库用作检索的还有Derwent专利分类,以及美国专利分类(Unite States Patent Classification,简称USPC)等。
②产业分类:Industrial Classification,也译作行业分类。这是另一个被多个检索系统所使用的分类体系,尤其在商务类、统计类数据库中被更多的使用,如EBSCO商务数据系统、美国统计文摘等。包括美国1997年之前使用的美国标准产业分类SIC(StandardIndustrial Classification)和1997年后使用的北美行业分类体系NAICS(North AmericaIndustry Classification System)等。
③专业分类:专业分类体系被一些专业的数据库所使用,如EngineeringVillage(美国工程信息村)所使用的400-900的工程分类(Engineering ClassificationSystem),INSPEC系统所使用的ICSP物理四级分类,ACM 计算机分类,数学文摘的MSC 数学分类,还有冶金分类、生物分类.商务分类等等。在许多学科领域或专业数据库中都有这类专业分类。
④专门分类:在一些商务数据库系统中有一些专门分类,如邓氏编码(DataUniversal Numbering System),这个号码不是严格意义上的分类,但其可以将全球约1亿家企业的母公司和子公司、总部和分公司链接组成族系树,因此起到了分类的作用。还有股票号码等等。这些作为专门的检索途径,对解决特定的检索要求有着无可替代的作用。
(3)主题检索在国外数据库中占很大的优势
国内有些数据库将篇名、关键词、文摘字段合在一起称主题检索。但我们从图书情报学的专业角度上说主题检索实际上是基于主题语言词表而展开的检索。这样的主题检索在国外索引文摘类的数据库中很有市场,如美国医学图书馆PubMed数据库中的MeSH词表检索,美国工程信息村Ei Village中的受控词(Ei Controled Term)字段,CSA(美国剑桥科技文摘)数据库中的词表检索(Thesaurus)等等。很多英文数据库配备了词表检索体系。
主题检索由于同时具备反映特性检索的字顺索引和反映族性检索的范畴索引,因而在一定程度上能更好地服务于数据库,更好地满足用户的检索需求。
与国内数据库形成强烈对比的是,国外的检索数据库中,无论是专门的分类,还是专题的分类,还是主题索引,都是各自为政,各显其能的,没有统一的体系。
通过对国内外数据库检索功能的比较后感到十分遗憾的是,虽然中国的《汉语主题词表》已经问世30年之久,但至今为止却没有看到有结合了这一主题词表的检索数据库或受控词的检索字段出现。
5 进一步的思考
完善现有的分类检索系统,开发真正意义上的主题检索系统,这个思路应成为当前国内数据库开发时的努力方向。
通过前文的综述与比较,我们可以很明确很清楚地认识到,分类检索是中国数据库的一大特色,具有分类检索系统的数据库也许可以成为中国的数据库竞争世界数据库市场的有力工具,开发与建立更完备、功能更强的分类检索功能的数据库应该是各个数据库的系统开发人员、信息检索课程的教员、图书馆参考咨询人员、科技查新人员等有关方面共同努力的方向。
要建立更完备的分类检索系统,就需要作为分类检索根基的《中国图书馆分类法》具有更强的功能。我们呼吁网络版的《中图法》能够作为一个特定的网络产品而尽快走出深闺,走向市场,通过与国内各类数据库进行链接的方式来帮助解决本文所提出的数据库分类检索的诸多问题。实际上这对《中图法》和网络数据库的发展来说是双赢的举措。一方面,可以使得国内数据库的分类检索大有用武之地,而这必将大大提高数据库的查全与查准率;进而提高数据库的市场竞争力。另一方面,这也是《中图法》发展过程中一次全新的机遇与挑战,可以促使《中图法》更加平民化、社会化、市场化,使其在更大的应用范围和更多的用户群中得到更进一步的检验、普及、修正、发展与提高,并使《中图法》的再次更新赢得势在必行、顺理成章、呼之欲出的良机。
分类与主题,殊途同归,一个都不能少,这应该成为数据库开发商十分强调的原则。作为数据库的用户,除了希望现有的检索系统更加完善外,我们也希望在中国的数据库市场上尽早看到适合中国国情的真正的主题检索的身影。
参考文献
1 维普中文科技期刊全文数据库:http://www.cqvip.com
2 CNKI全文期刊数据库:www.cnki.net
3 万方数据资源:www.wanfangdata.com.cn
4 全国报刊索引:www.cnbksy.com
5 中国图书馆图书分类编辑委员会.中国图书馆图书分类法,第四版.北京:书目文献出版社,1999
6 中国科学技术情报研究所,北京图书馆主编,汉语主题词表.北京:科学技术文献出版社,1980
7 张琪玉.情报检索语言.武汉:武汉大学出版社,1984
华薇娜 女,南京大学信息管理系教授,中国索引学会理事。