网络信息组织与《中国图书馆分类法》搜索引擎版研制(中) 陈树年 李青华 朱连花
发布时间:2018-09-25  浏览次数:41

・网络信息检索工具研究・

网络信息组织与《中国图书馆分类法》搜索引擎版研制()

陈树年  李青华  朱连花

(华东理工大学  上海 210502)

 

4 《中图法》用于网络信息组织适应能力分析

为了使我国最重要的文献分类法――《中图法》应用于网络信息组织,提高网络信息组织的水平和检索效率,在2001年国家社会科学基金立项的“数字信息资源组织工具的开发与应用”(01BTQ010)中,把编制适应网络信息组织的《中图法》新版本作为重要的子课题。研究表明,《中图法》要满足网络信息组织的需要,至少在以下几个方面存在明显的不适应:

  4.1 知识体系

《中图法》以学科分类、知识分类为基础构建自己的知识体系。由于处理的对象是文献,因此成熟的知识、稳定的知识、静态的知识在分类体系中占主导地位。当使用对象转向一切网络信息资源、一切网络用户时,以前它不曾涉及的大量的非正式信息、动态信息、很少以文献形式记录的信息,就难以处理。

在互联网上有大量的电子商务、电子政务信息,涉及到不同种类和功能的产品分类、事物分类、行业分类、项目分类、功能分类、公文分类等,并且与有关的国际、国家标准相配套,《中图法》的以学科分类为主的知识体系,难以处理这些信息。

除此之外,用户群的变化对知识体系的组织方式、知识划分的层次等也有不同于文献分析法的要求。

  4.2 分类表结构

首先,网络信息的重要特点是“知识结点”,而用户由于文化背景、知识结构、认知水平的不同,产生对同一事物(信息)的理解不同、查找思路和出发点不同,《中图法》的严格逻辑划分与列类、类目的线性组织等,难以由于满足知识、信息的普遍联系和多向成族性带来的对立体、网状知识地图查询的需求。

其次,网络信息分类组织的目标是建立浏览式分类系统,也就是全部类目必须是列举的,构成完整的知识树。《中图法》为了提高分类深度和灵活性、为了减少类表篇幅等,所采用的诸如专类复分表、类目仿分、类目复分、类目组配等结构或技术,将不再适用。

  4.3 类目的编列

为了同时满足组织文献和建立分类检索系统的双重需要,《中图法》建立的是一种线性类目体系,在类目划分时基本遵循逻辑划分的规则,尽管也使用了“交替类目”、“多重列类”等技术手段加强类目间的横向联系,或揭示事物的多重属性,但由于使用得很有限,还无法形成立体、网状的类目(知识)结构,这对满足多途径浏览检索、满足不同用户从不同出发点的浏览检索是很困难的。

  4.4 类名和注释

《中图法》注重科学性和规范化,类名为了准确表述类目的含义,有时就相当冗长,例如:

D641  学习和应用马克思列宁主义、毛泽东思想、邓小平理论

V554  火箭、航天器的发射准备和地面维护

X921  安全管理(劳动保护)方针、政策及其阐述

网络信息分类导航系统的类名应当十分简明,在用户视觉感受和版面处理要求上也是需要大大简化类名。

《中图法》的注释种类很多,相当多数是指导标引人员如何正确使用分类法的,这在用户浏览界面是不需要的;用于网络信息浏览的分类法,应以本类范围提示为主,以使用户迅速了解并确定下一步浏览的目标。这类注释形式《中图法》很少,与分类浏览的需求不相适应。

  4.5 标记符号

《中图法》有一套十分复杂、严密的分类标记系统,这是文献分类标引和文献管理所必不可缺少的。用于网络信息组织的分类标记,仅是类目名称的代码,与用户浏览无关,也与文献管理无关,应当是一种完全等级制、成分单一并便于自动配号的标记,代码的长度无须考虑。《中图法》的标记不仅需要大量的后组合,也包含大量的辅助标记,这与网络信息组织的需要是不相适应的。

5 《中图法》搜索引擎版的设计理念、思路及实现的途径

从上述分析不难看出,《中图法》要想真正成为实用的网络信息分类组织的工具,必须在结构、体系、标记等方面进行重大改造,以一个崭新的版本出现,即《中国图书馆分类法:搜索引擎版》。这个新版本将在宏观、微观构造上有显著变化,而《中图法》的精髓,它所建构的庞大的、科学的、完整的、严密的知识分类体系,将在新的版本中充分地得以继承和发展,而这正是现有网络信息分类体系所不及的。

总体目标是:

建立一个多功能的信息分类体系,满足互联网上各类信息分类组织的需要,包括数字图书馆以及各种文献信息数据库对建立精确检索系统的需要;满足互联网各类公共信息分类导航系统的需要――不仅仅是网站的分类,也包括网页的分类;满足电子商务、电子政务中信息分类组织的需要。

这个信息分类体系的主要功能是:

(1) 作为网上各类综合性的、专题性的文献与信息数据库进行信息组织的工具。

(2) 为各类综合性、专题性的搜索引擎建立分类导航系统,提供详尽的知识体系以及知识之间的关联,使分类导航系统在保持原有的实用性、易用性的基础上,在科学性、完整性、逻辑性以及类目的规范性等方面都得到明显的提高,从而为组织、查询和利用互联网信息提供便利。

(3) 为电子商务、电子政务的信息分类组织提供一个公共知识体系参照系统,使同类的信息在分类组织上相对统一。从而为提高网络信息资源的共享程度奠定基础。

(4)为各种网络信息分类系统的兼容提供一个交换的平台。

要达到上述功能目标,需从以下几个方面入手。

  5.1 重建知识与信息分类体系

新版本的知识体系涵盖的范围是互联网上的各类信息:正式的与非正式的,静态的与动态的,文本的与多媒体的、政府的、公共的、私人的。

这个知识体系面向互联网公众,能为多人理解和接受。

知识体系的设计充分借鉴各种搜索引擎的成功经验。

下面是这个知识体系的大纲:

新闻与媒体

大众传播

新闻

媒体

报纸杂志

出版

发行

广告

音像

电脑与网络

计算机理论

人工智能

数字、多媒体技术

多媒体技术

计算机系统结构

计算机软件

计算机硬件

计算机信息处理

计算机安全

计算机通信

互联网

计算机应用

计算机培训与认证

休闲娱乐

娱乐业

爱好与收藏

图库、壁纸

幽默、谜语

博彩

玩具

流行与时尚

节假日、纪念日

游戏

影视娱乐

KTV与卡拉OK

休闲运动

娱乐场所及活动

聊天、交友

其他娱乐活动

生活与家政

生活常识

情感交流

婚介婚庆服务

家政服务

育儿保育

医疗服务

家庭理财

资讯服务

社区服务

社会公益与救助

租赁服务

礼仪服务

邮政电信服务

预订服务

调查侦察服务

中介服务

出国留学、移民服务

餐饮服务

家庭装修

居家用品

消费购物

假日生活

城市生活

旅游与交通

交通

旅游服务

旅游景点

各种旅游

旅游情趣

体育与健身

体育运动理论

体育运动技术

体育组织机构

体育运动概况

体育竞赛

体育运动人物

运动场地和器械

群众体育

田径运动

体操运动

球类运动

水上运动

冰上雪上运动

重竞技运动

武术运动

赛车运动

射击射箭运动

航空运动

马术马球运动

军事体育运动

冒险运动

模型运动

棋牌类运动

健身运动

群众体育活动

医学与健康

医药事业管理

医学理论

基础医学

卫生学

个人保健

中医学

临床医学

疾病与治疗

特种医学

药学、药品

医疗器械、用品

医疗机构

医务人员

医疗咨询、求助

医药文献资料

 

教育与培训

教育史

教育理论

教育事业

全面教育素质教育

教学、课程、教材

考试

学校

教师

学生

教育技术

教学设备

学龄前教育

初等教育

中等教育

高等教育

师范教育

各类教育

就业、招聘

社会与文化

社会与环境

社会发展

社会阶层

社会群体

社会团体

非盈利组织

社会福利

消费者权益

社区与居民

社会角色

公共关系

社交与礼仪

社会舆论

社会调查

社会问题

文化理论

文化事业

文化团体

文化活动

群众文化

文化设施

大众传播与媒体

校园生活

家庭生活

专题文化

 

文学史

文学理论

文学创作

文学评论和欣赏

文学团体与活动

文学家

各代文学

各国文学

各体文学

各类文学

 

艺术史

艺术理论

艺术创作与技法

艺术造型理论

艺术评论与欣赏

艺术教育

艺术家

艺术团体与活动

各国艺术

各代艺术

美术、绘画

书法、篆刻

雕塑、雕刻

建筑艺术

设计艺术

数字艺术

人体艺术

摄影艺术

工艺美术

音乐

表演艺术

舞蹈

戏剧艺术

影视艺术

民间艺术

宗教艺术

其他艺术

社会科学

哲学

美学

心理学

伦理学

逻辑学

宗教

社会学

人类学

人口学

民族学

语言文字

历史

考古、文物

地理

管理学

统计学

政治法律

政治思想史

政治理论

科学社会主义

政党

政治制度

国家和政府

国家行政管理

电子政务

社会团体

政治运动

世界政治

中国政治

各国政治

政治事件

政治人物

国际关系和外交

法学、法律

军事与武器

军事思想史

战争理论

军事史、战争史

军事组织及活动

军制

国防建设

军事指挥

军事情报

军队后勤

军队政治

军事训练、演习

军事教育、科研

世界军事概况

中国军事概况

各国军事概况

战略战役战术

军事工程技术

武装力量

武器装备

军事人物

军事图片

军事文学

经济与商业

经济学

国际经济关系

经济概况

经济类别

国民经济

经济管理

财务管理

审计

劳动经济

基本建设经济

资源经济

国土经济

物资经济

环境经济

企业经济

工业经济

交通运输经济

邮政电信经济

开发区经济

农业经济

交通运输经济

信息产业经济

旅游经济

贸易经济

财政、税收

金融、投资

保险

地方经济

电子商务

经济法律法规

经济事件

经济人物

自然科学

自然科学总论

数学

力学

物理学

化学

晶体学

地球科学总论

天文学

测绘学

大气科学

水文学

地质学

海洋学

自然地理学

生命科学总论

生物学

人类学

医学

农业科学

生物工程

工程技术

系统工程

工程设计

测量、检测技术

材料科学

能源科学

石油天然气工程

矿业工程

冶金工程

动力工程

原子能工程

金属加工

机械工程

仪器仪表工程

电力工程

电子工程

通信工程

计算机科学

自动化工程

化学工程

轻工业技术

纺织工程

食品工程

建筑工程

市政工程

水利工程

海洋工程

交通运输工程

航空航天工程

军事工程

环境工程

安全技术

行业、企业

产品、物资

科研项目

信息机构与网络资源

综合参考资料

国家和地区

个人主页

少年儿童

 

共同区分类目

国家地区表

民族表

时代表

信息载体表

语言表

缩略语表

    它的第一层即基本大类,与常见的搜索引擎分类目录很相近,这是多年来人们对互联网公共信息主要类别归纳的结果,实践证明是实用的,也为广大用户所接受。它明显突出了休闲娱乐、计算机与网络、新闻媒体、体育健身、医学健康、社会文化、生活家政等领域,而将社会科学、自然科学、工程技术等领域加以归并。这是建立大众所接受的分类导航系统的需要,不影响各类科学技术信息的组织,因为这主要决定于局部体系的科学性和完整性,而不在于其级别。

在这个知识分类体系中,不仅包括以知识内容为主要划分标准的类目,也包括按形式和对象设置的类目,如“个人主页”、“少年儿童”、“国家地区”等,还包括多种附表,其功能是当分类法用户需要扩展类目体系时,或增加辅助分类体系时有共同的、规范的依据。下面是国家和地区表的片段:

代码

国家或地区

 

ISO缩写

ISO代码

海关代码

10

世界

world

 

 

 

16

   气候带

Climatic zone

 

 

 

18

   海洋

ocean

 

 

 

20

中国

China

CN

156

142

2010

   华北地区

Huabei Region

 

 

 

2011

    北京市

Beijing

 

 

 

30

亚洲

Asia

 

 

 

31

   东亚

Asia,East

 

 

 

3111

    朝鲜

Korea,DPR

KP

408

109

60

大洋洲

Oceania

 

 

 

63

   密可罗尼西亚

Micronesia

 

 

 

6321

    科科斯群岛

Cocos(Keeling) Islands

CC

166

 

80

南极洲

Antarctica

AQ

010

 

901

不明地区

 

 

 

701

903

联合国机构

 

 

 

702


    第二层展示各个知识信息领域的基本范畴,从这一层开始它的完整性和系统性将体现出来。

从第三层开始,各个知识信息领域的科学性与系统性将全面得以展示,传统文献分类法的技术方法、成果等在网络信息组织中的运用得到体现。以“新闻”类为例:

新闻

新闻理论

新闻写作

新闻采访与报道

新闻摄影

新闻记者

新闻机构与活动

 新闻管理机构

 ………

 各地新闻机构

 各国新闻机构

新闻人物

新闻论坛聊天

新闻个人主页

新闻参考资料

各类新闻

 国际新闻

 国内新闻

 社会新闻

 ………

各地新闻

各国新闻

  5.2 分类法宏观结构的建构

为了满足多种网络信息分类组织的需求,为了满足不同用户群、不同着眼点、不同目的的检索需求,就要建构一个立体的、具有一定“接口”能力的分类法结构,其框架如下: 

    (未完待续)