网络信息组织与《中国图书馆分类法》搜索引擎版研制(上)
陈树年 李青华 朱连花
(华东理工大学 上海 210502)
摘 要 通过信息内容产业的诞生分析了信息组织的意义;阐述了搜索引擎在网络信息分类组织中带来的分类体系的变革及其存在的问题;对传统分类法以及《中图法》用于网络信息组织适应性进行了详细分析;提出了研制《中图法》搜索引擎版的必要性、设计理念、思路及实现的方法和途径。
关键词 分类法 中图法 网络信息 信息组织 搜索引擎
1 引言:从IT产业到IC产业
1996年经济合作与发展组织(OECD)发表《以知识为基础的经济》报告以来,在全世界掀起“知识经济”的热潮。1997年美国颁布了《北美产业分类体系》(NAICS),这是美国、加拿大、墨西哥三国联合制定的产业分类标准。该分类体系首次将信息业作为一个独立的产业部门,被定义为“将信息转变为商品”的行业,由下列单位构成:生产和发布信息和文化产品的单位;提供方法和手段,传输和发布这些产品的单位;信息服务和数据处理单位。这意味着对当今社会影响最深,涉及范围最广,被人们提到最多的信息革命、信息时代中涉及的信息产业,在统计分类上首次被界定。在《北美产业分类体系》中把计算机和通信设备制造划入第二产业即制造业的一个分支。
2001年3月,联合国国际标准产业分类(ISIC)将北美产业分类系统中的“信息产业”的定义和范围纳入联合国推荐的信息产业辅助分类。我国2002年在修订《国民经济行业分类》(GB/T7454-2002)时,也参照了北美产业分类系统中的“信息产业”分类方法。
《北美产业分类体系》颁布后,美国已率先将内容产业纳入信息产业轨道,并将信息内容产业作为信息产业的主体,启动新一轮的产业结构调整。这标志着当代信息内容产业的崛起,信息产业正从IT时代走向IC时代。“三网互通,无线互联,宽带高速,内容为王”正在成为当代信息革命的大趋势。
美国时代华纳、德国贝塔斯曼以及默多克新闻集团等跨国媒体企业已在大举收购各种类型内容的资源,采用现代电子信息技术加以开发利用。一些高新科技企业特别是IT企业也开始重新定位,调整主营业务方向,通过收购内容企业、开发内容产品等多种方式积极挺进内容产业。比如世界最大的IT企业――微软公司,不再只是软件企业,而且也已转型成为信息内容企业。
互联网是当今最大的信息资源宝库,网络信息资源的组织是网络信息资源利用的前提,也必然会成为信息内容产业的重要组成部分。过去的十几年里,图书情报界在网络信息组织领域少有作为,究其原因主要是没有迅速、深刻地认识到互联网信息对社会变革和进步的重大影响,没有敏锐地认识到图书情报界在这个新领域发挥作用的能力和潜力,从而主动占领和耕耘可以充分发挥作用的阵地。“分类法”、“主题法”、“索引法”曾是图书情报界进行文献信息组织的“专利”,我们依然有机会、有能力运用图书情报界特有的理念、理论和技术,在网络信息组织领域大显身手,在新的内容信息产业中占据一席之地。
2 网络信息:带来搜索引擎分类体系的百花齐放
分类的方法,是对各类文献、信息、知识组织的最重要方法之一。但由于长期来文献的类型以印刷型为主,而物理型文献的组织与管理对分类法稳定性要求相当高,因此经过长期在使用中筛选出来的分类法,在成熟中保持高度的稳定性,并且越来越具有权威性。《杜威十进分类法》(DDC)、《国际十进分类法》(UDC)、《美国国会图书馆分类法》(LC)、《国际专利分类法》(IPC)等就是一百多年来筛选的结果。
在我国也是这样,经过五十年代创制新分类法的高潮之后,到七十年代形成了《人大法》、《科图法》、《中图法》鼎立的局面,而在九十年代后《中图法》逐渐取代其他分类法的位置,成为国内的主流分类法。
自1876年现代分类法创建之初,曾经历了百花齐放的局面,不论是外国还是中国,都曾经出现过众多的分类法,在分类理论、分类体系、分类技术、标记制度等方面为其他分类法的发展和完善提供了丰富的养料(如CC、BC、《中小型法》、《武大法》等)。即使在综合性文献分类法相对稳定时期,也依然有各种分类法不断问世(主要是专业分类法),但没有形成一个大的百花齐放的局面,也没有著名分类法的问世。大概是这些分类法已经较好地满足了这个时代文献分类组织的需要(八、九十年代大量出现的文献数据库本质是传统文献及其描述、存储和检索的电子化,传统的分类法可以满足这种需求),连续性、稳定性的特殊要求,没有给更多新分类法的诞生提供应有的空间和土壤。
这种局面在九十年代中期之后,随着互联网的逐步普及和网络信息资源急剧膨胀,以及网络信息在人们学习、科研、管理以及生活中的地位日益提高才被打破,一个新的以网络信息组织为标志的分类法研究和编制的百花齐放局面出现了。其动力是传统文献分类法已经无法满足网络信息组织的需求。在国内,新浪、北极星、天网、悠游、网易、百度、Yahoo中文、Google中文、Lycos中国、搜狐、搜鼠、搜豹、野虎、139探索器、奇摩、哇噻、蕃薯藤……一大批搜索引擎的分类导航体系(分类法)应运而生,它们以崭新的理念、崭新的面貌、崭新的技术登上并统治着互联网信息组织的舞台。
我国主要综合性网站基本都是从搜索引擎起步发展起来的,以至于现在人们还习惯于称“搜狐”、“新浪”、“网易”等为搜索引擎。此后,又发展出各类专门搜索引擎,如图片搜索、音乐搜索、电影搜索、游戏搜索、软件搜索、新闻搜索等,分别设计了专门的分类体系,满足网民的各种搜索需求。互联网上哪些信息增多、哪些信息受欢迎,就会出现相应的搜索引擎,这就是互联网信息组织的重要特点,也是所有文献信息组织需求推动的规律。
在这个领域,图书情报界的反应可以说是相当迟钝的、少有作为的。
2.1 搜索引擎在网络信息分类组织上的特点
认真分析近十几年来各种搜索引擎在网络信息分类组织中的理念和技术,可以看出如下主要特点:
①分类表、用户界面、后台系统三位一体
网络上的分类导航,已经不仅仅是一个分类表,它是一个由分类表、用户界面、后台处理系统三位一体组成的完整的分类系统。分类表只是一个进行信息分类组织的依据,用户界面提供人机交互的窗口,分类导航服务均通过这个窗口进行,后台处理系统完成信息的搜集、描述和标引、索引、存储和提取等信息处理。
②面向各自的信息
分类方法,是任何网站组织信息的最基础方法,所有网站的主页首先必须划分出若干信息板块,再分别进行下一级的组织,这就是分类的方法。没有分类,网页的信息将处于无序状态,难以查找和利用。
除了各种综合性网站外,还有形形色色的专业公共网站、企业网站、电子商务网站、电子政务网站、个人网站等等,它们都根据各自的信息范围设计了分类表。象新浪、搜狐的分类表就涵盖各类信息。如《中国网》以时政信息为主、《中国海洋信息网》以海洋信息为主、《华军软件园》则全是软件信息,就象一个个专业图书馆。由于网站的主题可能很专细,它的分类表也往往相当专细,比如在任何传统分类法都没有列类的“游戏攻略秘籍”,专门的游戏分类就可能划分了几级类目。
③一个分类体系为主,多个分类体系辅助配合
对于具有搜索引擎功能的网站,通常都设计有各自的主分类体系,然后附以若干个辅助分类体系(频道、板块),完成信息的分类组织。辅助分类体系,一般是针对某种特定类型的信息(如新闻、图片)、某种特定的对象、某种特别受欢迎的信息而建立,它具有更大的灵活性和动态性,其功能是可以把隐藏、分散在主分类体系中的相关信息集中、高等级显示,是满足网络信息多样、网络用户多样性所产生不同需求的重要手段。
对于不具有搜索引擎功能的网站,一般都是直接把各类信息分别组织在不同的分类模块中,使用户进入网站后立即看到该网站信息的基本分类划分,这是查找和利用信息的起点。
④较高的动态化,以适应网络信息的变化
网络信息发展的类别、类型和速度,在搜索引擎中都可以及时反映出来,否则就无法满足信息查询的需要。它们的分类表可以随时进行必要的增、删、改,而不影响已经处理过的信息。这种动态性是其实用性的保证,就如同高度的稳定性是传统文献分类法实用性的保证一样。
⑤突破传统的逻辑列类,建立立体结构
使用超文本技术实现知识结点的链接,是建立立体网状分类体系的基础。网络信息分类体系采用“交叉列类”的方式,实现了在各个局部集中相关信息的功能。“交叉列类”与传统的“交替列类”不同,它是一种在较大的范围把一类信息同时纳入不同类目的技术,解决了按不同属性集中信息的问题,使多途径检索变得轻而易举。与此同时,分面技术和“多重列类”在网络信息分类法中也得到最充分的运用,各种信息均可以在同一划分阶段使用不同的分类标准进行区分,达到在一个类列中平行揭示事物多种属性的目的,从而全面突破了传统的逻辑列类规则。
⑥把知识分类和主题分类结合起来,把按信息内容列类和信息形式列类结合起来
根据不同的信息类型和特点,选择聚类的标准,有的以知识、学科为主,有的以主题、事物为主,编制局部类目体系。在一个类列中,通常还将按信息内容编列的类目与按信息形式编列的类目融合起来。例如:
科学技术(新浪)
信息内容 信息形式
工程技术 科技信息
自然科学 发明专利
地球科学 科研机构
生命科学 会议展览
社会科学 管理机构
⑦分类表语词的通用性
在网络信息分类表中,类目的语词表述具有通用性、大众化和时新性的特点,不严格追求术语的科学性、规范性,特别是在人文、社会科学类更是如此。例如:情感绿洲、宽带生活、菁菁校园、浪漫礼物、围城内外、爱车一族、新新人类、另类科学、闪客等。在某些专门的领域使用该领域网民熟悉的词汇表述类目,有助于用户的理解,发现自己的信息需求。
⑧类目和信息的排序
由于网络分类导航系统是包括分类方法(表)和信息(相当于书库和索引库)的综合体,因此既有类目的排序,也有信息的排序。
类目(同位类)的排序一般相当随意,有的还能将同一类型的类目相对集中排列,有的则按字顺排列。例如:
有序型:社会科学(搜狐)
哲学 区域研究
宗教 汉学研究
心理学 农村研究
逻辑学 城市研究
无序型:环境与自然(新浪)
环境保护
保护动物
灾难
自然资源
字顺型:健康与医药(雅虎)
参考资料
残障
传统医药
儿童健康
信息的排序是指该类目下包含的网站信息排列,均在类目之后单独排列。排序的方法通常使用字顺排列或按重要性(点击率)排,便于计算机自动处理。例如:
社会文化>环境与自然>环境(新浪)
此目录下有网站52条
百分百绿色家园网
中国青年报绿网
绿色中华环境保护网
绿色北京
⑨注重用户为主、注重实用性和易用性
网络信息分类导航系统都十分重视以用户需求为中心,注重其实用性和易用性,在类目设置、类名选用、信息收集、信息排序、注释、用户帮助和导航路标等方面,都得到很好的体现。
2.2 目前网络信息分类系统的问题
①多种体系不统一
各个综合性网站或搜索引擎都有各自的分类体系。对于综合性网络信息分类系统来说,它们涵盖的知识、信息范畴应当是大体相当的,因此,在基本大类的设置上国内主要搜索引擎的分类表正在趋同,显然这是多年在实践中摸索、筛选的结果。但是在大类的划分、具体类目包含的范围上差异很大,例如:
◇新浪>社会文化
婚姻与情感 人际关系与性别 爱情 同居 网恋 环境与自然 男性 神秘现象 女性 恋爱技巧 结婚 一夜情 同学录 同性恋与双性恋 起名 节假日 社交 家庭暴力 婚恋与交友服务神话与传说 算命占卜 人物 公共事业与社会福利 风俗习惯 宗教信仰 文化群体 社会问题 社会调查与分析 残障 犯罪 死亡 饮食文化
◇雅虎>社会文化
博物馆与展览 残障 慈善事业 犯罪 环境与自然 家庭 节庆假日 流行与时尚 人际关系人口 人物 社会话题 社区服务与义工 神话与民间风俗 死亡 文化与团体 性别与两性关系 饮食 宗教
◇搜狐>社会文化
宗教 家庭 情感婚恋 环境保护 两性 节假日 社会调查 民族 犯罪 社会问题 公共事业 死亡 相同兴趣人群 言论和评论 民俗神话神秘文化 文化类别 社交礼仪
◇网易>社会文化
人类学 考古学 社会文化论坛 环境与社会社交与公关 慈善与援助 历史 信息管理学 语言文字学 文化热点 社会群体 福利与公共事业民族学 社会团体 各界名人 哲学 心理学 公共管理 宗教 博物馆 社会学 图书馆
而且,越往下层,这种差异越来越明显,甚至可能包含截然不同的内容。例如:
◇新浪>社会文化:社会学
组织 网上资源 研究机构 期刊
◇雅虎>社会文化:社会学
都市研究 集体行为 教育 期刊 研究 研究机构 资料收集 组织
◇网易>社会文化:社会学
言论与批评 社会课题 企业策划 区域研究研究机构 社会调查 社会工作 社会学学科 人权保障
◇搜狐>社会文化:社会学
社会学分支学科 社会分层/社会流动 集体行为 民俗学 人口学 越轨/犯罪社会学 社会调查与分析 社会心理学 乡村社会学 城市社会学 公共关系 家庭社会学 青少年社会学 人口社会学 弱势及边缘团体 社会人类学 社区工作性社会学 社会转型/社会组织 群众文娱活动研究 报刊/杂志 研究机构
在同一类名(社会学)下,内涵、外延的巨大差异显然对于用户分类浏览是十分不便的。能从类名上基本判断出该类的大体内容范围,是类目设置的基本要求。在用户需要使用多种分类体系查找网络信息时,类目设置、类目内涵外延的不一致,显然是一种障碍。
②类目排列的系统性、逻辑性比较差,类列的完整性也被忽视
这是搜索引擎分类系统明显的通病,尽管类目排列的系统性、逻辑性对检索效率不会产生重大影响,但是如果各个局部都忽视系统性、逻辑性,那么对于整个网络信息的知识组织系统,必然会造成系统性、逻辑性的缺失。当同位类较多的情况下,相同性质的类目(同一分类标准区分出来的),杂乱无章地排列,势必给用户的浏览选择过程带来不便,从而影响整个分类浏览检索的效率。而类列的不完整,对检索效率影响更大,用户在分类浏览中难以判断某类信息是否有?比如,按逻辑判断某信息应当在某类下,但是没有列出,那么是不在本搜索引擎范围内,还是应当到别的类去找――用户将踌躇不定。例如:
◇科学技术>自然科学>化学科学(新浪)
化学资源
化学公司
研究机构
期刊杂志
术语、测量与单位
化学工程
日用化工
研究机构
期刊杂志
行业信息
不论是“化学科学”还是“化学工程”,都严重地缺少科学性和系统性,用户要找“生物化学”、“分析化学”的信息,不知从何类目入手查找(搜狐在“生物化学”下有122个网站、网易在“分析化学”下有14个网站,说明网上是有该类的信息)。
◇科学技术>地质学(搜狐)
宝石学 报刊/杂志 地震信息 物探/勘测 研究机构 院校系所 测绘 地质局/地震局
这里的“地质学”也明显地缺少系统性和完整性。
◇医疗健康>疾病及治疗(新浪)
耳鼻喉疾病 糖尿病 艾滋病 颈椎病 高血压 疯牛病 心脏病 肝病 生殖系统疾病 口腔疾病 胎记 口蹄疫 前列腺疾病 酒精中毒 肿瘤及癌症 脉管炎 阿狄森氏病 先天性及遗传性疾病 神经根炎 青春痘 血液疾病及输血 炭疽热 哮喘 职业病 食物中毒 烧伤科 神经疾病……
这种同位类的排列简直可以说是杂乱无章,毫无系统、逻辑而言。当然这里还有严重的列类问题,例如把神经疾病和神经根炎作为同位类等。显然进入这个类目后,不把全部类目浏览完,就无法判断进一步浏览的入口。
◇电脑与因特网>软件(雅虎)
安全与加密 操作系统 程序设计工具 电脑辅助设计 多媒体 儿童 翻译 个人数码助理公司 绘图 开放式原始码 科技与科学 模拟器 驱动程序 软件下载 手机软件 数据库 通讯与网络 系统工具 下载管理 虚拟内存 虚拟实境研究机构 因特网 游戏 杂志……
一般而言,同位类的排列不宜按字顺――尽管这对计算机处理很方便,对于用户来说缺少清晰感、条理感,是一种视力扫描的负担。而专业搜索引擎的分类排列要好得多。
③缺少分类与主题结合的搜索功能
由于网络信息十分浩瀚、庞杂,提高搜索的精度、减少或排除噪音是所有搜索系统所追求的。分类法和主题法的有机结合是提高检索准确性的重要手段,即通过搜索的限定,过滤用户不需要的信息,也就是在一个类目下可以进行语词搜索,把结果限定在本类的范围,或者在进行语词搜索时可以使用类别外延来限定。这种思想和技术在图书馆文献数据库检索中是相当成熟、常用、有效的技术(字段限定、类目途径限定),但搜索引擎中却没有得到很好的应用。目前搜索引擎在进行语词检索时只是提供信息类型限定,诸如“全部网站、分类网站、新闻、图片、MP3、企业、商情、产品、游戏、软件”等,而没有提供信息内容范围的限定。这是目前搜索引擎的严重不足。
④对网页信息的组织能力很低
由于目前搜索引擎的分类导航系统是面向网站的分类,分类法展开层次依网站而定,而对于互联网上主要信息源――网页信息,组织的能力却很差,这是其致命弱点,也就是绝大多数的网络信息不能被直接组织到知识树或知识地图中,只能依靠语词检索来完成,大大降低了分类组织的作用。例如:
以下是主要中文搜索引擎中关于政治学的类目:
◇社会科学:政治学(新浪)
重要理论思想学习 研究机构 期刊
◇政法军事(网易)
无政治学,取政治相关类目
◇社会科学:政治学(搜狐)
政治理论 行政管理学 公共管理(MPA) 公共政策 秘书学 组织行为学 选举 报刊/杂志研究机构
◇社会科学:政治学(雅虎)
公共政策 两岸关系 研究机构 政论 政治政治学理论
这样粗浅的类目设置,大大降低了搜索引擎分类浏览的功能。
我们使用“政党文化”进行搜索,“百度”:422000篇、GOOGLE:30800篇:YAHOO:704000篇,即使有百分之一切题,也是不小的信息量,但在它们的分类目录中无法浏览发现。
不过在某些划分深细的类目中,其组织网页信息的能力随之提高。以下是主要搜索引擎中关于网络游戏的类目:
电脑网络→电脑游戏→网络游戏→石器时代(网易)
娱乐休闲→游戏→电脑游戏→攻略/秘技/补丁→游戏秘籍(新浪)
电脑网络→游戏→网络游戏→装备交易/外挂→外挂(搜狐)
休闲与生活→游戏→电脑游戏→游戏名称与类别→角色扮演类(雅虎)
四、五级的类目,已经可以把游戏网站组织得井井有条了,对于网页信息也基本可以应付了。
但在专业网站、商务网站、政务网站中,大多数分类浏览系统是面向网页信息的,网页信息在分类系统中得到很好的组织。例如:
科技部网站→中国科技统计→统计报告(网页信息):
2003年全国科技经费投入统计公报
2003中国科技统计年度报告
2002年中国R&D经费投入继续保持较快增长
网络信息分类导航系统的这个弱点,使它无法满足各种网络信息数据库(如文献数据库,各种专业、专题信息数据库)分类组织的需要。
除此之外,目前网络信息分类系统的相对稳定性,类目名称的规范化方面也还有许多需要改进之处。
3 传统文献分类法对网络信息组织的适应性
虽然传统的文献分类法已经尝试,并且已有少量分类法实际运用于网络信息组织(DDC、LCC、UDC、《中图法》等),但它们在网络信息组织中的影响目前可以说还是微乎其微的。究其原因,主要是它们对网络信息组织的适应能力问题,因为它们原来设计之初主要处理的对象是传统文献,即图书、报刊、专利、标准、会议录等,以及后来发展、延伸的相应数据库形式。分析它们对网络信息组织的适应能力,是在此基础上编制用于网络信息组织的分类法所必须的。
3.1 处理的对象、内容不同
传统分类法,主要处理各种物理型文献以及它们相应的数字化文献。这类文献通常都是比较成熟的、系统化的、稳定的知识。一次文献是它们处理的主要对象,二次文献、三次文献既是它们处理的对象也是处理的结果之一。
网络信息分类法,处理的对象是互联网上的全部信息。是虚拟的、数字化的信息。
网络信息,从信息的形式来看,主要分为:
文本信息:html、txt、doc、xml、pdf、ps、ppt,以及数字图书馆中的caj等。
压缩型信息:ZIP、RAR、CAB、ARJ、LHA、ACE、ARC、TAR、GZ、ZOO、XXE、UUE等。
多媒体信息:
图形/图象信息:bmp、gif、jpg、pcx、psd、tiff、png、svg、fli/flc等。
音频信息:MP3、WMA、WAV、MID、RA、IFF、SVX、AIF、VOX、DWD、AU、VBA等。
视频信息:avi、mov/qt、mpeg/mpg/dat、rm等。
计算机程序、软件:包括压缩型和可执行文件等。
网络信息,从信息的内容来看,主要分为:
知识/学术性信息:包括新闻、政府文件、法律法规、知识/学术性信息、事实数据信息、组织在各种数据库和数字图书馆中的信息等。
产品/行业信息:包括行业/机构的名录、介绍,产品的(商品、物资)性能、商情、销售信息等。
生活服务信息:包括生活服务、旅游、交通、休闲、娱乐、游戏信息等。
个人信息:包括聊天、论坛信息、求职招聘信息等。
传统分类法,对于其中的知识/学术性信息,产品/行业信息有较好的处理能力(对其中的动态信息,如新闻等适应能力差),但对其他类型的网络信息则力不从心。根据中国互联网络发展状况第13次统计报告(CNNIC,2004年,下同),
◇用户在网上经常查询的信息是:
软硬件信息 44.7%
生活服务信息 34.1%
教育信息 22.9%
科技信息 18.9%
体育信息 12.8%
休闲娱乐信息 41.7%
电子书籍 28.8%
求职招聘信息 20.5%
社会文化信息 18.2%
企业信息 9.1%
◇用户上网最主要的目的是:
获取信息: 46.2%
学习: 7.9%
情感需要: 0.8%
休闲娱乐: 32.2%
交友: 4.4%
学术研究: 0.5%
这其中大量是动态、零散、非正式的信息(获取信息46.2%,多数为该类信息),这正是传统分类法适应网络信息组织的“软肋”。
3.2 服务的对象不同
传统分类法主要应用于各类文献信息机构,它的使用对象主要是文献信息机构的读者,是一个稳定、有一定层次的用户群,以学生和教师、科技人员、管理人员、政府公务员为主体。
网络信息分类法,面向一切网络用户,其范围比各类文献信息机构庞大、庞杂得多。
服务对象不同,决定了各种服务对象由于需求的信息(服务)不同,对网络信息分类组织的要求也不同。
从CNNIC第13次统计报告的几组数字,我们可以发现互联网信息用户的多样性。
用户的年龄分布
18岁以下 | 18-24岁 | 25-30岁 | 31-35岁 | 36-40岁 | 41-50岁 | 51-60岁 | 60岁以上 |
18.8% | 34.1% | 17.2% | 12.1% | 7.6% | 6.4% | 3.0% | 0.8% |
用户的文化程度分布
高中(中专)以下 | 高中(中专) | 大专 | 本科 | 硕士 | 博士 |
13.5% | 29.3% | 27.4% | 27.1% | 2.2% | 0.5% |
用户的职业分布
国家人员 | 企事业单位人员 | 专业技术人员 | 教师 |
8.4% | 8.9% | 13.7% | 7.5% |
办事人员 | 服务业人员 | 农林牧渔人员 | 设备操作人员 |
8.1% | 10.1% | 0.8% | 5.7% |
军人 | 学生 | 无业 | 其他 |
0.78% | 29.2% | 5.4% | 1.5% |
用户的上网地点分布
家中 | 单位 | 学校 | 网吧网校 | 公共图书馆 | 地点不固定 | 其他 |
66.1% | 43.6% | 18.4% | 20.3% | 0.5% | 0.6% | 0.1% |
统计数字显示,网络用户的年龄低龄化(小于24岁的占52%),网络用户的知识水平总体较高(高中/本科占83.8%),网络用户的职业中学生、服务业、技术人员是主体(53%),网络用户上网的地点有86.4%在家里或网吧(多选项)。这说明网络信息的用户已经远远超出传统文献机构的服务范围,而且结构发生很大变化――带来的是信息需求和服务的不同。
3.3 信息处理的目的和使用手段不完全相同
传统文献信息机构的信息组织,主要目的有两个:一是对物理型文献进行有效管理,使之进行科学的排架,为文献流通服务;二是建立一个严密的检索系统,满足精确检索的需要。
网络信息分类组织,虽然也是为了建立分类检索系统,但这个检索系统完全是浏览式的。网络信息分类系统与物理文献信息无关,因此也不存在被组织的信息管理和借阅问题,它组织的对象实际是网络上的各个知识、信息结点。网络信息分类系统是一个实用、粗略的检索系统,难以进行分类的精确检索。
传统文献信息机构的信息组织,不论是手工组织还是计算机辅助组织,一般都以规范的人工语言为工具,进入检索系统的文献信息都经过规范的描述和全面的标引,从而实现按字段进行单一条件和复杂组合条件的检索,有很高的检索精度。在分类检索系统中,既可以进行知识树的浏览检索,也可以进行从类号、类名的直接检索以及它们的组合检索。它的计算机检索系统有时对用户有较高的要求,甚至需要通过专业人员来进行检索,例如使用国际联机系统DIALOG,事先要制订检索策略、编写检索式、选择数据库,在检索过程中随时进行调整。网络信息分类系统是完全、直接面向任何用户的,无须专业人员辅助或干预,是一种大众化的分类导航系统。它使用的分类表也是属于人工语言,但在处理信息时往往借助计算机进行自动分类。对信息的描述一般通过自动抽取网页中相关的文本生成,规范性、准确性和完整性都不如传统文献信息机构的信息组织。
上述这些差异,决定了传统分类法要满足网络信息组织的要求,必须要进行大的变动,以适应网络信息、网络用户、网络技术条件的需要。
(未完待续)