NSTL网站的检索错误及数据质量问题分析 李 勇 王乃洪 高陆路
发布时间:2018-09-25  浏览次数:35

NSTL网站的检索错误及数据质量问题分析

   王乃洪

(中国航天工程咨询中心  北京100044)

高 陆 路

(中国船舶工业综合技术经济研究院  北京100081)

        通过对国家科技图书文献中心(NSTL)网站检索结果分析,发现网站存在检索错误、检索命中记录显示时词与词之间粘连无分隔符、同一单位重复提供数据、著录不规范及著录错误等问题。分析了出现问题的原因,建议提供可操作、可实施的标准、规范和质量控制措施。

关键词  NSTL网站  文献数据库  文献加工  质量控制

 

    在国家信息化政策的支持和推动下,我国的数字图书馆建设取得了长足进步,中国工程技术信息网(CETIN)、中国高等教育文献保障系统(CALIS)、国家科学数字图书馆、国家科技图书文献中心(NSTL)的共建共享系统、上海市中心图书馆、国防科技工业数字图书馆等,如雨后春笋迅速成长,互连互通、共建共享,为网络环境下的信息资源建设和信息服务创造了有利条件,为用户利用信息资源提供了便利,促进了知识向现实生产力的转化。

    我们感到,有的数字图书馆在信息资源建设中,对质与量的处理,重心有些偏离,即对数字化资源数量的积累和外表特征的描述比较重视,对信息资源内容的揭示在认识上和措施上似乎都有所忽略。尽管各单位都把“规范加工”作为系统建设的基本原则,并且制订了相应的“数据加工标准”、“数据加工细则”、“数据加工质量管理监督办法”,但其数据库仍然存在不少质量问题或隐患,影响检索效果,使信息资源利用的有效性大打折扣,降低了系统的可信性和可用性,与“百年大计,质量第一”的要求尚有一段距离。

1 NSTL简介

NSTL是由理、工、农、医四大领域的七个信息中心和图书馆参加的共建共享系统,是按“统一采购、规范加工、联合上网、资源共享”的原则建设的,资源丰富,力量雄厚,分工明确,是我国数字图书馆建设的样板,为我国的信息化建设做出了贡献。但我们在检索NSTL网站的数据库时陆续发现了一些不利于信息资源检索和利用的问题,现归纳如下,供有关领导和专家研究参考。

    统一归纳整理检索NSTL网站的时间:2004年9月29日,文献总条数:16059281。

2 检索错误

在中文库中选择“中文期刊”,检索“光子图象统计”,命中4个记录。

查询时间:3.177秒          查询结果:共找到4条记录          10条/页          第1页

 号选  择文献标题(单击查看详细内容)

 

1□光子图象统计处理的计算机模拟陈天明

2□光子图象统计检验的计算机模拟陈天明

3□光子图象统计处理的计算机模拟陈天明

4□光子图象统计检验的计算机模拟陈天明

□ 全选 共1页  10条/页  到1页 跳转10条/页调整 查看选择文献详细内容清除选择

    第1个记录与第3个记录题名相同,第1个记录由“中国科学院文献情报中心提供”,记录号为14003,第3个记录由“中国科学技术信息研究所”提供,记录号为1705421。第1个记录的文摘:

【文摘】:用统计理论分析了光子图象中信号和噪声的分布,提出了用X~2准则拟合信号和背影的强度及分布区域,并将统计区域中计数是背影的概率大于是信号的概率的计数支队。针对光子图象处理的特点,首次提出了一种评价光子图象处理效果的标准,并用计算机模拟生成大旦光子图象并进行处理,获得了三个影响因素(图象划分、信噪比、总计数)和图象处理效果的量化关系。

在文摘中划词“大旦光子图象”进行二次检索,显示“没找到任何记录”,检索结果错误。直接检索“大旦光子图象”,显示“没找到任何记录”,检索结果错误。

2个记录与第4个记录题名相同,第2个记录由“中国科学院文献情报中心”提供,记录号为332095,第4个记录由“中国科学技术信息研究所”提供,记录号为50761。第2个记录的文摘:

【文摘】:分析了超高灵敏度光电成象系统和光子图象的特点,提出用斯米诺夫检验来判断图象中有无信号,并用计算机模拟生成光子图象进行检验,得到了相关的三个因素对检验结论影响的量化关系。计算机模拟方法以及模拟过程得到的结论对于研究极弱光强条件下的图象信号探测有一定的指导意义。

在文摘中划词“斯米诺夫检验”进行二次检索,显示“没找到任何记录”,检索结果错误。直接检索“斯米诺夫检验”,显示命中2个记录。

3 数据显示错误

多个作者、多个关键词、多个作者单位、作者汉语拼音名之间无分隔符,在英文字段中出现两个单词粘连情况,显示混乱现象普遍存在,不方便用户浏览。靠用户自己分隔有时比较困难。以下是“中国科学院文献情报中心”提供的编号为332095的记录:

【作者】:陈天明俞信王苏生

【作者单位】:北京理工大学.北京(100081)北京理工大学.北京(100081)北京理工大学.北京(100081)

【作者汉语拼音名】:Chen TianmingYu XinWangSusheng

【关键词】:光子图象信号检验计算机模拟光电成象系统PhotonimagesSignal detectionComputersimulationPhotoelectric inaging systems

【其他语种文摘】:The characteristics of theultrahigh sensitive photoelectric imaging systemand photon image are analyzedin the paper. Cmnphov test is used ofr checkingwhether there are signals inimages, and the computer ismulation is used togenerate image for checking. Thethree related factors for effecting the testingconclusion of the quantizationrelations are obtained. The computer simulationmethod and the results obtainedin the simulation process have some guidingsignificance for the detecting ofthe image signal under the very weak lightlevel.

“关键词”和“文摘”中有英文单词粘连现象;“文摘”中还存在拼写错误。

在生产数据时,作者、关键词、作者单位、作者汉语拼音名等字段为子字段、重复字段或重复子字段,应该是可分隔的。

4 著录不统一

多个作者字段、多个作者单位字段著录不统一。有时多个作者仅著录一个单位;有时多个作者对应著录相同个数的单位,即使是同一单位;有时著录的单位与作者不一一对应,仅著录名称不同的单位。在中文库中选择“中文期刊”,检索“激光与红外”。

  4.1  多个作者著录一个单位

【正题名】:单自触发脉冲激光测距技术

【作者】:陈千颂赵大龙秦来贵杨成伟霍玉晶

【作者单位】:清华大学电子工程系,北京100084

【刊名】:激光与红外

【年卷期】:vol.33

【出版年】:2003

ISSN】:1001-5078

查看原文发现5个作者同一单位。

  4.2  三个作者著录三个作者单位

在由“中国科学技术信息研究所”提供的记录号为598208的记录中:

【正题名】:激光多普勒扭转振动测试技术的研究

【作者】:桑波赵宏谭玉山

【作者单位】:西安交通大学激光与红外应用研究所. 陕西西安710049西安交通大学激光与红外应用研究所.陕西西安710049西安交通大学激光与红外应用研究所. 陕西西安710049

【刊名】:中国激光

【年卷期】:vol.30

【出版年】:2003

同一单位著录三次。

  4.3  三个作者著录两个作者单位【正题名】:低掺杂浓度Nd:YV04器的输出特性研究

【作者】:高明义姚建铨张红瑞

【作者单位】:天津大学精密仪器与光电子工程学院,天津300072郑州大学河南省激光应用技术重点实验室,河南郑州450052

【刊名】:激光与红外

【年卷期】:Vol.33

【出版年】:2003

直接浏览可发现三个作者著录两个作者单位,两个单位名称不同。查看原文发现此记录著录错误,应该是4个作者“张红瑞  高明义  郑义  姚建铨”,前3个作者的单位是“郑州大学河南省激光应用技术重点实验室,河南,郑州,450052”,第4个作者的单位是“天津大学精密仪器与光电子工程学院,天津,300072”。

5 同一单位重复提供数据且著录不一致

  5.1  同一单位重复提供同一条数据

在中文库中选择“中文期刊”,检索“两维探测”,命中4个记录。

查询时间:1.051秒          查询结果:共找到4条记录          10条/页          第1页

序号选择文献标题(单击查看详细内容)作 

1□生物超微弱发光的两维探测王苏生

2□生物超弱发光的两维探测王苏生

3□生物超微弱发光的两维探测王苏生

4□生物超微弱发生的两维探测王苏生

1个记录号为84067,第2个记录号为204011,第3个记录号为456844。前3个记录均由“中国科学院文献情报中心”提供。第4个记录号为204011,“中国科学技术信息研究所”提供。通过分析记录内容,可得出是《激发生物学》杂志中的同一篇论文。同一篇论文中国科学院文献情报中心处理了3次,提供了3次。

  5.2  题名缺字

上例第2个记录的题名缺少一个“微”字。

  5.3  出版年著录不统一

上例第1个记录的“年卷期”字段著录为“Vol.5,No.1,1995”。

其他3个记录的“年卷期”字段著录为“Vol.5, No.1, 1996”。

根据直觉判断,第1个记录的“年卷期”字段著录错误,应为“Vol.5, No.1,1996”。查看原文,证实判断正确。

  5.4  文摘中重要的数字著录不统一

1个记录的文摘中指出系统灵敏度达“10~(-3)lx量级”;第2个记录的文摘中又指出系统灵敏度达“10~(-8)lx量级”。重要数据不一致。

6 著录错误

6.1  错字

在记录号为447387由“中国科学技术信息研究所”提供的记录中,题名著录错误。“在零件的参数优化设计中韵数学建模”应为“在零件的参考数优化设计中用数学建模”。

文摘中“用计算机程”,应为“用计算机程序”。

6.2  卷著录错误

仍以第447387条记录为例。其“年卷期”字段著录为“2004,000(001)”,卷为“000”,不符合标准。

6.3  地点著录错误

在记录号为2052,由“中国科学技术信息研究所”提供的记录中,“作者单位”字段“石油大学石油工程学院,山东吕257061”,应为“石油大学石油工程学院,山东东营257061”。                                                  6.4  文摘中含乱码

在记录号为128213,由“中国科学技术信息研究所”提供的记录中,“文摘”字段出现乱码。:“

ATM公司的这些新型探测组件的较大图像尺寸和较高帧速,促使其设计出了一种新的视?低枷翊  戆濉8么  戆寤固峁┝艘桓鑫(12)蜕  枰墙涌家  梢杂美刺岣吣  雍焱獬上褡榧  募负畏直媛省1疚慕樯芰蕖IM公司二维探测组件用的非均匀性校正硬件和软件的实施情况以及测得的有关这些器件的校正能力的性……”。

7 期刊的“年卷期”字段著录不一致

  7.1  集中著录

在由“中国科学技术信息研究所”提供的第200305记录中,“年卷期”字段中著录年、卷、期,“出版年”单独著录。

【刊名】:中国激光

【年卷期】:2002,029(008)

【出版年】:2002

ISSN】:0258-7025

  7.2  分别著录

在由“中国科学技术信息研究所”提供的编号为 598208的记录中,“年卷期”字段中仅著录卷,“出版年”单独著录,“期”单独著录。

【刊名】:中国激光

【年卷期】:vol.30

【出版年】:2003

ISSN】:0258-7025

【期号】:no.8

8 错误提示

在检索过程中,系统有时出现错误提示:

错误:java.lang.ArrayIndexOutOfBoundsException返回

9 产生问题的原因

对数据加工的基础建设重视不够,前期准备不足;

标准、规范本身有问题、有冲突,或标准、规范没有得到很好的贯彻执行;

简化或省略了校对工作;

质量控制措施不完备,对质量控制的重要性认识不够;

对文献处理人员的专业知识培训欠缺;

投入经费时,人力成本考虑不够。

10 建议

在共建共享工作中,向参加单位提供可实施、可操作的标准、规范。各单位多年来一直在进行数据库建设,生产了大量数据,形成了自己的工作套路,有经验也有教训,应取各家之长,变成共建共享的共同财富,以便在一个较高的层次上逐步统一起来。解决存在的问题,达成共识是前提。如果不能解决存在的问题,新的标准、规范又会产生新的问题,贯彻执行就会更难。

组织贯彻质量保障措施,贯穿在资源建设的全过程,特别是著录、标引、文摘、校对、数据合并、发布等各个环节中。


参考文献

1 贺德方,蒋勇青,张秀梅.企业在信息资源共建中的角色与位置.情报学报2003,22(增刊):1-3

2 张志平.国家科技图书文献中心网上共建共享系统的建设实践.情报学报2003,22(增刊):4-6

3 关家麟,刘绿茵.国家创新体系中的科技文献信息资源共建共享体系建设.情报学报2003,22(增刊):7-11

4 袁海波,沈玉兰,戚其秀.国家科技图书文献中心的文献信息资源建设与服务.情报学报2003,22(增刊):174-175

5 陈道泉.建设发展中的国家科技图书文献中心.情报学报2003,22(增刊):176-177

6 http://www.nstl.gov.cn

 

    王乃洪  中国航天工程咨询中心,北京2813信箱。

高陆路  中国船舶工业综合技术经济研究院,北京8125信箱。