利用数据库实现《国防科学技术叙词库》增词
李 勇 刘学文
(中国航天工程咨询中心 北京100048)
摘 要 《国防科学技术叙词库》依据总体组提供的《国防科学技术叙词库》、各种文献数据库和词典数据库,实现了DMC数据库和EXCEL数据库的双向输入、输出,利用DMC整合了文献数据库、词典数据库,生成新词数据库,为新词添加英文词和各种关系。增词过程清晰。
关键词 叙词表 增词 数据库数据转换 数据库合并 词表维护
《国防科学技术叙词库》是在《国防科学技术叙词表》的基础上,在90年代末由总装备部情报所(749所)组织628所、707所、601院、714所、210所、电子情报所和核信息院等单位建设,2005-2007年由中国航空发展研究中心(628所)组织707所、601院、714所、210所、电子情报所和核信息院等单位继续建设维护,增补叙词、重新划分范畴、调整词间关系等。
1 增词要求及提供条件
总体组对参加单位明确要求:要求增补迫切需要的、有价值的、现叙词库未包括的专业术语,且必须有一定的使用频率,赋予范畴号、英译名、属分关系、用代关系、相参关系、概念限定、附注等,形成完整的条目。
总体组向参加单位提供《国防科学技术叙词库新叙词补充范围及数量要求》、《国防科学技术叙词库新叙词补充条例》、《补充叙词EXCEL文件表(记录结构)》、《叙词英译名大小写的规则》、当前的EXCEL格式的《国防科学技术叙词库》和EXCEL格式的《型号总表》。参加单位以EXCEL格式上交增词。总体组合并数据,处理词间关系,调整分类体系。
2 要解决的问题及关键
增词要使用过且有一定使用频率,词从哪里来?对我们来讲,增词要从《中国航天文献数据库》中挑选。
完善增词的属性依据,英文词、属分关系、用代关系、范畴等如何确定?增词不是孤立的,与《国防科学技术叙词库》中的叙词有一定的相关关系,范畴、用代属分参关系必须参照《国防科学技术叙词库》,对应的英文词参照《中国航天文献数据库》、参照原文、参照各种词典、参照各种文献信息资源系统,然后进行大量、细致的对比分析,决定取舍。
《国防科学技术叙词库》为EXCEL数据库管理,检索功能比较弱,而此时我们需要对《国防科学技术叙词库》进行灵活的检索。《中国航天文献数据库》利用北京国信贝斯公司的DMC数据库系统,索引方式多样,可同时进行字段精确检索和相邻字符串全文检索,检索功能强大,我们使用多年,经验丰富,进行了一些功能开发。DMC具有输入、输出TAB分隔的TXT文本文件功能,EXCEL能够直接管理、输出TXT文本文件。通过TAB分隔的TXT文本文件,DMC数据和EXCEL数据可实现灵活转换。我们将《国防科学技术叙词库》转入DMC,实现对《国防科学技术叙词库》的灵活检索。
我们在1992年、1993年编译了《NASA词表》,生成《NASA主题词典数据库》,出版了《汉英航空航天主题词典》《英汉航空航天主题词典》。利用《NASA主题词典数据库》,生成新增词的英文词,减少工作量,提高英文词的准确性。
3 工作过程
(1) 利用我们开发的倒排文件输出程序处理《中国航天文献数据库》的叙词字段,经过数据转换,生成DMC管理的叙词及词频数据库。
(2) 转换EXCEL格式的《国防科学技术叙词库》进入DMC数据库,转换EXCEL格式的《型号总表》进入DMC。
(3) 合并转入DMC的词频数据库、国防科学技术叙词库和型号总表数据库。倒排、对比,生成使用过但没在《国防科学技术叙词库》和《型号总表》出现的新词数据库。
(4) 将《NASA主题词典数据库》与上一步形成的新词数据库合并,利用字段匹配技术生成新词数据库中增词对应的英文。能生成对应英文词的新词占新词数据库的其中一小部分,但准确性强、规范,可减少一部分工作量。
(5) 利用检索功能生成新词数据库中词频大于等于4的词生成补充新词工作数据库,转入EXCEL,赋予范畴号、英译名、属分关系、用代关系、相参关系等。
(6) 赋予新词的属性时,将新词拆分为多个中心词,一般情况下设置多个中心词为与运算,有时需要多次试探性拆分中心词,检索DMC管理的《国防科学技术叙词库》和《型号总表》,参考相关词的属性。添加对应的英文词,需要查看多种词典,多篇原文,检索《中国航天文献数据库》、《中国国防文献馆藏数据库》,有时还需要检索万方资源系统、维普资源系统和中国知网资源系统,对比分析,然后做出决定。
流程中利用及中间过程形成的数据库见图1:
转入EXCEL
图1 工作流程图
利用的数据库和中间过程形成的数据库:
(1)中国航天文献数据库;
(2)中国航天文献数据库词频数据库;
(3)中国国防文献馆藏数据库;
(4)NASA主题词表数据库;
(5)国防科学技术叙词词典数据库;
(6)型号表总库;
(7)EXCEL增词维护库。
4 特点
(1)充分利用已有的数据库。以数据库为基础、以使用为依据是最真实可靠的,效果最好;
(2)实现了EXCEL数据库与DMC的数据互相转换。以TAB为分隔符的TXT文件为中介,DMC数据库结构提前定义、EXCEL结构提前定义且完全一致,实现数据双向输入、输出;
(3)EXCEL编辑灵活;DMC数据库检索功能强,可实现字段级全字段精确检索,同时实现字符串相邻的全文检索。充分利用两种数据库系统优势;
(4)翻译为英文时,利用数据库检索,查看原文。经常参考多个原文,对比分析,然后做出决定;
(5)添加英文、用代关系、属分关系时,灵活检索国防科学技术叙词库,参考已有成果;
(6)将多个数据库整和为一个数据库。处处利用数据库技术,处处使用数据库。
(7)避免了大量增加型号词的情况。
5 EXCEL和DMC数据库共用的增词维护数据库的记录结构
第1列为EXCEL和DMC字段名。
ID 10 100 0 0
新叙词 20 100 0 0
范畴 30 100 0 0
英文 40100 0 0
英文同义词 50 100 0 0
用项 60 100 0 0
代项 70 100 0 0
属项 80 100 0 0
分项 90 100 0 0
参项 100 1000 0
新词来源 110 100 0 0
作者码 120 100 0 0
备注 130 100 0 0
6 使用效果与发现的问题
2006年共增加新词748个,正式叙词640个,代项108个,属项188个,分项2个。2007年增加新词610个,用项54个,代项41个,属项13个,参见项1个。圆满完成任务。
在增补新词的过程中,我们发现总体组提供的国防叙词词典数据库(2005版)存在以下问题:
(1)生造的英文词。例如:半实物仿真, semi physicalsimulation; 查找原文实际应为:hardware-in-the-loop simulation.
(2)英文词词组两种形式,名词+名词,形容词+名词同时存在。例如:船舶重力场-Ship gravity fields ,重力场-Gravitational field;光谱辐射特性-Spectral radiantcharacteristics,环境光辐射特性-Environmentaloptical radiation characteristics; 船舶结构力学-Ship structure mechanics, 非线性结构力学-Nonlinear structural mechanics。
(3)英文翻译为中文时不一致。例如:Kolmogorov, 柯尔莫果洛夫,柯尔莫哥洛夫;Faraday,法拉第,法拉弟。
(4)词典数据库中的英文词不常用。例如:轨道计算,orbitcalculation,原文中多用orbitdetermination.
7 对今后文献处理工作的建议
总体组完成数据合并、整理后,共有96660个词(不含型号词)。词量大,不易使用。维护词典任务繁重,工作量大。利用词表进行受控标引,人力成本过高,如果没有充足的经费保证,应采用自由词非受控方式。
应该利用我们拥有的文献信息系统对《国防科学技术叙词库》进行检索效率统计分析,研究国外NTIS、AEROSPACE、EI等大型数据库的叙词使用及分布情况,为调整文献加工方式、完善检索功能提供数据支撑。
李 勇 男,中国航天工程咨询中心高工,主要从事文献数据库、数字图书馆建设工作。
刘学文 男,中国航天工程咨询中心工程师,主要从事文献信息加工与服务工作。