利用数据库实现《国防科学技术叙词库》增词 李 勇 刘学文
发布时间:2018-09-25  浏览次数:24

利用数据库实现《国防科学技术叙词库》增词

    刘学文

(中国航天工程咨询中心  北京100048

    《国防科学技术叙词库》依据总体组提供的《国防科学技术叙词库》、各种文献数据库和词典数据库,实现了DMC数据库和EXCEL数据库的双向输入、输出,利用DMC整合了文献数据库、词典数据库,生成新词数据库,为新词添加英文词和各种关系。增词过程清晰。

关键词  叙词表  增词  数据库数据转换  数据库合并  词表维护

 

《国防科学技术叙词库》是在《国防科学技术叙词表》的基础上,在90年代末由总装备部情报所(749所)组织628所、707所、601院、714所、210所、电子情报所和核信息院等单位建设,2005-2007年由中国航空发展研究中心(628所)组织707所、601院、714所、210所、电子情报所和核信息院等单位继续建设维护,增补叙词、重新划分范畴、调整词间关系等。

1  增词要求及提供条件

总体组对参加单位明确要求:要求增补迫切需要的、有价值的、现叙词库未包括的专业术语,且必须有一定的使用频率,赋予范畴号、英译名、属分关系、用代关系、相参关系、概念限定、附注等,形成完整的条目。

总体组向参加单位提供《国防科学技术叙词库新叙词补充范围及数量要求》、《国防科学技术叙词库新叙词补充条例》、《补充叙词EXCEL文件表(记录结构)》、《叙词英译名大小写的规则》、当前的EXCEL格式的《国防科学技术叙词库》和EXCEL格式的《型号总表》。参加单位以EXCEL格式上交增词。总体组合并数据,处理词间关系,调整分类体系。

2  要解决的问题及关键

增词要使用过且有一定使用频率,词从哪里来?对我们来讲,增词要从《中国航天文献数据库》中挑选。

完善增词的属性依据,英文词、属分关系、用代关系、范畴等如何确定?增词不是孤立的,与《国防科学技术叙词库》中的叙词有一定的相关关系,范畴、用代属分参关系必须参照《国防科学技术叙词库》,对应的英文词参照《中国航天文献数据库》、参照原文、参照各种词典、参照各种文献信息资源系统,然后进行大量、细致的对比分析,决定取舍。

《国防科学技术叙词库》为EXCEL数据库管理,检索功能比较弱,而此时我们需要对《国防科学技术叙词库》进行灵活的检索。《中国航天文献数据库》利用北京国信贝斯公司的DMC数据库系统,索引方式多样,可同时进行字段精确检索和相邻字符串全文检索,检索功能强大,我们使用多年,经验丰富,进行了一些功能开发。DMC具有输入、输出TAB分隔的TXT文本文件功能,EXCEL能够直接管理、输出TXT文本文件。通过TAB分隔的TXT文本文件,DMC数据和EXCEL数据可实现灵活转换。我们将《国防科学技术叙词库》转入DMC,实现对《国防科学技术叙词库》的灵活检索。

我们在1992年、1993年编译了《NASA词表》,生成《NASA主题词典数据库》,出版了《汉英航空航天主题词典》《英汉航空航天主题词典》。利用《NASA主题词典数据库》,生成新增词的英文词,减少工作量,提高英文词的准确性。

3  工作过程

(1) 利用我们开发的倒排文件输出程序处理《中国航天文献数据库》的叙词字段,经过数据转换,生成DMC管理的叙词及词频数据库。

(2) 转换EXCEL格式的《国防科学技术叙词库》进入DMC数据库,转换EXCEL格式的《型号总表》进入DMC

(3) 合并转入DMC的词频数据库、国防科学技术叙词库和型号总表数据库。倒排、对比,生成使用过但没在《国防科学技术叙词库》和《型号总表》出现的新词数据库。

(4) 将《NASA主题词典数据库》与上一步形成的新词数据库合并,利用字段匹配技术生成新词数据库中增词对应的英文。能生成对应英文词的新词占新词数据库的其中一小部分,但准确性强、规范,可减少一部分工作量。

(5) 利用检索功能生成新词数据库中词频大于等于4的词生成补充新词工作数据库,转入EXCEL,赋予范畴号、英译名、属分关系、用代关系、相参关系等。

(6) 赋予新词的属性时,将新词拆分为多个中心词,一般情况下设置多个中心词为与运算,有时需要多次试探性拆分中心词,检索DMC管理的《国防科学技术叙词库》和《型号总表》,参考相关词的属性。添加对应的英文词,需要查看多种词典,多篇原文,检索《中国航天文献数据库》、《中国国防文献馆藏数据库》,有时还需要检索万方资源系统、维普资源系统和中国知网资源系统,对比分析,然后做出决定。

流程中利用及中间过程形成的数据库见图1

 

中国航天文献数据库DMC

 

 


 转入EXCEL










国防叙词典EXCEL

 

 

 


 

 






















 

 






 


 

 

 










合并数据,检索对比,DMC

 

 

 



检索数据库,查阅原文

 

 


 

1  工作流程图

利用的数据库和中间过程形成的数据库:

1)中国航天文献数据库;

2)中国航天文献数据库词频数据库;

3)中国国防文献馆藏数据库;

4NASA主题词表数据库;

5)国防科学技术叙词典数据库;

6)型号表总库;

7EXCEL增词维护库

4  特点

1)充分利用已有的数据库。以数据库为基础、以使用为依据是最真实可靠的,效果最好;

2)实现了EXCEL数据库与DMC的数据互相转换。以TAB为分隔符的TXT文件为中介,DMC数据库结构提前定义、EXCEL结构提前定义且完全一致,实现数据双向输入、输出;

3EXCEL编辑灵活;DMC数据库检索功能强,可实现字段级全字段精确检索,同时实现字符串相邻的全文检索。充分利用两种数据库系统优势;

4)翻译为英文时,利用数据库检索,查看原文。经常参考多个原文,对比分析,然后做出决定;

5)添加英文、用代关系、属分关系时,灵活检索国防科学技术叙词库,参考已有成果;

6)将多个数据库整和为一个数据库。处处利用数据库技术,处处使用数据库。

7)避免了大量增加型号词的情况。

5  EXCELDMC数据库共用的增词维护数据库的记录结构

1列为EXCELDMC字段名。

ID           10 100 0 0

新叙词        20 100 0 0  

范畴          30 100 0 0  

英文          40100 0 0  

英文同义词    50 100 0 0  

用项          60 100 0 0  

代项          70 100 0 0  

属项          80 100 0 0  

分项          90 100 0 0  

参项          100 1000 0  

新词来源      110 100 0 0  

作者码        120 100 0 0  

备注          130 100 0 0  

6  使用效果与发现的问题

2006年共增加新词748个,正式叙640个,代项108个,属项188个,分项2个。2007年增加新词610个,用项54个,代项41个,属项13个,参见项1个。圆满完成任务。

在增补新词的过程中,我们发现总体组提供的国防叙词典数据库(2005)存在以下问题:

1)生造的英文词。例如:半实物仿真, semi physicalsimulation; 查找原文实际应为:hardware-in-the-loop simulation.

2)英文词词组两种形式,名词+名词,形容词+名词同时存在。例如:船舶重力场-Ship gravity fields ,重力场-Gravitational field;光谱辐射特性-Spectral radiantcharacteristics,环境光辐射特性-Environmentaloptical radiation characteristics; 船舶结构力学-Ship structure mechanics, 非线性结构力学-Nonlinear structural mechanics

3)英文翻译为中文时不一致。例如:Kolmogorov, 柯尔莫果洛夫,柯尔莫哥洛夫;Faraday,法拉第,法拉弟。

4)词典数据库中的英文词不常用。例如:轨道计算,orbitcalculation,原文中多用orbitdetermination.

7  对今后文献处理工作的建议

总体组完成数据合并、整理后,共有96660个词(不含型号词)。词量大,不易使用。维护词典任务繁重,工作量大。利用词表进行受控标引,人力成本过高,如果没有充足的经费保证,应采用自由词非受控方式。

应该利用我们拥有的文献信息系统对《国防科学技术叙词库》进行检索效率统计分析,研究国外NTISAEROSPACEEI等大型数据库的叙词使用及分布情况,为调整文献加工方式、完善检索功能提供数据支撑。

 

    男,中国航天工程咨询中心高工,主要从事文献数据库、数字图书馆建设工作。

刘学文  男,中国航天工程咨询中心工程师,主要从事文献信息加工与服务工作。