数据库字段数据批处理技巧探讨――基于DIPS系统中“标准文本格式”数据的高效加工方法陈群

发布时间：2018-09-25 浏览次数:4

数据库字段数据批处理技巧探讨

――基于DIPS系统中“标准文本格式”数据的高效加工方法

陈群

（漳州师范学院图书馆福建漳州363000）

摘要本文针对DIPS系统中对象文件加工入库的方法，需要对字段数据进行处理和加工，而传统做法是一条条地加工处理，费时又费力，利用字段数据批处理技巧能在短时间内加工处理成“标准文本格式”数据，有利于提高工作效率。

关键词 数据库字段数据批处理技巧

当前，各大高校图书馆随着数字图书馆的发展，纷纷将自建数据库作为图书馆发展的一项新业务而积极开展起来，DIPS（DigitalInformation Process System）即数字文献处理系统，是北京新星快威数码技术有限公司应各大高校图书馆对文献资源数字化需求而开发的一套集信息资源的采集、加工、管理、发布于一体的信息资源开发平台，并被国家图书馆、国家科技文献中心、南京大学等众多文献单位所采用。而在其使用过程中，如果要用对象文件加工入库的方法进行信息的发布，就会涉及到字段数据的批量处理和加工，而传统的做法是一条条地加工处理，如：添加字段、删除字段、插入字段等等，这样既费时又费力，不但需要大量的人员进行机械的操作，而且处理的效果也不佳，并且错误率也很高，怎样才能避免这些问题而实现超量字段数据的快速、高效、精确的处理呢？这就需要我们对这些字段数据进行批处理，用电脑自动去识别替换、添加、删除超量字段数据，最终形成我们需要的标准字段数据，这就是所谓的字段数据批处理技巧。

1 超量字段数据批处理中存在的困境

在DIPS系统中，如果要用对象文件加工入库的方法进行数据的发布，字段数据的加工与转换是不可避免的，特别是标准的TXT文本字段数据，即每条数据既要有字段，又要使字段有完整的内容，而且字段数还必须相同，这样，才能符合对象文件的入库要求，通过管理平台进行发布。但我们平常所收集的字段数据信息无论是从格式还是内容上都是纷繁复杂的，就格式而言，有word文档，Excel文档及不标准的TXT文本格式等；就内容而言，有全文字段、书目字段及图片字段等，且存在全文字段数据太多、全文字段数据太少、书目字段格式不统一、书目字段不全等情况，因此，要使这些数据标准化，形成统一的入库文件格式，我们需要对超量字段数据在Word文档和Excel文档及TXT文本之间进行批处理。

2 字段数据批处理的技巧和方法

2.1 如何在Word文档中实现TXT超量全文字段数据的批量添加处理

首先，我们将从期刊网、维普网及其他数据库网上下载的包含：题名、作者、中文关键词、中文摘要、刊名、年、期等规则字段的批量全文字段数据存在TXT文本中，并且在文本中对其进行一些批量替换，将每个字段都加上“【】”标志，使其与内容区分开来，再对其添加一些额外字段如：!!;4;0、正文、分类等；其次，打开TXT文本，将需要处理的字段数据复制，粘贴到Word文档里面，在Word文档里面用段落符号^p进行批量替换添加。具体做法是：单击“编辑”-“替换”，在“查找内容”选项里复制粘贴上需添加字段之后的字段，在“替换为”中输入需要添加的字段、段落符号^p及之前的那个字段，并且顺序不能颠倒，然后选择“全部替换”，所有的字段数据就都添加上了需要的字段。比如：文本文件初始格式为：

【题名】xxxxx 【刊名】xxxxx

【作者】xxxxx 【年】xxxxx

【中文关键词】xxxxxx 【期】xxxxx

【中文摘要】xxxxxx

需要在“【题名】”前段添加“【正文】”字段，那就在“查找内容”里输入“【题名】”，在“替换为”里输入“【正文】^p【题名】”，然后进行“全部替换”，文档中所有“【题名】”前段都添加了一个“【正文】”字段，格式变为：

【正文】xxxxx 【中文摘要】xxxxxx

【题名】xxxxx 【刊名】xxxxx

【作者】xxxxx 【年】xxxxx

【中文关键词】xxxxxx 【期】xxxxx

用相同的替换方法还可以在“【正文】”前批量添加上“!!;4;0”字段，在“【年】”前批量添加上“【分类】”字段。此外，还涉及到一些批量删除Word文档中的空白行的问题，也可以用编辑替换的方法进行处理，具体做法：单击“编辑”－“替换”，再单击“高级”按钮，使用“特殊字符”中的“段落标记”，分别在“查找内容”输入2次，在“替换为”中输入1次，然后点击“全部替换”即可快速删除换行符。最后，将添加完备的字段数据复制粘贴回TXT文本中，就完成了TXT字段数据的批量添加。

2.2 如何在Word文档和Excel文档中实现TXT超量全文字段数据的批量删除处理

首先，打开TXT文本，将需要处理的字段数据复制粘贴到Word文档里面。其次，在Word文档里面对需删除的字段数据进行一些替换处理。具体做法是：（1）单击“编辑”-“替换”，在“查找内容”选项里复制粘贴需删除的字段，在“替换为”中输入一个易辨别的符号如#、*等，再在符号后粘贴上需删除的字段，顺序不能颠倒，点击“全部替换”，所有需删除字段都被替换成了带符号的字段。（2）在“编辑”-“替换”对话框里进行第二次替换，在“查找内容”选项里复制粘贴需删除字段之后的字段，在“替换为”中输入同一个易辨别的符号如#、*等，在其后粘贴上一个段落符号^p及需删除字段之后的字段，顺序同样不能变，点击“全部替换”，所有的需删除字段后一行都是一个带符号的段。举例说明：文本文件中的初始格式为：

【题名】xxxxx 【刊名】xxxxx

【作者】xxxxx 【ISSN】xxxxx

【中文关键词】xxxxxx 【年】xxxxx

【中文摘要】xxxxxx 【期】xxxxx

现在要删除字段“【ISSN】xxxxx”所有内容，将其复制到Word文档里后，打开编辑-替换对话框，在“查找内容”里输入“【ISSN】”，在“替换为”中输入“#【ISSN】”，点击“全部替换”，所有“【ISSN】”都被替换成了“#【ISSN】”，然后进行第二次替换，在“查找内容”里输入“【年】”，在“替换为”中输入“#^p【年】”，点击“全部替换”，所有文本变为如下格式：

【题名】xxxxx #【ISSN】xxxxx

【作者】xxxxx #

【中文关键词】xxxxxx 【年】xxxxx

【中文摘要】xxxxxx 【期】xxxxx

【刊名】xxxxx

然后，在Excel文档中对需删除的字段数据进行分列删除处理。具体操作步骤：将Word中替换好的文本复制粘贴到Excel文档中，选中后，打开数据-分列的文本分列向导对话框，在原始数据类型下选择“分隔符号（D）……”，点击“下一步”，在分隔符号选项中选择“其他”，在其后输入文本中的那个替换符号，如：#、*等，就可以从数据预览中看到被分隔出来的列，然后点“完成”，需删除的字段数据就被替换符号给分列出来了，用删除列的方式就将所有需删除的字段数据删除了，剩下的都是需要的字段数据，可以再复制粘贴回Word文档进行整理，最后形成标准字段数据复制粘贴回TXT文本中，如：

【题名】xxxxx 【刊名】xxxxx

【作者】xxxxx 【年】xxxxx

【中文关键词】xxxxxx 【期】xxxxx

【中文摘要】xxxxxx

这就实现了字段数据的批量删除处理。

2.3 如何在Word文档、Excel文档和TXT文本中对格式不一样的书目字段数据进行批处理

目前，各高校图书馆所采用的书目查询系统不尽相同，如:ILAS、汇文、MARC等等，而我们就以ILAS查询到的书目字段数据为例来介绍将其怎样从Excel文档中批量转换为TXT标准格式。

题名	责任者	出版社	出版年
图书版面的文字设计	王汀，张力平编著	广州：广东人民出版社	2004
图书编辑校对实用手册	黎洪波等编	桂林：广西师范大学出版社	2006

具体步骤：（1）打开存有批量数据的Excel 文档，利用Excel插入列的方法给文档中的每条书目都批量加上题名字段、作者字段、出版社字段、出版年字段等等，然后复制粘贴到Word文档中（如果是表格形式，可以先复制粘贴到TXT文本中再复制粘贴入Word文档中）；（2）在Word文档中单击“编辑”-“替换”，对每个字段数据进行段落符号^p替换处理，如：在“查找内容”选项里复制粘贴上“题名”，在“替换为”中输入“^p题名”，并且顺序不能颠倒，然后选择“全部替换”，所有的题名字段数据及内容前都出现了一个空白段，然后又对其他字段进行同样的替换，这样，每条书目的字段数据就被分为标准的格式了；（3）将Word文档里的字段数据复制粘贴到TXT文本中，进行替换整理，就形成了如下标准格式：

【题名】xxxxx

【责任者】xxxxx

【出版社】xxxxx

【出版年】xxxxx

这就完成了字段数据从Excel文档格式到TXT文本标准格式的批量转换。

2.4 如何在Excel文档中实现对TXT文本中字段不全的书目进行批量字段添加

我们在网络上查找的书目，大部分都是字段比较完整的，包括题名、责任者、出版社、出版年等，但也有一些只有内容但没有字段的书目，我们就需要在每项内容前加上相应的字段数据，对于这种情况，我们可以先将字段不全的书目复制粘贴到TXT文本中，因为有些数据如果复制到Word文档中就会是表格形式，而TXT文本能有效消除表格形式，在TXT文本中将没有全的内容先补全（如果是在Word文档中处理，就有可能是表格形式），使每本书目的内容都同时拥有相同的段，然后将这些规则的内容段复制粘贴到Excel文档的B列中，在A列中第一条书目内容段前分别输入题名、责任者、出版社、出版年等，然后用批量下拉复制的方法在A列中，将其他所有书目都加上相应的字段（注意：如果内容段不统一就容易出错，因此最好边复制边检查，及时发现错误）。这样每条书目前就批量加上了字段。然后复制粘贴回TXT文本中，就完成了对字段不全的书目进行批量字段添加的处理。

3 结语

通过对以上字段数据批处理技巧的介绍，使我们能缩短字段数据修改的时间，提高工作效率。但由于DIPS系统的使用还处于实践和探索阶段，还有许多技巧性的问题值得我们去探讨，并且在我们实践过程中还存在一些尚未解决的问题，如：怎样在字段数据中批量插入不同的内容；怎样将内容不同的字段数据批量删除，这些都需要我们进一步去探寻，找到合适的方法或软件对其进行处理。对于每个数据库的建立，它的海量信息和数据都需要我们去搜索、查询，如果我们缩短了加工时间，就可以花更多的时间和精力去收集更多的信息和数据，因此，对于数据批处理的技巧和方法还需要广大同仁集思广义、共同努力，将好的方法介绍推广出来。

参考文献

1 http://www.bjdips.cn/software/index.html

2 陈晓.基于DIPS的高校图书馆特色数据库建设［J］.情报探索,2008(7)：50-51

3 陈单英.DIPS数字文献处理系统在学位论文全文数据库中的应用.农业图书情报学刊,2007(8)：5-7

陈群 1977年生，漳州师范学院图书馆信息部馆员，从事数据库建设工作。