摘 要 本次调查,通过对随机采集的《情报学报》论文进行人工自由标引、人工打分和词频统计,并进行统计数据的分析,旨在得出中文期刊论文内容主题与文章标题、文摘、首段、末段、参考文献以及其他段落等8个标引源之间的关系,分析期刊论文不同部位的主题表达能力,并为之设计加权标引的适当权值,以便为中文期刊论文自动标引提供参考数据。
关键词 期刊论文 主题标引 自动标引 加权 调查
鉴于海量的网络信息和众多的文献信息已经无法采用常规的人工标引技术,急需采用建立在现代计算机技术和网络技术基础上的自动标引。因此,自动标引技术是一项关系到我国文献数据库建设和网络搜索引擎建设的关键技术。早在上世纪50年代,美国学者卢恩(H.P.Luhn)就已初步提出了抽词加权标引。90年代以来国内的一些学者张琪玉[1]、赵云志[2]、薛鹏军[3]等人对文献主题与文献位置的关系、自然语言文本的不同类型对检索效率的影响等,也开展了一些研究,初步提出了中文自动标引的加权方案。但是这些方案大多为定性分析和估计,对权值的确定尚缺乏全面的、系统的研究,因而影响自动抽词标引的效率。在提取能反映文章主题内容的论题句时,不同标引源对文本主题的表达能力是有区别的。对标引源的位置因素进行加权,结合词频进行全文标引就是通常所说的位置加权标引法。本文为了使加权标引方案建立在广泛调查和统计分析的基础上,为中文期刊论文提出比较客观的加权标引方案,同时也为更深入地调查统计更多学科的期刊论文打下基础,寻找研究方法。
1 调查统计
1.1 调查方案设计
本次调查,针对自动标引技术,通过对随机采集抽取的30篇《情报学报》登载的论文进行人工自由标引、人工打分、词频统计、并进行调查统计数据的分析、研究,旨在得出本刊中论文的内容主题与文章标题、文摘、首段、末段、参考文献以及其他段落等8个标引源之间的关系,得出8个标引源的主题表达能力的先后顺序,并为之设计用于加权自动标引的相应权值。
1.2 基本步骤:首先通过人工采集论文并根据自由标引规则进行自由标引,其次对所标引的内容根据人工打分规则进行人工打分,然后统计自由标引词数并进行词频统计,最后进行调查数据的统计分析,得出结论。
1.2.1 从《情报学报》中人工采集30篇论文;
1.2.2 对采集的论文进行人工自由标引,人工自由标引是一种不依据词表,由标引员根据文献主题内容自主拟词标引的标引方法。需对文献进行主题分析,把分析出的主题概念转化为若干主题词,标引时也需遵循一定的标引规则,但无需查看词表。[4]如:
10 | 《滇池流域可持续发展投入产出信息决策支持系统》 |
| 滇池流域/可持续发展/投入产出模型/信息系统/决策支持系统/信息技术/静态决策分析/动态决策分析 |
1.2.3 对每篇论文的8个标引源进行人工打分,并统计每篇论文的自由标引词数、文章字数以及段落数。打分规模按各标引源对主题的表达能力强弱区分为如下五级:1级:能很好地反映文章的主题;2级:基本上能反映文章的主题;3级:只能反映文章的局部主题;4级:只能反映文章的个别主题;5级:不能反映主题。
8个标引源为:标题(Bt)、文摘(Wz)、首段(Sd)、第二段(Ed)、倒数第二段(Ded)、末段(Md)、参考文献(Ck)、其他段(Qt)。
如:
序号 | 自由标引词数(个) | 文章字数(约) | Bt | Wz | Sd | Ed | Ded | Md | Ck | Qt | 段落数 |
10 | 8 | 2816 | 1 | 1 | 2 | 3 | 4 | 4 | 4 | 4 | 25 |
1.2.4 统计标引源(其他段除外)中所含的自由标引词数(包括它们的同义词、准同义词)。如:
序号 | Title | Wz | Sd | Ed | Ded | Md | Ck |
10 | 5 | 9 | 6 | 6 | 0 | 1 | 1 |
1.2.5 进行词频统计以及调查统计数据的分析。
2 调查数据的统计分析
2.1 论文分类统计
对论文的规模做简单的分类统计,从分类统计可以得出文章的篇幅最长约为12408个字,最短约为1122个字。
2.1.1 字数统计
1000字~4000字
4000字~8000字
8000字以上
9篇
18篇
3篇
2.1.2 段落数统计
10段~20段
20段~30段
30段~40段
40段~50段
5篇
11篇
10篇
4篇
2.2 总标引词数统计
本次调查采用人工自由标引,每篇论文的自由标引词数基本在8个以上,其中标引词数最大为13个,最小为6个。标引词总数为299个,平均标引词数为9.967个。
2.3 统计各标引源的人工打分
以下是关于本次调查的8个标引源的人工打分统计:
根据上表,可得出以上8个标引源表达能力的先后顺序及其分值排列(其人工打分分值越低,表明其主题表达能力越强):Wz>Bt>Sd>Md>Ck>Ed>Ded>Qt
由此,我们可以把以上8个标引源按其表达文献主题的能力分为3个等级:Wz、Bt为第一等级,Sd、Md、Ck为第二等级,Ed、Ded、Qt为第三等级。详细分析如下:
标引源人工打分统计表
标引源 | 1 | 2 | 3 | 4 | 5 | 平均值 |
Bt | 28 | 2 | 0 | 0 | 0 | 1.067 |
Wz | 30 | 0 | 0 | 0 | 0 | 1.000 |
Sd | 11 | 6 | 6 | 4 | 3 | 2.400 |
Ed | 3 | 5 | 14 | 6 | 2 | 2.967 |
Ded | 2 | 3 | 6 | 79 | 0 | 3.400 |
Md | 12 | 4 | 4 | 9 | 1 | 2.433 |
Ck | 4 | 9 | 12 | 4 | 0 | 2.552 |
Qt | 0 | 0 | 10 | 20 | 0 | 3.667 |
a) 我们得出文摘为第一等级,每篇文章的人工打分均为1分,比标题的分值1.067低0.067,这是因为有些文章为追求标题吸引人而题不达义,与文章主题不是很相符,而文摘则言简意赅体现出了文章的主题;
b) 首段与文章其他段落相比,表达能力最强,即首段是最重要的,这也与我们写文章的习惯有关,大多为“开门见山”;
c) 首段打分为2.4分,比末段2.433分仅低0.033分,二者不相上下,这也与我们写文章的习惯有关,尤其是学术性论文比较正规,一般都是开头点题结尾总结,结构严谨;
d) 参考文献的分值为2.552分仅次于末段,说明人们查找参考文献时,大多以标题关键字做查找依据,选与自己论文主题相近、相似的作为参考,可以看出参考文献在标引时也起到一定的作用;
e) Ed>Ded>Qt,是因为有些作者在首段表达的主题不是很好时,往往在第二段加以补充还有些作者在文章的倒数第二段已经开始总结全文了,可见第二段和倒数第二段对主题的表达也较重要。
2.4 统计各标引源的平均标引词数
各标引源的平均标引词数表
标引源 | 标引词总数 | 平均标引词数(/篇) |
Bt | 90 | 3.00 |
Wz | 231 | 7.70 |
Sd | 195 | 6.50 |
Ed | 191 | 6.37 |
Ded | 133 | 4.40 |
Md | 194 | 6.47 |
Ck | 176 | 5.90 |
由此可以得出8个标引源主题表达能力的关系:Wz>Bt>Sd>Md>Ed>Ck>Ded>Qt
由于标引词的个数与文章的篇幅有关,所以上表的统计结果没有纵向比较的意义,只需做横向的比较,作为人工打分数据统计的必要补充。从上表可以看出:
(1) 文摘确定很重要,能够很好的表达主题;
(2) Sd>Md,这印证了上面人工打分数据统计的结果,一般作者都习惯开篇点题;
(3) Ck>Ded,说明为参考文献设计权值是有意义的;
(4) Title排在最后,是因为它的单位长度比文章各段都短的多,相对来说它的平均标引词数比实际统计数高得多,其表达能力很强。
3 结语
根据以上的统计分析结果,我们可以得出《情报学报》中论文的8个标引源的主题表达能力的先后次序为:标题(Bt)>文摘(Wz)>首段(Sd)>末段(Md)>参考文献(Ck)>第二段(Ed)>倒数第二段(Ded)>其他段(Qt)。
对它们分别设置的加权值可建立为:5:5:4:4:4:2:2:2
本次调查限于时间原因,只对《情报学报》的文章进行了统计,不能完全反映中文期刊标引源的主题表达能力,只是为今后调查分析更多学科的期刊论文探索路径,寻找方法。若想更好地为中文期刊论文设计加权标引时的权值,还要对大规模、多学科的期刊论文进行统计,以便为自动标引以及人工智能搜索引擎的研制提供数据。由于采用人工标引以及人工打分,人为因素占一定的比重,若标引不当则偏差更大,因此在进行大规模的统计分析时,应该采用完善人工打分规则及计算机辅助标引等方法降低人为因素的影响。
参考文献
1 张琪玉.自然语言检索中各种因素对检索效率的影响.见《情报语言学基础》.武汉:武汉大学出版社,1997.9
2 赵云志.统计分析法自动标引的改进.情报学报.Vol.19,No 4,333~337 2000.8
3 薛鹏军.基于知识库的中文网络检索工具――经济信息智能搜索引擎研究.侯汉清指导.南京农业大学硕士毕业论文,2001.6
4 侯汉清、马张华.主题法导论.北京:北京图书馆出版社,1991.9
5 丁璇、侯汉清.中文网页标引源主题表达能力的调查统计.大学图书馆学报.2002(6)
赵 妍 南京农业大学信息管理系