关于歌曲数据库开发中的若干问题
陆 宗 城
(浙江大学信息资源管理系 杭州 310028)
卓 勇 张桂凤
(浙江大学西溪校区图书馆 310028) (浙江教育学院图书馆 310012)
摘 要 在文献调研的基础上,阐明开发歌曲数据库的必要性,进而从收录范围、类型选择和检索途径三方面探讨歌曲数据库的功能问题,并就计算机检索必须解决的关键词后控制、它的切分和歌曲的分类问题作了思考。
关键词 歌曲数据库 数据库开发 检索功能 检索语言
1 必要性问题
诗言志,歌咏言。歌曲是用乐曲来抒发诗歌的思想情感,是诗与曲的巧妙结合,是人类文化生活中不可缺少的组成部分。随着我国经济的迅猛发展,人们的日子越过越好,于是要求抒发对党和祖国的热爱,要求赞美幸福的生活,……于是要求歌唱!所以,一方面是群众性的歌咏活动蓬勃开展,另一方面是学习和研究声乐的师生大量增加,结果是越来越多的人都希望方便地查检到他们所需要的某类、某种体裁或某一歌曲。然而,这些愿望都很难实现。原因之一是我们还没有发现任何一种书本式歌曲索引,因而不知到哪种歌曲集或过刊中,有的放矢地找到所需歌曲。原因之二是现有的各种歌曲集之中,竟极少编有索引的。
我们最近作了文献调研:查遍了浙江教育学院图书馆架上的歌曲集67种,我们自藏的13种,还抽查了浙大西溪校区图书馆所藏出版较早的13种歌曲集。在这93种歌曲集中,编有索引的竟只有4种,其中曲目或歌名索引3种,民歌分类索引1种。在此情况下,如果歌曲集的目录或目次表编得易检一些,也就罢了,但它们却五花八门(有的按类排,有的按歌名排,有的按歌唱的难度排,有的按歌星排,等等)。它们编得都较粗。例如:①李保彤主编的《中国名歌大全》是上述93种歌曲集之中选录最多的综合性歌曲集,共收1014支歌。它的目次表分为7类(现代歌曲、历史歌曲、电影歌曲、电视歌曲、歌剧选曲、民间歌曲、通俗歌曲)编排,可是类目之间界限不清,如现代歌曲中包含部分民歌,电影歌曲中包含建国前后的部分民歌与外国歌曲,因而按类查检容易产生漏检与误检。幸而该书编有歌名索引,先按首字的汉语拼音首字母,再按歌名字数从少到多排,能满足特性检索的需要。②浙江群众艺术馆编的《浙江民间歌曲选》,是选录最多的民歌集,共收275支歌,却无索引。它的目次表分5类(劳动号子,山歌,灯调、莲花、花鼓,小调及其他),要找出某一浙江民歌是难的。③吴钊选编的《解语花》,是选录最多的流行歌曲集,共收录我国三、四十年代的歌曲210支,也无索引。它的目次表按演唱者相对集中,按类别、体裁或歌名都难查检。
我们还在网上作了调研:有歌曲的网站,不少是供娱乐用的,仅有歌声,或只有歌声和歌词而无乐谱;有些网站虽有词、谱俱全的歌曲,但收录的数量极少。通过搜索引擎(如GOOGLE和百度等)可以找到不少与歌曲相关的网站,如中华谱岛(http://pudao.myrice.com/)和大众乐谱(http://www.myscore.org/),它们收录完整的歌曲较多。前者共收404支,按歌名的汉语拼音编排,按歌名检索较方便,但歌曲的录入方法欠佳,清晰度极差,难以辨认。后者始建于2000年,所收歌曲逐年增加,现共537支(有些歌前后重复,实际不到此数),分为10类:中国民歌、每周名歌、中国古诗词、中国近代名歌、流行名歌、当代名歌(再分文革前、革中、文革后)、外国民歌、宗教歌曲(再分圣诗、佛教)、幼儿歌曲(再分中文、英文)、合唱歌谱。可惜各类中歌曲排列均无序。有的歌曲五线谱与简谱兼备,有的只有简谱。有的清晰度较高,有的则同前者一样,极难辨认。这两个网站只相当于两种歌曲集,都存在着检索途径单一的毛病;相比之下,大众乐谱的质量较好。
歌曲的其他载体,功能不一:各种以光盘为载体的歌曲,如大量的CD唱片,侧重于高保真回放而缺乏词谱,其他一些CD-ROM或DVD,也主要以压缩格式的音频为主,有些附带歌词,但少有曲谱,并且很多光盘检索途径单一,使用极为不便;音乐电视虽声、相俱美,也有词无谱;录音带更是但闻其声而词、曲全无了。
总的看来,在歌曲的各种载体中,目前只有印刷型的歌曲集和期刊,均词、曲俱备,且歌曲集偶有索引;歌曲期刊虽均有年度索引,但检索途径单一。网上及一般视听资料所收录的歌曲极大多数只有歌词而无曲谱,甚至但闻其声而词、曲俱无。歌者和声乐师生要找哪类、哪一时期、哪一地区和哪支完整的歌,均甚困难,必须及时而适当地加以解决。由于出版印刷型的歌曲总集和曲目总索引,不仅卷帙浩繁,且难以随着新歌的不断问世而及时增补,检索功能又都有限,因而开发歌曲数据库实为上策!大众乐谱这一网站,尽管收录数量不大,检索途径单一,但利用频率极高:据中国万网的访问统计排行总榜显示,该站主站在该公司个人虚拟主机的排行中,位居第一;后来升级为企业型主机,又由开始的第17名不断攀升,最后曾达榜首。由此可见,网上歌曲极受欢迎,开发歌曲数据库很有必要!
2 功能问题
需要开发的歌曲数据库应该具备怎样的功能,事先必须研究清楚。我们认为须从下列三方面加以探讨:
2.1 收录范围
最理想的当然是有歌必收。但歌曲的数量极大,一时难以做到。单就我国民歌而言,单浙江群众艺术馆就搜集到该省民歌达1500支,而收入《浙江民间歌曲选》的才275支;《陕北革命民歌选集》一书收了118支,《台湾民歌选》一书收了158支,陕西和台湾两省的民歌自然都远不止这些。我国是个多民族国家,实际存在的民歌可能数以万计,世界各国的民歌更难以估算。所以,歌曲数据库的收录范围,必须根据“讲究实效、量力而行、逐步扩大”的原则加以限定。由于中文歌曲集中所收大多经过选择,即使是别集,也都是名家之作(如《黄自遗作集;声乐作品分册》);中文歌曲集中,虽以中文歌曲为主,但也有不少外国歌曲(如《世界名歌300首》及《世界电影经典歌曲500首》),甚至还有专收外文歌曲的(如:《外国名歌选;Foreign Popular Songs:英汉对照》)。期刊上发表的多数是新歌,经编辑部审稿,在质量上有所保证,但未经时间的检验,有些只是昙花一现,所以收录价值不及歌曲集。至于网上和视听资料中的歌曲,大部分来自歌曲集和期刊;虽有少数新歌,但类似期刊上发表的,质量上可能更无保证。所以,我们认为我国歌曲的收录范围,应是先歌曲集、后期刊、再网上和视听资料,且应先国内、后国外;并根据需要与可能,逐步扩大范围。
2.2 类型选择
不同类型的数据库,其功能是不同的。歌曲数据库是一种专业的文献数据库,可以有:①曲目数据库(相当于书目数据库)。它收录歌曲的题录,包括歌曲的外部特征、出处、页码或序号,还有标引词等,供用户查明所需歌曲的存在,然后设法利用。优点是建库成本低,缺点是不能一索即得,即还需到自藏的或到图书馆的源文献中查阅。②歌曲全文数据库。它收录歌曲的题名、词曲作者、歌词、歌谱、调号和速度,以及标引词等,供用户按需要直接查阅。优点是便利用户,节省他们的时间。缺点是录入的技术要求和成本均较高;有些歌曲由于涉及知识产权问题,在收入时须按有关知识产权保护法规办。③歌曲多功能数据库。它分别收录曲目、歌曲全文、歌曲音频,以及所录歌曲的全部标引词等,供用户按需要点击三者之一。优点是功能齐全,可随意选择,利用方便。缺点是技术要求和成本更高,还同时涉及歌曲作者和演唱者的权益,故建库难度更大。但关键是市场需要。需要是发明之母,技术和成本问题是能够解决的,而且会解决得越来越好。我们认为,上述三种数据库可从易到难,逐步开发:完善的曲目数据库为开发歌曲全文数据库打下基础,而后者又为开发多功能歌曲数据库作好准备。当务之急是先把曲目数据库开发好。
2.3 检索途径
歌曲数据库的检索途径应能方便用户,充分满足他们多途径检索的需要。歌曲的各种外部特征和内容特征,只要具有检索意义,均应成为用户的检索途径。具体而言,包括:歌名、责任者(词作者、曲作者、改编者、演唱者等)、歌曲体裁(民歌、颂歌、大众歌曲、摇篮曲、进行曲、圆舞曲、小夜曲、组曲等)、内容题材(爱国歌曲、部队歌曲、工人歌曲、农民歌曲、妇女歌曲、团体歌曲等)、演唱方式(独唱歌曲、对唱歌曲、重唱歌曲、合唱歌曲等)、创作时代(古代、抗日战争时期、解放战争时期、现代、当代等)、创作地区(中国、美国、浙江、陕北、嘉兴等)、文别(中文、英文、中英对照)、歌谱类型(简谱、五线谱)等。在歌曲数据库具有全文检索功能时,歌名和歌词中的关键词,均可作为主题检索途径,甚至曲谱中的第一乐句和关键旋律也可用来检索。由于歌曲数量浩大,要求检全的同时,越来越需要检准,因而必须容许用户结合使用几种途径进行检索。如检索民歌时,可通过主题或分类途径,并按需要结合地区、民歌和演唱方式等达到检准,又节省时间。
3 检索语言问题
目前,由于全文检索技术可以大量节省标引成本,故在文献数据库中得到广泛采用,歌曲数据库也不例外。然而,全文检索用的是关键词,随意性较大,必须作同义和近义控制(如“民歌”与“民间歌曲”之间须作同义控制,“祖国颂歌”与“祖国恋歌”之间应作近义控制),才能优化检索效果;全文检索还必须层层限定,否则误检率极高(用一个关键词检索,检得的文献量往往很大)。因此,全文检索的效果并不理想,片面地考虑降低标引成本,必然会增加用户的检索负担。故歌曲数据库不能单纯依靠全文检索;若要取得良好的检索效果,就必须恰当地解决检索语言问题。我们认为下面的一些办法是值得考虑的。
3.1 对关键词作后控制,比较有效的控制办法是编制关键词后控制词表。
它以歌曲数据库中实有的,即用作检索标识的各关键词为基础,在同义的各关键词之间确定其中之一为控制词(相当于叙词),用户以任一关键词检索,计算机即将它自动转化为控制词,以实现检全;同时,将各控制词,连同它们的同义关键词编成分类表或范畴表,用户以任一关键词检索,计算机即显示其上位词、下位词和相关词,以实现扩检和缩检。所以,只要歌曲数据库中存有完善的关键词后控制词表,即能用关键词检索,达到检全和检准的目的。然而,控制词的选定须符合文献保证原则与用户保证原则,分类表或范畴表都有一定的凝固性,因而会滞后于歌曲的新题材与新体裁的出现。而数码链接关键词机检表以代码取代控制词,用词族表替代分类表,基本上弥补了关键词后控词表的缺陷,可以说是一种改进了的后控制办法,故歌曲数据库宜加以采用。
3.2 对复合关键词的切分。
关键词可分为两类:①单元关键词,简称元键词,是最简短而有独立检索意义的关键词,如在声乐体裁方面的元键词有:民歌、颂歌、进行曲、抒情、歌曲等。它们不宜切分,否则就缺乏独立检索意义。②复合关键词,是由若干元键词组成,如:陕北民歌、儿童歌曲、校园歌曲、民族声乐教学歌曲等。它们可以切分为若干元键词。元键词兼有单元词和关键词两者的优点。用若干个元键词来检索具有复合主题概念的文献时,只要保持各元键词在复合主题概念中的固有词序,并加以链接,就不会语义失真,造成误检,且随用词的多寡,达到缩检与扩检的目的。例如:“民族-声乐-教学-歌曲”、“声乐-教学-歌曲”、“教学-歌曲”,这三个检索式的检索专指度是逐个递减的。由于元键词属自然语言,仍然需要采取后控制措施。元键词可以说是一种新型的检索语言,限于篇幅,当另文详述。
3.3 分类语言的适当使用 我国用户习惯使用分类检索途径,故需编制一个机检分类表,起到分类浏览的作用。
我们认为,这个表不涉及歌曲的分类排架问题,故不标分类号;而且,类目不必太细,可编成菜单式,逐级显示,供用户点击查检,并与关键词检索结合使用。《中图法》的歌曲类目过于粗疏,而现有各歌曲集目次表的分类则更不理想:《中国名歌大全》目次表的分类问题已如上述;《放歌新世纪:中华百年歌典》(中共上海市委宣传部编),选录量仅次于《中国名歌大全》,把500支歌分为12乐章,其标题分别为:党旗飘扬、祝福祖国、神州风情、中华一家、创业情怀、军歌嘹亮、青春远行、真情永远、花蕾吐艳、缤纷天地、难忘岁月、走向辉煌。它们的内涵与外延不清,只能作为歌曲分类的参考。现按文献保证原则,就我们调研的93种歌曲集的收录情况,以中国歌曲为主,草拟下表。一支歌涉及数类者,均应予以互见。外国歌曲可用关键词依国别复分,归入表列各类。
歌曲机检分类表
国际歌、国歌
现代歌曲
建国后作曲者入此
颂歌
党的颂歌
祖国颂歌
山河赞歌
英模赞歌
其他
劳动歌曲
工人歌曲
农民歌曲
其他
进行曲
军歌
队列歌曲
各军兵种歌曲
其他
抒情歌曲
党的恋歌
祖国恋歌
思乡曲
爱情歌曲
亲情歌曲
摇篮曲入此
友情歌曲
其他
民歌
原始民歌
依地区或民族分,各下位类同
劳动号子 山歌
小调
其他
改编民歌
依地区或民族分
团体、单位歌曲
影视、戏曲歌曲
电影歌曲
电视歌曲
歌剧选曲
京歌
其他
叙事歌曲
诙谐歌曲
流行歌曲、通俗歌曲
可仿抒情歌曲分
历史歌曲
建国前歌曲入此
古代歌曲
近代歌曲
艺术歌曲
流行歌曲
其他
宗教歌曲
复 分 表
(复分类目限定主表类目;不同复分表可同时使用,以提高检准率)1 演唱形式复分表
独唱、齐唱歌曲
合唱、重唱歌曲
独唱带合唱歌曲
齐唱带轮唱歌曲
对唱歌曲
小组唱歌曲
表演唱歌曲
2 演唱人员复分表
幼儿歌曲
儿童歌曲
少年歌曲
青年歌曲
成年歌曲
老年歌曲
妇女歌曲
3 声部复分表
童声
女声
男声
混声
本文旨在让索引走向文化生活。以上探讨的三个问题,可以说是有关开发歌曲数据库的关键问题。限于水平,我们的意见仅供专家、学者参考。但愿“一石激起千重浪”,得到各方面的指正,使开发歌曲数据库的问题得到各方面的重视,并加以妥善解决。愿比较理想的歌曲数据库早日建成,提供服务!
参考文献
1 李保彤主编.中国名歌大全.太原:山西教育出版社,1997.4
2 吴钊选编.解语花:中国三、四十年代流行歌曲210首.北京:北方文艺出版社,1994
3 浙江群众艺术馆编.浙江民间歌曲选.杭州:浙江人民出版社,1956.4
4 中共上海市委宣传部编.放歌新世纪:中华百年歌典.上海:上海音乐出版社,2002.8
5 张琪玉.论后控制词表.图书情报工作,1994(1)
6 陆宗城.数码链接关键词机检表及其编制.中国图书馆学报,2001(2):60-64,72
7 赵淑云编著.歌唱艺术与实践.杭州:浙江大学出版社,2001.9
陆宗城 浙江大学信息资源管理系教授,浙江九三学社合唱团名誉团长,松涛合唱团团长。
卓 勇 浙江大学西溪校区图书馆馆员,咨询部副主任。
张桂凤 浙江教育学院图书馆副研究馆员,流通部主任。