引文搜索引擎CiteSeerx设计原理及检索
宋 歌
(南京大学信息管理系 210093)
摘 要 详述了基于自动引文标引的新一代引文搜索引擎CiteSeerx的设计原理及其检索、统计功能。认为该系统具有多元化的文献标引思想,能够更新更快地揭示科学文献及其后继影响,多角度促进学术文献的传播与反馈,具有开放环境下引文标引与检索的许多新特征,目前是传统引文数据库的必要补充,也必将对传统引文数据库的发展起到借鉴作用。
关键词 自动引文标引 ACI 搜索引擎 CiteSeerx
开放获取运动的稳步推进使得传统的科学交流模式发生着重大变革。现在,很多印本期刊在网上提供全文;仅通过网络发行的电子刊物越来越多;电子文档(e-print archive)开放的传播交流模式使提交的文献可被更多科研人员自由、免费获得。[1]科学文献的开放极大地提高了科学信息交流的效率和使用频率。但是,另一方面,散落在网络上的研究论文缺乏有效的检索入口,研究人员就算花大量的时间和精力也很难在网上找到所有他感兴趣的论文。自动引文标引系统ACI(AutonomousCitation Indexing)及在此机制上开发的CiteSeerx正是致力于解决这一问题的新一代引文搜索引擎。
1 CiteSeerx概况
CiteSeerx是CiteSeer的换代产品。1997年,CiteSeer引文搜索引擎由NEC公司在美国普林斯顿研究所的三位研究人员Steve Lawrence, Lee Giles和Kurt Bollacker研制开发。它是利用自动引文标引系统ACI(Autonomous Citation Indexing)建立的第一个科学文献数字图书馆(ScientificLiterature Digital Library)。在作为原始模型的CiteSeer投入运行的十年间,研发人员不断对原系统运行中暴露的问题和用户的反馈建议进行分析,并为该搜索引擎重新设计了系统结构和数据模型。[2]这个新的系统就是CiteSeerx,它由National Science Foundation 和Microsoft Research资助研发,于2007年投入运行,与CiteSeer一样,也公开在网上提供完全免费的服务,其网址是http://citeseerx.ist.psu.edu/。
CiteSeerx采用机器自动识别技术搜集网上以Postscrip和PDF文件格式存在的学术论文,然后依照引文索引方法标引和链接每一篇文章。至今CiteSeerx存储的文献全文达81万篇,引文1400万条[3],内容主要涉及计算机和信息科学领域,主题包括智能代理、人工智能、硬件、软件工程、数据压缩、人机交互、操作系统、数据库、信息检索、网络技术、机器学习等。读者访问CiteSeerx既可象使用搜索引擎那样检索浏览相关学术文献,也可利用其特有的引文检索功能查看文献的引用与被引用信息,同时还能获得文献、作者与出版单位最新的引用排行。系统实现全天24 小时实时更新。[4]
2 CiteSeerx系统设计原理
自动引文标引系统ACI可以自动标引电子格式的文献生成引文索引:它搜索到新的文献,抽取其引文,并识别同一篇文章不同格式的引文,而且将引文在文献中的上下文也标引出来。CiteSeerx利用ACI技术可以很好的实现这一过程,其步骤如下:
2.1 采集文献
ACI通过搜索Web,监测电子邮件列表、新闻组或者直接与出版商联系获取文献。熟悉了ACI系统的科研人员,也会将自己新的研究论文直接提交给系统,这些论文会立即被标引入库。CiteSeerx还与一些上网的期刊签订互惠协议采集它们的论文,因为用户可以从CiteSeerx直接链接到这些期刊的主页,提高刊物的定购量。
目前,CiteSeerx利用Web搜索引擎(如Alta Vista,HotBot,Excite)和启发式程序在爬行Web时搜索包括“publications”,“papers”,“Postscript(附件)”等单词发现合适的起始点,下载Postscript和PDF格式的文件。
2.2 文献处理
将下载的Postscript和PDF文件转换成文本格式,判断其是否为研究论文(比如是否有参考文献)。另外,很多Postscrip的页码是逆序的,ACI将这些文献重新排序。由于参考文献列表都有一定的格式,这样就可以根据引文标识符、缩排等特征将一条条引文分割开,再抽取每条引文款目的可检字段,如篇名、作者、出版年、页码等。
CiteSeerx的一大特点是可以显示引文在来源文献中出现的上下文,这是通过识别引文标识来实现的。ACI在正文中探测到如“[6]”、“[Giles97]”、“[Marr 1982]”等不同著录格式的引文标识符,确定引文在文中被引用的具体位置,这样就可以抽取引文上下文了。
2.3 查询和浏览
CiteSeerx的查询遵循以下操作规则:①支持布尔逻辑运算。逻辑组合查询的语法有逻辑与(and)和逻辑或(or),无逻辑非(not)。逻辑算符不区分大小写。如,要查找Kleinberg或bollacker的论文则在检索式编辑框中录入“Kleinberg or bollacker”。注意:逻辑或只在检索首页的单一检索框适用,高级检索界面的各组合检索框之间为逻辑与关系;②支持邻近词运算,邻近距离默认为一个单词;③不支持词组的精确匹配,这样处理对查出同一作者姓名的不同拼写有利;④词干法有效,通配符语法无效。如录入关键词“personalize”,可检出包含“personalize”,“personalizable”和“personalizability”的文章。
CiteSeerx可以查看某一具体文献的引用与被引情况,一方面,列出该文的参考文献及每条参考文献的被引次数。通过参考文献篇名链接获得该被引文献的摘要和引文。另一方面,通过引用该文的文献总数点击进入得到引用该文的文献列表,点击感兴趣的篇名又可进入该引用文献的文摘及引文界面。进而所有引文都可以继续查看其引用与被引情况,支持以任一篇文献为入口的越查越新和越查越旧的引文检索。在此过程中,与计算机科学有关的绝大部分文章可浏览、下载全文。
2.4 相关文献算法
对于某一特定文献,CiteSeerx将给出相关文献列表。CiteSeerx采用三种算法计算文献相关度:①利用基于向量空间的TFIDF(Term Frequency×Inverse Document Frequency)算法查找特征词相似的文章;②通过文章标题矢量距离比较发现相似标题的LikeIt算法;③CCIDF(Common×Citation Inverse Document Frequency)算法,用于发现具有相同引文的文章。同时,系统提供同被引文献。[5]
3 CiteSeerx的检索与统计功能
3.1 CiteSeerx的检索功能
CiteSeerx的检索界面简洁清晰(见图1),默认为文献检索界面。如果要搜索某一特定作者的学术论文,选择“Authours”标签进入作者检索界面。如果选择“Include Citations”可选项,则搜索范围不但包括CiteSeerx的科学文献全文数据库,还包括数据库中每篇论文的参考文献。因此不包括引文的检索结果条目都能链接到全文,包括引文的检索结果条目有些不能链接到全文。图1 CiteSeerx检索界面
(1)文献检索
检索首页只有一个检索框,默认为对篇名、作者、摘要、文本内容进行检索。点击“Advanced Search”进入高级检索界面,可以看到CiteSeerx支持以下检索词的“并”运算:篇名、作者、作者单位、期刊或会议录名称、出版年、文摘、关键词、文本内容以及用户为论文定义的标签(tag)。当然也可以在首页的单一检索框自行构造组合检索式,如author:(j kleinberg) AND venue:(journal ofthe acm)。另外,检索完整字句用双引号,如“graph database”。
(2)作者检索
CiteSeerx支持布尔运算和邻近词运算。例如要检索Jon Kleinberg的文章,如果检索词为全名Jon Kleinberg,则不能得到所有该作者的论文,只有那些名字“Jon”未经缩写的作者的文章能够被检索出来。在作者检索中,只用姓或者名字缩写加姓进行检索,会得到比较好的效果。例如用检索词“J. Kleinberg”,CiteSeerx的作者索引将扩展该检索式得到“Jon Kleinberg”和“Jon M Kleinberg”的文章。
(3)引文检索
在CiteSeer系统中,在数据库来源文献中检索和在引文中检索是分别进行的。与此不同,CiteSeerx的引文和全文检索可同时进行,只要在普通检索或高级检索界面钩选“IncludeCitations”即可。
在高级检索界面还可以对检索范围和检索结果排序规则做出规定。比如对文献引文的最小数目(Minimum Number of Citations)做出限定,这样引文数少于规定数目的文章将不被检出。排序规则包括被引次数、相关性和标引日期。
(4)检索示例
在检索首页输入keyword:( neural network )进行检索。得到的检索结果见图2。检索列表顶端显示了目前排序规则和其他排序选项,命中篇数以及每页的显示篇数,并有其他著名搜索引擎的链接。因为检索式中未包含引文,因此每篇检索结果均能链接到全文。鼠标悬置篇名左侧黄色三角将显示文章摘要。论文作者和刊物名称下面为检索词出现的上下文,使用户不用查看全文就能由检索词在文中出现的具体位置和意义判断是否符合检索期望。最下面是命中论文的被引次数。
点击任一篇名进入论文概况界面。篇名后的方括号内是论文的总被引次数,点击可进入引用该文献的文章列表。右下角的图表Years of Citing Articles显示了文献被引用的时间分布,可依此推测学科热点和发展趋势。Citations为该文的参考文献列表,但并不是原文参考文献列表的复制,它是将所有参考文献按CiteSeerx统计的被引次数从高到低重新排序的。以深色显示的篇名为被CiteSeerx收录的文章,有全文链接。点击View/Download即可浏览或下载全文。图2 关键词检索结果界面
Related Documents标签分为两个列表:活跃的参考文献(Active Bibliography),即引用了相同文献的文献;同被引文献(Co-citation),即被一同引用的文献。
Version History显示的是该文献的元数据。由于CiteSeerx支持通过验证授权的用户对元数据进行修改,而不删除或覆盖以前的记录,所以一篇文章的所有历史元数据版本均可看到。由于有用户的群体参与,CiteSeerx数据库中的错误能够被不断的修正完善。图3 论文概况界面
3.2 CiteSeerx的统计功能
图1最下边的Most Cited是CiteSeerx的引文统计项目,点击会出现CiteSeerx发布的有关项目的统计排行,包括:文献被引次数排行(Most Cited Articles)、引文被引次数排行(Most Cited Citations)、作者被引次数排行(Most Cited Authors)、出版物影响等级排行(Venue Impact Ratings)。除了作者被引次数排行以外,其他三项都可查询单年的统计数据,如文献被引次数排行就可以看到1993年到2007年每年的统计结果。这些统计数据批量更新,因此如果想查看某篇文章准确的被引情况须点击篇名链接到即时更新的CiteSeerx数据库。出版物影响等级中每个机构后面都标出了该机构的影响因子,并且只显示至少有25篇文章被CiteSeerx收录的出版物。
4 CiteSeerx系统评析
4.1 更新更快更全地揭示科学文献及其影响
传统的引文索引如SCI的来源文献都是正式出版物,从研究人员投稿到审稿到文章发表到编入索引需要一段相当长的时间。CiteSeerx是自动引文标引系统,一旦有学术文献的全文在网络上出现,CiteSeerx就能自动找出文章及其引文标引入库。为了验证CiteSeerx的即时性,在SCI任意浏览到一篇ACMComputing Surveys于2008年二月刊发的文章,系统显示无引用记录。在CiteSeerx搜索到该文,发现这是一篇2005年十月的技术报告,已有两篇文献引用记录,一篇是2006年的期刊论文,另一篇是2006年的会议论文。SCI的来源期刊是根据二八定律筛选过的部分刊物,虽然经验定律认为大部分的重要信息发表在少数刊物上,但在网络传媒时代,研究人员很可能由于忽略其他形式的科学交流形式,而错过了发表在别处的重要信息。SCI虽然增设了会议录,但仍有专著、技术报告、预印本等科学交流的重要情报源被排除在外。而CiteSeerx充分发挥了Web的优势,将收录范围扩展到开放环境,即时把所有网上学术文献类型包括预印本、技术报告、会议录等的引证脉络凸显出来。CiteSeerx的宗旨就在于有效地组织网上文献,多角度促进学术文献的传播与反馈[6]。
4.2 更科学的相关文献检索
相关文献检索是研究人员了解其研究主题发展脉络、最新动向不可或缺的重要渠道。Web of Knowledge 采用的是引文耦合的方法,而CiteSeerx采用计算机算法, 并提供同被引检索相关文献。从引文分析的角度而言, 1973 年Small 开发的同被引技术是1963 年Kessler 提出的文献耦合概念的创新和逆向思维的发展, 并且近年来信息可视化及网络寻址定标技术的发展使同被引技术焕发了新的活力,美国费城德瑞克赛大学基于同被引新近开发的Authorlink系统被誉为知识信息提供服务的一次革命。因而就此项功能而言, CiteSeerx要比Web of Knowledge 更为科学, 并且更具发展潜力。[7]
4.3 独具特色的文献标引
CiteSeerx除了与传统索引工具一样对来源文献的篇名、著者、出版项、文摘等内容作标引外,还研究开发了有自己特色的引文标引项,一是引文上下文标引项,另一个是对致谢内容的标引。引文数据最大的挑战是引文单元的多元化。布雷思・克罗尼(Blaise Cronin)对研究论文的致谢部分进行统计分析的结果认为,在过去30年内,出现致谢部分的论文数量增长迅速,这对获取材料和得到观点的启发都有积极的意义,[8-9]而CiteSeerx正是第一个自动生成致谢索引(Acknowledgment Index)的引文搜索引擎。
4.4 提供友好的学术交流平台
CiteSeerx附加的一些网络服务(如Current Awareness和Community Features),为研究人员提供了宽松、自由的交流平台。文章或研究课题会连接到讨论区,研究人员可贴出正式或非正式的评论、综述、意见以及新的研究结果。研究人员还可以申请当某篇文章有新的引用或新的评论时被邮件告知。[10]每篇论文的元数据设有修正(CorrectErrors) 功能,当研究人员发现错误时可在线改正某些项目,如题名、著者姓名、出版年、文摘等,以弥补机器操作的错误。在封闭式的传统商业数据库中,就很难获取这样非正式的自由交流的信息。
4.5 免费服务促进学术交流
传统引文数据库的价格非常昂贵,只有少数单位有实力购买。CiteSeerx提供免费服务将促进引文分析思想的普及,其所建立的引文索引机制也将为更多的人所采用,从而有利于学术论文的传播。[7]
4.6 ACI技术、数据库系统有待完善
CiteSeerx收录的学科范围窄,还不能像商业数据库那样提供综合性学科内容的引文索引。对于非主流的引用方式(如对艺术类作品的引用),SCI因为有人工的参与,能够提供比CiteSeerx更为准确的引用信息。由于完全依靠机器自动操作,目前CiteSeerx还存在不能准确分辨子字段,无法区分同名作者,引文在文献中若无标识则不会被标引等情况。
虽然处于初生期的CiteSeerx还存在许多不足和需要改进的地方,但它是在开放存取、促进学术信息资源传播的机制下诞生的新一代引文搜索引擎,反映出开放环境下引文标引与检索的许多新特征,这些特征也必将对传统引文数据库的发展起到借鉴作用。随着开放获取运动的蓬勃发展和ACI技术的不断完善,以CiteSeerx为代表的开放环境下的引文搜索引擎必将不断为引文标引与检索注入新的活力。
参考文献
1 胡明晖,乔冬梅.电子文献档案及其科学评价意义.图书馆理论与实践,2005(4)
2 HuajingLi, Isaac Councill, Wang-Chien Lee, C Lee Giles.CiteSeerx: anArchitecture and Web Service Design for an Academic Document Search Engine.In Proceedings of WWW 2006, May2326, 2006
3 http://csxblog.ist.psu.edu/
4 黄日昆.网络引文搜索引擎CiteSeer评析.情报杂志,2004(6)
5 C. Lee Giles, Kurt D. Bollacker, SteveLawrence.Citeseer: an automatic citationindexing system.InProceedings of the ACM Conference on Digital Libraries,1998
6 http://citeseerx.ist.psu.edu/about/site
7 宋丽萍.基于Web的学术信息资源引文索引与分析体系.情报理论与实践,2005(3)
8 毛军.社会化引文网络和科学范式的重建.图书情报工作,2006(9)
9 Cronin B.Bibliometrics and beyond: somethoughts on web-based citation analysis.Journal of Information Science,2001(27)
10 SteveLawrence, C. Lee Giles, Kurt Bollacker.Digital Libraries and AutonomousCitation Indexing.IEEEComputer, 1998
宋 歌 南京大学信息管理系博士研究生。