概念等级关系自动识别研究[*]
杜慧平1、2
(1�上海师范大学图书馆 200234)(2�南京大学信息管理系 210094)
摘 要 明确了信息检索用概念等级关系的具体类型,概括了概念等级关系自动识别的应用领域,详细介绍了常见的概念等级关系自动识别方法并分析其优点和不足之处,最后建议实际操作中需综合使用多种方法以取得等级关系识别的最佳效果。
关键词 概念等级关系 叙词表 本体 语义关系抽取
概念等级关系是人类大脑组织信息的一种基本方式,在信息检索领域具有广泛的应用。而传统由知识工程师或领域专家人工识别概念等级关系,如WordNet和各类知识组织工具的编制,不仅耗费大量人力,覆盖面有限,效率极其低下,而且很难跨越知识获取瓶颈,即很难真实地模拟领域知识从而导致语料库层次的用法信息的丢失[1]。因此,探索如何自动识别概念等级关系,作为信息检索领域许多应用实践的基础性研究具有重要意义。
1 念等级关系的界定
概念等级关系又称为上下位关系,上位词表达涵义较为宽泛的概念,下位词则属于上位词的较小类别,为更专指的词汇概念。在信息检索领域中,概念等级关系的界定一般由知识组织工具所含有的语义关系类型中体现出来。
严格意义上的概念等级关系中的上位概念的外延包含了其下位概念的全部外延,即属种关系。然而从传统纸质检索系统发展到现在的网络和电子信息检索系统,检索主体和客体都发生了转变,知识组织工具为适应这种转变在对概念语义关系的揭示上也在不断拓展和演化。如美国标准ANSI/NISO Z39.19在1974年出版的第一版中限定等级关系只包括了族性关系和整部关系两类,而在2005年的第四版中等级关系拓展到三种不同的逻辑关系,该标准一直沿用至今[2]:
①属种关系(generic relationship),指一个概念包含在另一个概念的外延之中。在英文中又称作“IsA”关系,因为符合这种关系的词汇在英文行文中常以“[narrower term] is a [broader term]”形式出现,当然介词短语kind of和type of两端的名词之间也经常构成属种关系。
叙词表的等级关系中大多数属于属种关系,以下图1中的判别式可用于判断词汇之间是否存在属种关系。当概念A的外延的一部分是概念B,同时概念B的全部外延都包含在概念A的外延之中时,概念A与概念B之间才构成属种关系。如“肉质植物”与“仙人掌”之间符合这种条件,它们之间为属种关系,但“药材”与“芦荟”之间,虽然前者包含了后者,而后者并不完全属于前者,故不能构成属种关系。另外,往往在学科与其分支或专业领域之间、生物属种、戏剧派别等之间产生属种关系。
②实例关系(instance relationship),指概括性的事物类别与该类事物的个体实例之间的关系。在英文中也被称作“IsA”关系,例如“红色”包含“紫红色”、“玫红色”。
③整部关系(whole-part relationship),指一个概念固有的被包含在另一概念之中。例如人体的系统与器官之间的关系、地理区划、组织机构之间的关系。
在本体构建过程中,概念之间的关系一般作为属性类型由构建者自己定义,有的本体项目如UMLS含有130多种关系类型,但其中的等级关系仍然以属种关系、实例关系和整部关系为主[3]。
值得注意的是,分类法中的层次关系并不等于概念等级关系,如《中国图书馆分类法》第四版明确规定类目体系中的上下位类之间的关系又分为属种关系、整体与部分关系、全面与某一方面的关系[4]。其中的方面关系(aspectof)包括了学科及其问题、事物及其属性等之间的关系,如“电机”与“电机材料”之间存在的关系,在应用时方面关系具有一定扩检和缩检作用,但是并不属于概念等级关系,只能归属为“准等级关系”。
2 概念等级关系自动识别的应用
2.1 用于编制传统知识组织工具
知识组织工具所发挥的功能由其内部结构所决定,概念等级关系是传统知识组织工具包括叙词表、分类法、后控词表等的重要结构成分。主要根据概念等级关系编制的体系分类表、词族索引、范畴索引等把语词组织得秩序井然,由此用户可以“鸟瞰全貌,触类旁通”。知识组织工具在信息检索中发挥的功能,包括信息导航、扩检和缩检、特性检索等,一般都基于其概念等级关系结构。另外提问扩展除了利用同义词和相关词外,等级关系词汇也占一部分。
2.2 用于自动问答系统
针对自动问答系统中常见的问题类型,如包含概念或者实例的问题“谁是美国总统?”和“谁是奥巴马?”,可以预先从大量文本中抽取具有“概念-实例”关系的语词并存储起来,系统接受提问后先进行问题分类,由此定位到相应的关系类型库中进行检索,并根据关系库中匹配到的语词及其频次来提供答案[5]。这种做法有利于集中处理特定类型的提问,能很快得到答案,同时也能提高自动问答系统的准确率。
2.3 按概念等级组织检索结果和用于提问扩展[6]
信息检索系统就检索提问式返回检索结果时,一般按照检索到的条目与提问式的相关度排序后提交给用户,除此之外还可以对检索到的条目进一步组织加工后再提交给检索者,其中最常见的方式是按照概念等级来组织文档,即在检索到的文档集合基础上抽取主题概念,通过同现分析建立概念等级关系,作为整个检索结果的主题框架为用户提供导航,同时也用作自动检索扩展的依据。
2.4 用于本体自动构建
本体是语义Web体系结构中的基础组成部分,用于组织机器可理解和传输的数据。本体中包含了对象领域内多种概念关系,其中等级关系往往作为本体的支撑框架。构建本体是一项复杂的系统工程,单纯靠人工很难胜任,而本体学习(Ontology learning)利用机器学习技术帮助知识工程师自动构建本体,识别概念等级关系是其重要内容之一。
2.5 用于思维导图的构建
思维导图(Mindmapping)是一种记录信息和思维的方法,它运用图形化技术来表达放射性思维,被广泛应用于教学、个人知识管理、商业写作中。如思维导图可视词典(Thinkmap Visual Thesaurus)通过三维交互式图形显示软件把数据集合和词间关系生成视觉拓扑以动态形式显示出来,其中包含了属种关系、整部关系等17种词间关系[7]。因此概念等级关系识别是构建和扩充思维导图内容的重要手段。
3 常用的概念等级关系识别方法
3.1 基于同现统计的概念等级关系识别
又称为包含方法(subsumptionmethodology),通过计算词对的词频或文献频率确定两词汇之间的依存关系,如果词汇X依存于词汇Y,则X被Y所包含,采用这种方法生成的概念等级常用于反映文献集合所覆盖的主题。
Forsyth和Rada用内聚度统计方法(cohesionstatistics)计算两个语词之间的关联程度,语词的专指程度由语词的文献频率决定,一个语词的文献频率越高,它具有越宽泛的涵义[8]。他们设计了一种基于词频的等级识别算法:首先按词频大小把词汇分成若干等级,具有最大词频的词汇处于最高层,低频率词汇处于最底层。然后自底至上依次计算相邻两个层级所包含的词汇之间的相似度,把词频较低的下一层中的词汇归属到与之相似度最大的上一层词汇的子节点,即认为被上层词汇中与之最相似的那个词汇所包含。
后来Sanderson和Croft根据相同假设条件[9],通过词频统计计算的条件概率来确认词汇之间的包含关系。对于两词汇X和Y,如果以下条件成立可以判断出X包含Y:① P(x|y)=1并且P(y|x)<1。如果有术语Y出现的文档集合是有术语X出现的文档集合的子集,则X包含Y。因为X包含Y并且X频繁出现,在等级结构里,X成为Y 的父节点。② P(x|y)≥0.8并且P(y|x)<1。其中0.8是一个经验值,通过分析包含关系成立的术语得到该阈值。这样,在符合以上两种条件的词汇之间可以建立等级关系。在他们的实验中,对应用此方法抽取的50个概念等级结构经过人工判断所生成的等级关系词对中,72%属于方面关系(aspectof)和类型关系(type of),8%为同义词,剩余的为无法辨别或者其他关系类型。Niranjan也采用了类似的做法[10]。
通过语词同现统计确实能够说明相关词汇之间存在某些关系,但并不清楚实际存在具体哪种关系,大多为非等级关系词汇。一些研究指出,依据上下文背景如二元语法、句子、段落或者整个文章倾向于得到不同种类的关系。另外对这种方法的假设前提还没有相应的实证分析[11]。
3.2 基于句法模式匹配的概念等级关系识别方法[12][13]
每种语言都存在一定行文特点,我们可以抽取和总结其中一些出现频繁的句法模式用以词间关系的识别。常见的暗含等级关系的英文行文例如“Such vehicle as car, bus and bicycle ――”,从中可以提取句法模式“such N0 as N1,――,Nn-1(or|and) other Nn”,从而得到等级关系(N0,N1),(N0,N2),――,(N0,Nn)。
这种方法的假设前提是行文中具有一定暗含概念等级关系的句法模式,所以有用的句法模式的识别是该方法成功的前提。合适的句法模式应该满足以下条件:(1)模式需要在语料库中经常出现;(2)模式应该能准确表达有用的关系;(3)识别这些模式应该不依赖于或不需任何预编码知识(pre-encoded knowledge)。
另外句法模式的种类也很重要,决定了能够识别的等级关系的广度。然而句法模式的识别需要分析、对比、总结等思维活动,目前机器很难做到自动识别。为了提高效率,Hearst曾提出一种循环识别句法模式和等级关系的方法:可以首先用现有总结的句法模式识别出符合等级关系的语词,然后用这些语词查询数据库,定位这些语词相邻出现的句子表达,然后从中总结出符合以上三种条件的有用模式,这样循环使用现有模式和识别出的等级关系语词可以获取和总结出更多有用的句法模式。
这种方法简单易于操作,语料也可以拓展到释义词典等工具书,从其中的定义类句法模式如“主要形式有――”、“分为――”、“包括――”中可以抽取到等级关系词汇[14],主要以实例关系为主。但是抽取的名词短语常包含修饰词,如何去除无用的形容词同时保留必要的修饰词是一个难点。另外模式的提取和总结实质是基于经验实施的,然而语言表达千变万化,尤其中文行文灵活多变,具有规律的句法模式相对比较有限,靠人工识别有用模式的方法其效率也难以保障。更重要的是,这种主要从字面而不是语义层次来识别概念等级关系的方法本身很难保障结果的准确率。如Hearst从纽约时报文本中抽取106组等级关系,通过与WordNet对比验证后发现只有61组是正确的,正确率不足60%。
3.3 分布相似度计算方法
分布相似度计算方法根据两个语词出现的上下文重叠程度计算它们之间的相似度,其假设前提是,语词的上下文背景越相似它们之间的相似性越大[15]。很多学者通过研究确认了该假设的合理性。他们发现人们确定词汇的语义相似程度时常基于这些词汇应用的上下文的相似性来判断,向量空间中的相似度与词汇之间的语义关系密切关联[16]。应用向量空间模型,词汇T的语义内容能用与其在语料库中经常出现的词来表达,目标词汇T1和T2的同现词汇的重叠程度代表了它们之间的语义相似度。
在Brown等的研究中,每个目标词Ti用与其共同出现在同一篇文章中的其他词Wi来描述,词汇T的上下文信息可以表示为一个向量C(Ti)=<|W1|,|W2|,…, |WN|>,其中Wi为向量的特征,再用平均互信息公式计算词对之间的相似度[17]。另一种改进方法结合了语言学知识,以目标词汇在特定句法结构中出现情况作为上下文信息,统计词汇之间的相似度。比如以“动宾”关系出发,把语料库中目标名词T作为直接宾语的动词分布作为描述名词T含义的上下文信息,再进一步计算词对之间的相似度[18]。
在分布相似度计算基础上采用聚类算法把相似的对象聚集在一起。一般有两种主要的聚类形式:层次聚类(包含多个对象的大簇由若干小簇构成)和非层次聚类(每个对象被分配到具体某一簇中)[19]。何琳在半自动构建农业本体实验中,就采用了层次聚类算法识别概念等级关系,通过计算类间耦合度、类内内聚度调整聚类的粒度,对层次聚类算法作了适应性改造[20]。
分布相似度计算作为一种比较有用且较为成熟的模型得到了广泛应用,通过聚类得到的类簇中常能发现新的知识。对于识别概念等级关系,相似度计算的质量直接影响后续聚类算法的结果,这种基于分布概率计算相似度的方法有时会遇到数据稀疏问题,也就是说现有语料库中的数据有时并不能代表概念的涵义,这使得得到的相似度与实际情况并不相符。另外,聚类时根据相似度把词汇分组的做法,很难从内涵上描述一组词汇的含义。
3.4 基于在线维基百科篇章结构的等级关系获取方法
维基百科建立在MediaWiki软件包之上,MediaWiki通过解读依据其句法规则生成的源代码形成可读性网页。MediaWiki句法比HTML更严格,大多数MediaWiki中文章的句法和句法的用法都要遵循编辑规则,此特点使得从维基百科中抽取有用信息更加容易。维基百科中的文章在行文上具有以下特点:一般先列出概念的定义,紧随其后是一个由以下形式标记的等级结构:描述段落主题的标题词(headings)、定义列表(definition lists)、无序项目列表(bulleted lists)、有序项目列表(ordered lists)。这四种子结构在等级结构中的位置依次降低,同时它们在维基百科句法中有不同标记。根据此行文特点可以从中识别概念等级关系。
首先,根据MediaWiki句法标记编写程序实现从维基百科的行文等级结构中提取处于标题词、定义列表、无序项目列表和有序项目列表级别上的标识词汇,把每个标识词汇和其级别下直接标记的项目词汇作为上位词和下位词,从而形成候选概念等级关系;然后根据维基百科中行文特点总结出一些简单模式,过滤掉不符合这些简单模式的候选等级关系,再通过支持向量机(SVM)从候选等级关系中选择出正确的概念等级关系。在Asuka Sumida等的实验中,从日文版维基百科中提取出了6.3*105组等级关系,准确度达到76.4%[21]。后来Asuka Sumida与其他人合作又重复做了实验,不同于先前选择候选等级关系的做法,他们把每个标记词汇和附属其下的所有标记词汇作为上位词和下位词,并引入三种新的特征来改变SVM分类器的性能,实验结果表明,在获取的1.34*106组等级关系中,准确率达到了90.1%[22]。另外维基百科的类目页(category page)也可以作为等级关系抽取源,在类目页顶端的类目名和列在其下的条目之间建立上下位关系[23]。
此方法主要以维基百科篇章结构信息为依据抽取概念等级关系,算法简单又易于操作。但该方法取决于维基百科行文是否规范性,易产生非等级关系词对,所以对初步抽取的候选关系需要进一步筛选,另外由于维基百科偏重于提供大众实用性信息,所生成的概念等级关系主要是实例关系。
3.5 基于词典定义的等级关系识别
该方法依据词典中对词汇概念的定义句子句法特征来识别概念等级关系,应用最多的是WordNet。WordNet是美国普林斯顿大学开发的一种义类词典,收录了名词、动词、形容词和副词,并对每个词就不同词义进行注释。这些词按概念分组,概念之间又通过概念语义和词间关系相互联系,从而形成相互交叉的认知网络。这种方法以WordNet对词汇的语义注释方式为线索来识别概念等级关系。WordNet对词汇的不同语义常以其上位概念和同义词来解释,例如其对词汇“Java”的注释:
“The noun javahas 3 senses:
1. Java ―― (an island in Indonesia south of Borneo;one of the world's most densely populated regions)
2. coffee, java ―― (a beverageconsisting of an infusion of ground coffee beans; ”he ordered a cup of coffee“)
3. Java ―― (a simpleplatform-independent object-oriented programming language used for writingapplets that are downloaded from the World Wide Web by a client and run on theclient's machine)”
由此注释可知Java存在三种含义,分别代表一个小岛、一种饮料和一种编程语言。这样通过编写简单的抽取程序就能提取词汇的上位词,再辨析该词的恰当含义,然后合并各级上位词就能建立起一组概念等级关系。
但是在建立某领域概念等级关系时,利用WordNet之前首先需排除不属于该领域的概念含义,以免生成错误的等级关系,这是该方法是否成功的关键。为达到此目的,Sangno Lee等采用向量空间模型,首先提取词汇含义注释中的词语作为属性,模仿逆文献频次计算方法确定每个词语的权重,再经过余弦函数计算词汇含义之间的相似度。并通过设置相似度阈值来剔除非相关含义(即非同一领域内的概念含义),从而保障了所建立的等级关系的正确性。由于同一词汇的多个词义一般不属于同一学科领域,在计算相似度之前需要剔除每个词汇的多个语义的注释中所包含的相同词汇,这样保障同一词汇的多个语义之间的相似度为零[24]。
除了WordNet,各个学科领域现有的具有一定规律性定义特征的词典、百科全书等工具书也可以用作此方法的语料,例如Kazama和Torisawa从维基百科中的定义类句子中抽取概念等级关系[25],所以该方法既简单又具有通用性,另外因为WordNet等义类词典由专家人工编制,生成的概念等级关系十分可靠。但是该方法也存在明显不足:首先,WordNet为通用义类词典,对专业领域概念的收录和揭示不够专深,只能用作某领域较为通用的概念等级的识别;其次,该方法主要依赖于WordNet对词义的注释,但因其为人工编制,专家在应对如此大量词汇时,难免对词义和关联的揭示出现疏漏;另外WordNet目前只有英文版,不能直接用于其他类语言的等级关系识别。
3.6 其他方法
除了以上常见的概念等级关系识别方法, Yousef曾利用HTML文件所形成的链接拓扑生成概念等级关系:对于给定的代表某领域的网站URL,解析该网页及其所链接的网页得到文本、元标签(meta-tags,从中可获取HTML标题和文档标题等)和链接地址列表(包括链入和链出,限定在3层内),在解析过程中应用抽取规则提取标签中的语词同时建立起以HTML文档标题为根节点的树形结构,最后利用这些结构合并单独的条目从而生成叙词表等级结构[13]。PhilippCimiano等提出了一种形式概念分析(FormalConcept Analysis,FCA)方法,这种方法基于序列理论(order theory)并主要用于数据的分析,特别是用于发现由一组属性来描述的对象之间存在的内在关系以及发现属性本身。为了从文本库中提取属性,首先解析和提取动词/介词词组、动词/宾语、动词/主语词对之间的依存关系,对于这些词对中处于核心位置的名词,采用其相应的动词作为属性,建立形式背景(formal context)用于计算形式概念格(formal concept lattice)并生成概念等级关系[1]。另外,现有叙词表、分类法等工具包含的等级关系也可以抽取出来直接利用。其他方法由于篇幅限制在此不再详述。
4 结语
识别概念等级关系一般需要借助外部语料如语义词典、全文库、在线百科等工具书作为关系抽取源,根据语料的句法、篇章结构、行文等特征设计算法,采用基于统计的方法或基于语言学知识方法挖掘语料中潜在的概念语义关系。
根据概念等级关系的界定,识别和判定这种类型多样的复杂语义关系需要依靠严密的人类思维,目前依靠机器学习和自然语言处理技术很难取得较高的准确率,所以概念等级关系的获取一直以来都是一个难点。以上各种方法都有其优缺点,采用的关键技术不同,识别出的概念等级关系的主要类型也有所差别,如表1所示。因此在实际应用中,为了提高等级关系识别的效率,往往结合使用多种方法,例如Yousef ABUZIR就综合使用了句法模式方法、同现统计方法、HTML网页解析方法[13]。
中文概念等级关系的识别在可获取的相应语料基础上,可以充分借鉴以上方法,如《同义词词林》类似WordNet,也常用等级关系词汇对概念进行释义。此外中文特有的构词方法,如汉语词(组)具有字面成族特征,也为语义关系的识别提供了线索。
表1 概念等级关系识别方法
性质 | 同现统计方法 | 句法模式方法 | 分布相似度法 | 维基百科方法 | 词典定义方法 |
可用语料 | 全文库 | 全文库、释义词典等工具书 | 全文库 | 在线维基百科 | Wordnet、维基百科等工具书 |
识别出的主要关系类型 | 方面关系(aspect of),属种关系,其他 | 实例关系、属种关系 | 实例关系、属种关系、整部关系、其他 | 实例关系、整部关系 | 属种关系、实例关系、整部关系 |
关键技术 | 同现分析 | 模式匹配 | 同现分析、相似度计算、聚类 | 支持向量机(用于筛选) | 相似度计算(用于筛选) |
优点 | 简单易操作 | 模式普遍存在性、准确度较高 | 方法成熟、能发现新知识 | 语料容易获取、 易操作 | 通用性强、生成的关系可靠 |
局限 | 得到的关系类型模糊,包含很多非等级关系 | 名词修饰词辨别、模式获取需手工参与、召回率较低 | 数据稀疏问题、 等级靠人工搭建、结构中包含非等级关系 | Wikipedia的行文和结构规范性,生成的关系类型较单一 | 过于依赖词典, 其效率受词典质量限制 |
参考文献
1 Philipp Cimiano,Andreas Hotho,SteffenStaab. Learning Concept Hierarchies from Text Corpora Using Formal ConceptAnalysis[J]. Journal of artificialintelligence research,2005(24):305-339
2 National Information StandardsOrganization. Guidelines for the construction, format, and management ofmonolingual controlled vocabularies[M]. Bethesda: NISO Press,2005:46-51
3 Gruber T R. towards principles for thedesign of ontology used for knowledge sharing[J].International journal of human-computer studies, 1995(43):907-928
4 中国图书馆分类法编辑委员会.《中国图书馆分类法》(第四版)使用手册[M].北京:北京图书馆出版社,1999:34-35
5 Michael Fleischman, Eduard Hovy,Abdessamad Echihabi. Offline Strategies for Online Question Answering:Answering Questions Before They Are Asked[C]//Proceedingsof ACL-2003, Japan, 2003:1-7
6 Marti A. Hearst, Jan O. Pedersen.Reexamining the cluster hypothesis: Scatter/gather on retrieval results[C]//Proceedings of ACM SIGIR'96, Zurich, Switzerland, 1996:76-82
7 杜慧平,何琳.一种新型知识组织系统――思维导图可视化词典[J].图书馆杂志,2006,25(12):45-4
8 R. Forsyth, R. Rada. Adding an edge,Machine Learning: Applications in Expert Systems and Information Retrieval[M]. Chichester: Ellis Horwood Ltd,1986:198-212
9 M.Sanderson, W. B. Croft. Dervingconcept hierarchies from text[C]//Proceedingsof the 22nd annual international ACM SIGIR conference on Research andDevelopment in Information Retrieval, 1999: 206-213
10 Niranjan Balasubramanian. AutomaticAcquisition of Concept Hierarchies in an Integrated InformationRetrieval/Information Extraction Framework[EB/OL].http://www.cnlp.org/ presentations/slides/NiranjanThesis.pdf.[2009-12-15]
11 Philipp Cimiano. Ontology Learning andPopulation from Text: Algorithms, Evaluation and Applications[M]. New York: Springer US, 2006:85-184
12 Hearst M A. automated discovery ofWordnet relations[M]. Cambridge: MIT Press, 1998
13 Yousef ABUZIR. Deriving conceptshierarchy[EB/OL]. http://www.cs.bham.ac.uk/~mgl/cluk/papers/abuzir.pdf.[2009-12-15]
14 陆勇.面向信息检索的汉语同义词自动识别[D].南京:南京农业大学硕士毕业论文,2006:79-80
15 Zelig S. Harris. Mathematical Structuresof Language. Wiley, New York,1968
16 George A. Miller, Walter G. Charles.Contextual correlates of semantic similarity[J]. Languageand Cognitive Processes, 1991, 6(1):1-28.
17 Brown P., Della P. S., Della P. P.,Mercer R.. Word sense disambiguation using statistical methods[C]//Proceedings of the 29th Meeting of the Association forComputational Linguistics (ACL-91), 1991
18 Federici S, Montemagni S, Pirrelli V.Inferring semantic similarity from Distributional Evidence: an Analogy-basedApproach to Word Sense Disambiguation[C]//Proceedingsof the ACL/EACL Workshop on `Automatic Information Extraction and Building ofLexical Semantic Resources for NLP Applications, 1997
19 Alexander. Maedche, Viktor Pekar,Steffen Staab. Ontology Learning Part One: Learning Taxonomic Relations[EB/OL]. http://www.aifb.uni-karlsruhe.de/~sst/Research/Publications/web-intelligence.pdf.[2009-12-15]
20 何琳.领域本体的关系抽取研究[J].现代图书情报技术,2008(4):35-38
21 Asuka Sumida, Kentaro Torisawa. HackingWikipedia for hyponymy relation acquisition[C]//Proc. Ofthe third international joint conference on natural language processing(IJCNLP), 2008: 883-888
22 Naoki Yoshinaga, Kentaro Torisawa.Boosting Precision and Recall of Hyponymy Relation Acquisition fromHierarchical Layouts in Wikipedia[C]//Proceedingsof the 6th International Conference on Language Resources and Evaluation(LREC), 2008: 2462-2469
23 Fabian M.Suchanek, Gjergji Kasneci,Gerhard Weikum. YAGO: a core of semantic knowledge unifying WordNet andWikipedia[C]//Proceedings of the 16thinternational World Wide Web Conference, ACM Press, 2007:697-706
24 Sangno Lee, Soon-Young Huh, Ronald D.McNiel. Automatic generation of concept hierarchies using WordNet[J]. Expert Systems with Applications: An International Journal, 2008,35(3):1132-1144
25 Jun'ichi Kazama, Kentaro Torisawa. Exploitingwikipedia as external knowledge for named entity recognition[C]// Proceedings of the 2007 Joint Conference on Empirical Methods inNatural Language Processing and Computational National Language Learning,2007:698-707
杜慧平 女,1980年生,南京大学信息管理系在读博士,上海师范大学图书馆馆员,主要研究领域为情报检索语言、智能信息处理。
[*]本文受到教育部人文社会科学基金项目“基于知识组织资源仓库的中文本体自动构建研究”(项目编号09YJC870015)的资助。