掌桥专利:专业的专利平台
掌桥专利
首页

一种跨语言的科技论文自动推荐方法

文献发布时间:2023-06-19 19:28:50


一种跨语言的科技论文自动推荐方法

技术领域

本发明属于自然语言处理领域,具体涉及一种跨语言的科技论文自动推荐方法。

背景技术

科学研究的成果之一就是学术论文的发表,而最新最前沿的科技论文通常都是在英文科技期刊上首先发表的。世界一流英文科技期刊的科技论文内容要求新、快、好,介绍新知识、新技术、新工艺、新观点、新进展、新理论,对科研技术人员和普通受众都有着巨大的影响力。由于语言的限制,这些英文科技论文及其对其他科技论文的引用和评价往往无法快速自动地被我国的一般科技工作者所获取和利用,而且科研工作者要从如此多的科技学术论文中找到有价值的高质量的论文需要耗费大量时间。因此,在信息爆炸和海量数据的知识态势下,迫切需要从这些英文科技期刊中自动获取论文内容和信息,并克服语言的障碍翻译为中文,同时利用计算机语言信息处理技术自动为科研工作者推荐相关的论文、自动给出对论文的推荐结果,这可以大大减轻我国科研工作者的检索工作量,节省时间,从而提高文献调研效率。

科技论文的推荐系统中最常用的指标之一是被引频次,一般被引频次不包括科技论文著者对自己所发表的其他论文的引用。被引频次一方面反映了该科技论文被其他研究者的关注程度,他引次数越多说明关注者越多、论文的价值越大;另一方面被引频次也有它自身的局限性。首先,最新发表的科技论文不可能获得很高的引用频次,而科研工作者往往希望获得最新的有价值的科技论文,被引频次不利于新发表论文的传播和价值评价。其次,被引频次只是从数量上进行了统计,没有考虑科技论文来源期刊的质量。期刊质量一般用影响因子来衡量,影响因子越大说明期刊影响范围越大或质量越高。在影响因子大或质量高的期刊发表的科技论文其质量也较高,被引频次没有反映出这方面的特性。第三,从科技论文的被引频次中也得不到引用该科技论文的文献对该科技论文的态度或评价,在某些文献中会指出引用的科技论文的不足之处甚至是错误之处,当然也会对引用的科技论文进行肯定、赞同或推荐,从而体现出所引用的科技论文的影响或价值。

从上述说明可以看出,单纯采用被引频次来进行科技论文的推荐具有局限性。为了克服这一局限性,本领域技术人员提出了基于文本情感倾向性分析的推荐方法,该方法能够直接从论文的语言陈述中获取论文作者对引用的科技论文的评价或态度,给出被引科技论文的推荐度,从而更好地服务于科研工作者对论文检索、论文评价、论文推荐的需求。现有技术中的文本情感倾向性分析方法可进一步分为两类。一类是机器学习的方法,该方法通过已经标注好极性词、评价对象、评价者、倾向性态度的文本(文本中的这些知识通常由下面所提到的语法分析加规则的方法获取)进行训练,得到统计模型的参数,再用训练好的统计模型去分析新的文本,常见的模型和方法有SVM(支持向量机)、CRF(条件随机场)、深度神经网络(如Bi-LSTM)等。另一类是语法分析加规则的方法,即分析极性词语所在的句子,得到词语的句法成分,根据一定的评价模式或规则确定评价者、评价对象和倾向性态度,主要用到词语词性、句法主谓宾结构、推理规则等知识。上述两类方法都有各自的劣势。机器学习的方法需要大量的标注好的训练语料文本,增加了前期准备的成本,此外在实际分析的文本中会有许多训练语料中没有出现的词语,造成数据稀疏的处理难题。语法分析需要精确细致的语句结构分析结果,传统语法的主谓宾结构还无法适应倾向性评价的多种模式,只能获得部分简单的、粗颗粒度的评价结果。本发明提出的基于概念语义的语句分析方法无需标注语料即可实现细粒度的对科技论文评价的结果,提供一种方便可行的跨语言的科技论文自动推荐方法。

发明内容

(一)要解决的技术问题

本发明要解决的技术问题是如何提供一种跨语言的科技论文自动推荐方法,以解决现有技术中引用论文主观评价信息获取方法存在的前期成本高、易出现数据稀疏以及评价结果粗糙的问题。

(二)技术方案

为了解决上述技术问题,本发明提出一种跨语言的科技论文自动推荐方法,该方法包括如下步骤:

步骤1)、从英文科技出版物网站获得英文科技论文的全文内容文本,包含论文标题、作者、摘要、正文和参考文献;

步骤2)、从所述全文内容文本中提取所述全文内容文本中所含参考文献的内容以及所述全文内容文本中对参考文献的引证文本;

步骤3)、对所述引证文本中的英文语句做语义分析,所述语义分析包括将所述英文语句切分成词语的分词处理,根据所述词语的概念类别生成所述英文语句的概念类别的语义块切分,以及根据所述英文语句的概念类别生成该语句的句类表达式和语义块的句类假设和检验;

步骤4)、根据步骤3)所得到的语句的语义块和句类表达式、所述语句中所包含的极性词语以及倾向性评价模型对所述引证文本中的语句做倾向性分析,由所述倾向性分析的结果以及步骤2)所得到的参考文献的内容得到所述引证文本对参考文献的倾向性态度。

(三)有益效果

本发明提出一种跨语言的科技论文自动推荐方法,本发明从英文科技出版物网站中获得半结构化的英文科技论文,通过分析英文科技论文中的引证文本,自动获取论文作者对所引用参考文献的评价,具有适用范围广、受制约较少的优点。而本发明所生成的论文推荐度由于综合考虑了他引频次、他引好评率、评他率等多方面的主客观影响因素,因而也具有全面、客观、公正的优点。最后通过英中机器翻译可得到推荐度排名靠前的科技论文的标题、作者、摘要、参考文献、论文来源的汉语文本内容。

附图说明

图1为本发明的跨语言科技论文自动推荐方法的流程图;

图2为本发明的跨语言科技论文自动推荐方法中的语义块切分操作的流程图;

图3为本发明的跨语言科技论文自动推荐方法中的句类假设和检验操作的流程图;

图4为本发明的跨语言科技论文自动推荐方法中的语句倾向性分析的流程图。

具体实施方式

为使本发明的目的、内容和优点更加清楚,下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。

本发明的目的是从最新的英文科技论文中找到给予正面评价的引用论文,通过语句的语义概念分析直接得到评价结果,可以克服现有技术中引用论文主观评价信息获取方法存在的前期成本高、易出现数据稀疏以及评价结果粗糙的缺陷,从而提供一种成本低、评价结果客观公正的跨语言科技论文自动推荐方法。

为了实现上述目的,本发明提供了一种跨语言的科技论文自动推荐方法,包括:

步骤1)、从英文科技出版物网站获得英文科技论文的全文内容文本,包含论文标题、作者、摘要、正文、参考文献;

步骤2)、从所述全文内容文本中提取所述全文内容文本中所含参考文献的内容以及所述全文内容文本中对参考文献的引证文本;

步骤3)、对所述引证文本中的英文语句做语义分析,所述语义分析包括将所述英文语句切分成词语的分词处理,根据所述词语的概念类别生成所述英文语句的概念类别的语义块切分,以及根据所述英文语句的概念类别生成该语句的句类表达式和语义块的句类假设和检验;

步骤4)、根据步骤3)所得到的语句的语义块和句类表达式、所述语句中所包含的极性词语以及倾向性评价模型对所述引证文本中的语句做倾向性分析,由所述倾向性分析的结果以及步骤2)所得到的参考文献的内容得到所述引证文本对参考文献的倾向性态度。

上述技术方案中,还包括:

步骤5)、统计一个英文科技论文集合中的各个论文对参考文献的倾向性态度,根据所述倾向性态度中所包含的某一论文作为参考文献出现的次数、作为参考文献获得好评的次数、该论文中对其他论文加以好评与差评的比率,生成对所述英文科技论文集合中论文的推荐度;

步骤6)、根据所述论文的推荐度,获得超过推荐度阈值的前10篇英文科技论文,利用公知的英中机器翻译系统把英文科技论文的标题、作者、摘要、论文来源等翻译成汉语,得到跨语言的科技论文推荐结果。

上述技术方案中,在所述的步骤3)中,在所述的句类假设和检验后还包括对包含有句子以及句子变形的复杂语义块的构成分析。

上述技术方案中,在所述的步骤3)中,所述的分词处理包括根据已知的英文通用词语知识库对所述引证文本中的语句切分成词语,同时得到该词语的概念符号和概念类别。

上述技术方案中,在所述的步骤3)中,所述的语义块切分包括:

步骤3-1-1)、根据所述分词处理所得到的词语的概念类别,找出所述语句中用于表示语言逻辑虚词的“l”类概念以及用于表示动态概念的“v”类概念;

步骤3-1-2)、对于所述语句中得到的多个“v”类概念,逐个进行如下操作:如果其前后概念符合预先制定的排除规则的条件,那么去除该概念的“v”类概念属性;

步骤3-1-3)、对于进行排除操作后剩下的多个“v”类概念,按照优选规则计算出每一个“v”类概念作为特征语义块的权重,然后按所述权重做从大到小的排队;

步骤3-1-4)、根据特征语义块的构成规则,把“v”类概念与前后的修饰概念合并得到特征语义块EK;

步骤3-1-5)、根据特征语义块EK和EK之前的“l”类概念,把它们切分语句后形成的字词组合作为广义对象语义块GBK。

上述技术方案中,在所述的步骤3)中,所述的句类假设和检验包括:

步骤3-2-1)、在排队后的多个特征语义块中按顺序进行假设,根据假设的特征语义块得到语句的概念类别,由所述语句的概念类别得到该语句对应的所有可能的实际句类表达式和语义块,并得到语句所对应的实际语句格式;

步骤3-2-2)、由所述语句的概念类别得到句类知识中标准的句类表达式和语义块约束知识,由特征语义块的核心概念词语得到词语知识库中的句类约束、语句格式约束和语义块约束知识;

步骤3-2-3)、将步骤3-2-2)得到的约束知识与步骤3-2-1)中假设得到的实际句类表达式和语义块在语义块个数、语句格式、语义块核心概念三个方面依次进行比较,保留比较结果都符合的句类表达式和语义块。

上述技术方案中,在所述的步骤3)中,所述复杂语义块的构成分析包括:

步骤3-3-1)、判断所述复杂语义块的类型,若为块扩或原型句蜕,执行下一步,若为要素句蜕,执行步骤3-3-3),若为包装句蜕,执行步骤3-3-4);

步骤3-3-2)、将所述复杂语义块中的用于表示动态概念的“v”类概念作为新语句的特征语义块进行句类的假设和检验,结束本步骤的操作;

步骤3-3-3)、对所述复杂语义块中的用于表示动态概念的“v”类概念重新恢复特征语义块的资格,然后进行新语句的句类假设和检验,结束本步骤的操作;

步骤3-3-4)、识别出所述包装句蜕外部作为“包装品”的字或词或短语,去除该包装品,然后对剩余的部分进行句类的假设和检验,结束本步骤的操作。

上述技术方案中,所述的步骤4)包括:

步骤4-1)、判断所述引证文本的语句中是否包含极性词语,如果未包含,则所述引证文本对参考文献的倾向性态度为中性,结束本步骤的操作,如果包含,则执行下一步;

步骤4-2)、提取所述引证文本中的语句的语义分析结果,所述语义分析结果包括语句的句类、语义块以及语义块的内部结构;

步骤4-3)、如果语句的每一个广义对象语义块GBK都只含有一个特征词语,且语句的主语义块个数为2,那么按二元模型计算语句的倾向性态度;其中,所述主语义块包括特征语义块以及广义对象语义块,所述二元模型为“AB”的形式,A表示被评价对象,B表示极性词语;

步骤4-4)、如果语句的每一个广义对象语义块GBK都只含有一个特征词语,且语句的主语义块个数为3,那么按三元模型计算语句的倾向性态度;其中,三元模型为“C X D”的形式,C表示评价者,X表示极性词语,D表示被评价对象;

步骤4-5)、如果语句的每一个广义对象语义块GBK都只含有一个特征词语,且语句的主语义块个数为4,那么先按二元模型计算广义对象语义块GBK2和广义对象语义块GBK3的组合,然后再与广义对象语义块GBK1和特征语义块EK组合,按三元模型计算语句的倾向性态度;

步骤4-6)、如果广义对象语义块GBK只含两个特征词语,那么按二元模型计算其倾向性态度,并把结果返回;

步骤4-7)、如果广义对象语义块GBK内含多个特征词语,按照特征词语在语句中的位置,从左到右逐个减少进行递归处理,减少到只有两个特征词语时,转步骤4-6);

步骤4-8)、如果语句的广义对象语义块GBK内含语句,那么把广义对象语义块GBK作为新语句,对该新语句做语义块分析后执行步骤4-2),做递归处理;

步骤4-9)、递归处理结束,获得语句的一个总的倾向性态度。

上述技术方案中,所述的步骤5)包括:

步骤5-1)、统计一个科技论文集合中的各个论文对参考文献的倾向性态度以及相关的统计信息,包括引证文本中出现的参考文献总数N

步骤5-2)、分别计算论文的他引好评率G

步骤5-3)、设定权重修正系数α;

步骤5-4)、根据下列公式计算论文的推荐度:

Rec=T

实施例1:

下面结合附图和具体实施方式对本发明加以说明。

在本发明的一个实施例中,从国际知名的英文科技出版物网站(https://www.science.org/)下载了关于某关键词的英文科技论文583篇,得到一个文献集合。在本实施例中需要对该英文科技论文集合中的各个参考文献进行评价。由于对各参考文献的评价过程基本类似,因此在下面的描述中将以其中的一篇论文的参考文献为例,并结合图1进行说明。

从英文科技出版物网站获取论文

首先,从国际知名英文科技出版物《科学》(https://www.science.org/)的网站中进入该关键词专题,获得关于该关键词科技论文集合的网址。

其次,使用网页内容获取技术(例如Python程序语言的requests库)可以获取网址的HTML文本内容,再使用HTML解析技术(例如Python程序语言的BeautifulSoup库)可以获取HTML文本内容中论文的链接网址。

再次,根据论文的链接网址,使用网页内容获取技术和HTML解析技术可以获取论文的标题(依据网页内容中的

标签)、作者(依据标签)、摘要(依据
标签)、正文(依据
标签)、参考文献(依据
标签)。

提取论文正文中与参考文献有关的文本

根据论文正文的HTML内容,首先按照句子的标点符号“.”进行句子切分,获得论文正文的各个句子,例如:

The first complete sequence ofthe novel*****genome was thenidentified in January 2020(1).

其次,对其中的标签内容1,获得参考文献编号“1”,并存入数组refArray中。并把包含该标签内容的HTML内容去除HTML标签后得到与参考文献相关联的引证文,并存入一个数组sArray中。对论文正文的HTML内容中包含参考文献标签的语句通过上述两个步骤的相关操作,可以得到两种类型的数组,在数组refArray中包含有参考文献的内容,在数组sArray中包含有引证文本的内容。在下面的操作中将根据上述两个数组中的内容得到对参考文献的评价。

语义分析

所述语义分析是要对前一操作中所得到的引证文本进行分析,得到引证文本中所包含的语义内容。语义分析可以分为分词、语义块切分、假设检验和语义块构成分析等多个操作。通过语义分析可以得到语句的概念类型、语句中语义块的划分和角色、各语义块内部的构成成分及其关系等多种类型的信息。下面对语义分析中的各个操作分别予以说明。

1、分词处理

按空格对语句进行切分,可以得到语句中的各个词语。

2、语义块切分

引证文本中的句子在经过前述的分词操作而被切分成词语以后,词语成为了相关操作的基本单位。由于词语在通用词语知识库中已经对词语的属性信息有定义好的概念类别,例如“l”类概念是指“把、被、向、对”等语言逻辑虚词,“v”类概念是指动态概念(通常是动词),因此可以由词语的概念类别进一步得到句子的概念类别。考虑到句子中语义块的切分主要依靠“l”类概念和“v”类概念,因此一个句子经过分词后,可以用下面的公式(1)来表示:

其中,S代表一个句子,l代表具有l类概念类别的词语,v代表具有v类概念类别的词语,K代表l和v之间的词语或一段文字,m、n和k分别为句子中出现的l、v和K的总数;一个句子中可能没有l或v。

从上述公式可以看出,通过l概念和v概念可以把句子切分成多个块K,进一步的,l和v之间的语义块被定义为辅语义块fK或广义对象语义块GBK,v概念词及其前后修饰词构成特征语义块EK,从而使得句子可被进一步地用公式(2)来表示:

其中,S代表一个句子,fK代表句子中的辅助语义块(如表示时间地点的词、短语等),EK代表句子中的核心动词及其前后修饰,GBK表示句子中除fK和EK之外的语义块;m’和k’分别是句子中出现的fK和GBK的总数,一个句子中可以没有EK或fK。

如何通过计算机将一个句子从前述公式(1)表示的形式转换为公式(2)表示的形式被称为语义块切分假设。由于在实际的自然语言环境中,一般情况下m'<5且k'≤3,当m’为0时表示句子没有辅块fK(主要是时间、地点等概念),只有EK和GBK。EK和GBK统称主块,它们构成了语句的句类表示式,即句子的主要联想脉络。因此,语义块切分假设的关键是感知并确定句子中的“l”和“v”类概念。

对“l”和“v”类概念的感知可以利用字词的概念类别实现,但一个字词的概念类别可能有多个,因此需要根据该字词的概念和前后字词的概念排除或优先确认某种概念类别。即便如此,“l”和“v”类概念的感知结果仍然可能有多个,由此会产生多个语义块切分假设结果。这些结果会在后续的句类检验阶段验证是否正确。

总结上述内容,语义块切分操作如图2所示,可包括以下步骤:

步骤1-a)、根据所述分词处理所得到的词语的概念类别,找出所述语句中用于表示语言逻辑虚词的“l”类概念以及用于表示动态概念的“v”类概念;

步骤1-b)、对于所述语句中得到的多个“v”类概念,逐个进行如下操作:如果其前后概念符合预先制定的排除规则的条件,那么去除该概念的“v”类概念属性;

步骤1-c)、对于进行排除操作后剩下的多个“v”类概念,按照优选规则计算出每一个“v”类概念作为特征语义块的权重,然后按所述权重做从大到小的排队;

步骤1-d)、根据特征语义块的构成规则,把“v”类概念与前后的修饰概念合并得到特征语义块EK;

步骤1-e)、根据特征语义块EK和EK之前的“l”类概念,把它们切分语句后形成的字词组合作为广义对象语义块GBK。

3、句类假设和检验

在经过前述的语义块切分阶段后,引证文本中的一个句子可被切分成多个语义块,但此时的语义块只能给出一般的类型信息,如前面所提到的辅块fK、特征语义块EK、广义对象语义块GBK。由此所得到的句子表示式也是一般表示式,例如“GBK1+EK+GBK2”。这样的句子表示式只能粗略地表达了句子中所包含的语义,要用来做文献评价显然是不够的,需要在本步骤中实现句类假设和检验,以获得进一步的信息。

句类检验主要是以词语知识库中的句类知识和概念约束知识为标准,和句子现场得到的句类及语义块假设进行比较,若比较结果相符则通过检验,否则就没有通过检验。检验的主要内容有:语义块个数、语句格式、语义块核心的概念。

在检验过程中,假设的语句格式和句类代码确定后,首先根据基本句类表示式和语句格式可以确定语义块的应有数目。如果这个数目与自然语言语句中语义块切分得到的数目不同,那么语义块个数的检验不能通过,也没有必要进行语句格式和语义块核心概念的检验。如果数目相同,则进一步做语句格式的检验。语句格式的检验主要是对某些特定句类或者某些特定动词形成的句类进行格式方面的约束检验,例如“广义效应句没有规范格式”约束了如果假设的句类是广义效应句,而且假设的语句格式是规范格式的话,那么该语句格式不能通过检验。在通过语句格式检验后,还要做语义块核心概念的检验。该检验主要是计算假设的语义块核心概念与句类知识中的概念约束符号是否相符。句类知识中的概念约束符号一般比较抽象,因此当句子中假设的语义块核心概念的符号是概念约束符号的子节点时,则语义块核心概念的符号通过了检验。

具体的说,如图3所示,句类假设和检验主要包括以下步骤:

步骤2-a)、在排队后的多个特征语义块中按顺序进行假设,根据假设的特征语义块得到语句的概念类别,由所述语句的概念类别得到该语句对应的所有可能的实际句类表达式和语义块,并得到语句所对应的实际语句格式;

步骤2-b)、由所述语句的概念类别得到句类知识中标准的句类表达式和语义块约束知识,由特征语义块的核心概念词语得到词语知识库中的句类约束、语句格式约束和语义块约束知识;

步骤2-c)、将步骤2-b)得到的约束知识与步骤2-a)中假设得到的实际句类表达式和语义块在语义块个数、语句格式、语义块核心概念三个方面依次进行比较,保留比较结果都符合的句类表达式和语义块。

例如,“爱迪生首先让人尝到了他的厉害”有四个假设的句类及其表示式,需要一一进行句类检验。

第一个假设为“X03J=X03A+X03+XBC”,对应的语句的语义块切分假设为“爱迪生首先||让||人尝到了他的厉害”。语义块个数都是3,通过检验;语句格式都是基本格式(没有l类概念),通过检验;句类知识要求XBC又是一个句子,这里“人|尝到了|他的厉害”构成了又一句子,通过检验。

第二个假设为“X4J=A+X4+XB”,对应的语句的语义块切分假设为“爱迪生首先||让||人尝到了他的厉害”。语义块个数都是3,通过检验;语句格式都是基本格式,通过检验;句类知识要求A的核心概念一般是抽象概念或是一个句子,这里“爱迪生”是具体的人概念,因此不能通过检验。

第三个假设为“X20J=X2B+X20+XBC”,对应的语句的语义块切分假设为“爱迪生首先||让||人尝到了他的厉害”。语义块个数都是3,通过检验;语句格式都是基本格式,通过检验;词语知识库要求XBC的核心概念是具体概念,这里“人尝到了他的厉害”不是具体的人或物概念,因此不能通过检验。

第四个假设为“T1J=TB+T1+TBC”,对应的语句的语义块切分假设为“爱迪生首先让人||尝到了||他的厉害”。语义块个数都是3,通过检验;语句格式都是基本格式,通过检验;句类知识要求TB的核心概念一定是具体概念,这里“爱迪生首先让人”不是是具体的人或物概念,因此不能通过检验。

经过句类假设和检验所得到的句类表达式和语义块就是语义分析的结果。

4、语义块构成分析

在一些结构复杂的语句中,某些语义块还包括有别的句子或者句子变形,这些语义块被称为复杂语义块。语义块构成分析的目的就在于分析复杂语义块的内部构成。

复杂语义块的一个显著特征是在该语义块中还包括有“v”概念,对于复杂语义块需要按以下四种情形处理:块扩、原型句蜕、要素句蜕、包装句蜕。块扩是指语义块扩展成了一个句子,即该语义块由一个语句充当,对于这种情况可以直接把该语义块中的v概念作为新语句的特征语义块进行句类的假设、检验;原型句蜕是指该语义块也由一个语句充当,与块扩不同的是它在词语知识库的句类知识中没有指示,对这种情形的处理方法与块扩是一样的;要素句蜕是句子变形后形成了语义块,即句子蜕化为语义块,语义块中的语句常常在特征语义块的前面或后面加“的”,对于这种情形需要对语义块中的v概念重新恢复特征语义块的资格,然后进行新语句的句类假设、检验;包装句蜕是指原型句蜕或要素句蜕的外部又加上了一层“包装品”(字、词或短语),对于这种情形需要识别出包装品,把包装品去掉后对剩下的句蜕再进行句类的假设、检验。由此可知,语义块的构成分析实际上是对语义块内部嵌套语句的一次又一次句类假设检验,直到语义块没有复杂构成为止,形成逐级分解的递归处理。

从上述说明可以看出,语义块构成分析并不是每一个句子都要完成的操作,对于结构简单的语句完全可以省略本步操作。

5、句类分析结果

通过上述操作,可以完成对一个句子的语义分析,得到句类分析结果。例如前述引证文本:“The first complete sequence ofthe novel*****genome was thenidentified in January 2020[1].”,它的句类分析结果如下:

语句:The first complete sequence of the novel*****genome||was[~then]identified||~in January 2020||[1].

概念符号表示:!31T1J

句类代码:T1J

句类表示式:T1J=TB+T1+T1C

语义块:

TB:[1]

T1:was identified

T1C:Thefirst complete sequence ofthe novel*****genome

Cn:then

其中,“Cn”是表示时间地点等概念的辅块fK。“T1J”称为句类代码,表示语句属于哪一种语义类型,即句类。每一种句类都有自己的由语义块组成的基本句类表示式,在实际语句中句类表示式中的某些语义块可能不出现。“!20”表示句类表示式的违例格式,即“T1J”中的“TB”出现在了特征语义块的后面,而“T1C”则出现在特征语义块的前面。语句中的标注符号“||”用于分隔语义块,符号“||~”表示其右边是辅块,语句中的词语(即分词结果)用空格隔开。

语句的倾向性分析

语句的倾向性分析就是要根据语句中的极性词语、语义块和语句类型,以及倾向性评价中的二元和三元模型,分层逐级计算得到论文中对于参考文献的倾向性态度。

由于在论文中主要由引证文本实现对参考文献的评价,因此对语句的倾向性分析主要是对引证文本中的语句做倾向性分析。引证文本如何获取在前文中已经有详细的描述,下面就对引证文本中的语句做倾向性分析的过程加以说明。

首先判断引证文本中的语句中是否有极性词语,如果没有,则引证文本中的语句对于所引证的参考文献的倾向性态度为中性,无需再做后续操作,如果有极性词语,则要对该语句做语义分析,得到语句的句类、句类表示式和语义块构成。这些语义分析的结果将利用下文中提到的评价模型来生成引证文本对参考文献的倾向性态度。此处所提到的极性词语已经在背景技术部分中做了相关描述,极性词语通常被保存在极性词典中,所述极性词语以及极性词典都为本领域的公知常识,本领域技术人员可以直接选用。在本发明中用于保存极性词典的数据库也被称为特征词语知识库。

本发明中所涉及到的评价模型包括有二元模型和三元模型,下面分别加以说明。二元模型是倾向性评价中最基本的模型,其基本形式为“A B”,其中A是被评价对象,B是极性词语。例如文本为“该方法好”,那么陈述者对于评价对象“该方法”的倾向性态度是正面的(“好”)。三元模型的形式为“C X D”,其中“C”是评价者,“X”是极性词语,“D”是被评价对象。例如“C反对D”,则评价者C对于被评价对象D的倾向性态度是反面的。由此可见,通过二元模型和三元模型以及语句中的极性词语,可以得到语句的倾向性态度。

倾向性态度除了如前面提到的正面、负面等定性指标外,也可以做定量计算。在定量计算前,需要为极性词设定极性值,为程度词设定程度值,为逻辑词设定正负值。例如,极性词主要分两种,一种是褒义词(正面、积极评价词),其值取“+1”;另一种是贬义词(负面、消极评价词),其值取“-1”。如为“好”、“成果”、“有益”取+1,而为“差”、“缺点”可取“-1”。程度词是指一些描述程度的修饰词语,如“最”、“很大”、“较大”、“一定程度”等,按照程度从小到大,从0到1分配其值,如“最”取0.9,“很大”取0.8,“较大”取0.6。然后,分情况做具体的计算。例如,在二元模型“A B”中,如果A为程度词,B为极性词,那么倾向性态度的计算结果为程度词的程度值乘以极性词的极性;如果A为逻辑词,B为极性词,那么倾向性态度的计算结果为逻辑词的正负值乘以极性词的极性。同理,在三元模型中,如果极性词前面有程度词或逻辑词,那么需要在极性词极性的基础上乘以程度词和逻辑词的作用系数。

在描述了如何由二元模型与三元模型得到倾向性态度的基础上,下面对语句的语义结构如何对应为二元模型或三元模型加以说明。在前述公式(2)的基础上,不计辅块fK的影响,由EK和GBK组成的语句可分为两块句、三块句和四块句。其中,两块句的表示式有三种,即“EK+GBK1”、“GBK1+EK”和“GBK1+GBK2”,前两种可以对应三元模型的缺省模型“C X”和“XD”,第三种则直接对应二元模型。三块句的表示式为“GBK1+EK+GBK2”,可直接对应于三元模型,当EK不是极性词语则转化为二元模型处理。四块句的表示式为“GBK1+EK+GBK2+GBK3”,把“GBK2+GBK3”用二元模型处理,然后将四块句转化为三块句进行处理。由于存在GBK属于复杂语义块的情况,即GBK内部由局部的EK’和GBK’构成,因此可对GBK内部的表示式按照上述方法先行处理。如果语句的主语义块EK和GBK中都不含极性词语,那么此时需要对辅块fK的表示式进行二元模型或三元模型的处理。在将语句的语义结构对应为二元模型或三元模型后,就可以根据前段对二元模型或三元模型的描述得到语句对被评价对象的倾向性态度。

无论采用上述何种方式获得引证文本中的语句对被评价对象的倾向性态度,由于引证文本对被评价的参考文献通常仅仅引用了该参考文献的编号,如“[2]”,无法从引证文本中直接得到参考文献的作者、文献名称等其他信息,因此,可以利用前文中所提到的所提取的参考文献的内容,进一步明确被评价的参考文献的相关信息。

综合前述说明,结合图4,下面给出如何获取引证文本的语句对于参考文献的倾向性态度的相关步骤:

步骤3-a)、判断所述引证文本的语句中是否包含极性词语,如果未包含,则所述引证文本对参考文献的倾向性态度为中性,结束本步骤的操作,如果包含,则执行下一步;

步骤3-b)、提取所述引证文本中的语句的语义分析结果,所述语义分析结果包括语句的句类、语义块以及语义块的内部结构;

步骤3-c)、如果语句的每一个GBK都只含有一个特征词语,且语句的主语义块(EK和GBK)个数为2,那么按二元模型计算语句的倾向性态度;

步骤3-d)、如果语句的每一个GBK都只含有一个特征词语,且语句的主语义块(EK和GBK)个数为3,那么按三元模型计算语句的倾向性态度;

步骤3-e)、如果语句的每一个GBK都只含有一个特征词语,且语句的主语义块(EK和GBK)个数为4,那么先按二元模型计算GBK2和GBK3的组合,然后再与GBK1和EK组合,按三元模型计算语句的倾向性态度;

步骤3-f)、如果GBK只含两个特征词语,那么按二元模型计算其倾向性态度,并把结果返回;

步骤3-g)、如果GBK内含多个特征词语,按照特征词语在语句中的位置,从左到右逐个减少进行递归处理,减少到只有两个特征词语时,转步骤3-f);

步骤3-h)、如果语句的GBK内含语句,那么把GBK作为新语句,转步骤3-b),做递归处理;

步骤3-i)、递归处理结束,获得语句的一个总的倾向性态度。

以上是对本发明如何获取论文文献对参考文献的倾向性态度的说明。结合前面所提到的例子,前述多个语句中含有特征词语(包括褒贬词、逻辑词、程度词等)的语句为“Thefirst complete sequence ofthe novel*****genome was then identifiedinJanuary 2020[1]”,其中“first comlete”为程度词,“novel”为褒贬词(指带有感情倾向的词语,如果是褒义的,其值为正,如果是贬义的,其值为负),参考文献“[1]”为被评价对象。再根据语句倾向性分析的二元模型,用程度词属性值“0.6”乘以褒贬词属性“+1”,可以得到语句对于参考文献“[1]”的倾向性态度为“好评”,且得分为+0.6。

论文的推荐度

在得到论文对参考文献的倾向性态度后,结合被引频次等信息可进一步得到用于表示参考文献被自动推荐程度的论文推荐度指标。

一篇论文在经过前述步骤的分析处理后,可以得到如下量化指标:

N:“参考文献”中列出的文献数;

N

n

g

b

G

B

依据前述说明可以获得引证文本中作者对于参考文献的倾向性态度,其值在-1到1之间,0表示评价为中性,负值表示获得差评,正值表示获得好评。在一篇论文中,如果论文作者对参考文献的差评总数越大,说明该论文作者越具有批判或创新精神,勇于指出别人的不足。这样的论文是值得推荐的,其推荐度的值应该高。

对于论文集合,论文集合中的每一篇论文都经过前述的分析处理后,可以通过统计获取以下的量化数据:

R:某篇论文的被引次数,即该论文在“参考文献”中被列出的总次数。

R

T

P

G

B

在计算论文的推荐度时,首先考虑它作为参考文献的他引次数和好评率;其次如果该参考文献也是论文集合中的一篇论文,那么还要考虑它对其它参考文献做评价的情况;再次,为了消除论文作者对自身评价的不确定性,不考虑论文的自引次数。基于以上考虑,设计论文推荐度的计算公式如下:

Rec=T

其中,“G

从推荐度“Rec”的计算公式可以看出,影响推荐度的因素有他引次数、他引好评率、评他好评率、评他差评率以及评他率,即他引次数越多、他引好评率越高、评他率(包括好评差评)越高,则论文获得的推荐度越大。当评他差评率高于评他好评率时,作者对参考文献的批判价值值得推荐,因此取“Max(G

在计算出文献集合中每一篇文献的推荐度后,可以按照文献的推荐度大小进行排序,按照一定的等级和范围向用户推荐。

获得排名靠前的推荐论文汉语版本

根据所述论文的推荐度,获得超过推荐度阈值的前10篇英文科技论文,利用公知的英中机器翻译系统把英文科技论文的标题、作者、摘要、论文来源等翻译成汉语,得到跨语言的科技论文推荐结果。

本发明关键点在于:

1、本发明在计算文献推荐度时综合考虑了他引频次、他引好评率、评他率等方面的主客观影响因素,是对文献的一种新的全面评价方法。

2、本发明提供的文本倾向性分析方法不仅可以获得文献作者对于参考文献的一种定性评价,而且给出了具体的量化评价数值,有利于参考文献主观评价的量化分析。

3、本发明提供的语句语义分析方法不仅可以用于文本的倾向性分析,还可以用于文本的语义角色标注、事件分析及机器翻译等方面。

4、本发明提供的文献自动评价系统及方法可以自动计算文献的推荐度,无需人工干预,可自动向用户推荐有价值的文献。

本发明的优点在于:

本发明从英文科技出版物网站中获得半结构化的英文科技论文,通过分析英文科技论文中的引证文本,自动获取论文作者对所引用参考文献的评价,具有适用范围广、受制约较少的优点。而本发明所生成的论文推荐度由于综合考虑了他引频次、他引好评率、评他率等多方面的主客观影响因素,因而也具有全面、客观、公正的优点。最后通过英中机器翻译可得到推荐度排名靠前的科技论文的标题、作者、摘要、参考文献、论文来源的汉语文本内容。

以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变形,这些改进和变形也应视为本发明的保护范围。

相关技术
  • 一种基于主题类的跨语言生物医学类学术论文信息推荐方法
  • 一种基于堆叠自动编码器和引文网络的科技论文分类方法
技术分类

06120115919632