掌桥专利:专业的专利平台
掌桥专利
首页

一种物质名称提取方法、装置及存储介质

文献发布时间:2023-06-19 09:26:02


一种物质名称提取方法、装置及存储介质

技术领域

本发明涉及自然语言处理领域,具体涉及一种物质名称提取方法、装置及存储介质。

背景技术

专利数据是互联网中的一种重要的知识产权数据,研究表明,专利虽然只占文献总量的10%,却能提供全世界90%~95%的新技术信息。而在药物研发领域中尤为明显,大量的潜在成药的小分子数据分布在文献、专利等文档中。其中,化学专利是理解化合物用途、特性和新颖性的重要起点。通常情况下,新化合物最初是在专利文件中公开的,而化学文献中提及这些化学物质可能需要1-3年的时间,这表明专利是一种有价值的但未充分利用的资源。随着每年新化学专利申请数量的急剧增加,如何有效的提取分子名称以发现并利用该分子,是企业界、学术界首要考虑的问题。相关技术中,只能对整篇专利文件进行遍历识别得到物质名称,不能根据不同需求筛选分子名称,提取分子名称灵活性差。

发明内容

有鉴于此,本发明实施例提供了一种物质名称提取方法、装置及存储介质,以解决现有技术提取分子名称灵活性差的缺陷。

根据第一方面,本发明实施例提供一种物质名称提取方法,包括如下步骤:获取待提取文本文件;确定所述待提取文本文件是否包含预设标识;当所述待提取文本文件包含所述预设标识,利用预先训练好的物质名称提取模型对所述预设标识对应的文本内容进行目标物质名称提取。

可选地,所述预先训练好的物质名称提取模型包括:CNN卷积模块,LSTM神经网络模块,线性模块和CRF条件随机场模块;当所述待提取文本文件包含所述预设标识,利用物质名称提取模型对所述预设标识对应的文本内容进行目标物质名称提取,包括:利用所述卷积模块对所述文本内容中每一个语句中单词的字符向量进行卷积池化,得到每个单词的字符级特征向量;将所述每个单词的字符级特征向量、第一预设词向量以及第二预设词向量进行拼接,将拼接结果输入至所述LSTM神经网络模块,得到所述语句的特征信息,所述第一预设词向量从与所述待提取文本文件不同类型的文本文件提取得到,所述第二预设词向量从与所述待提取文本文件同一类型的历史文本文件提取得到;将所述语句的特征信息输出至线性模块进行计算,将计算结果输出至CRF条件随机场模块进行目标物质名称提取。

可选地,所述预设标识为多个,所述当待提取文本文件包含预设标识,利用预先训练好的物质名称提取模型对预设标识对应的文本内容进行目标物质名称提取包括:依次对识别出的每一个预设标识对应的目标位置的文本内容进行目标物质名称提取,直至遍历全部文本内容。

可选地,所述获取待提取文本文件,包括:当所述待提取文本文件为不可编辑文本文件,利用目标算法对所述不可编辑文本文件进行可编辑化处理。

可选地,所述待提取文本文件为专利文本文件,所述目标物质名称为化学物质名称。

可选地,所述方法还包括:将提取出的化学物质名称转化为目标形式。

根据第二方面,本发明实施例提供一种物质名称提取装置,包括:文本文件获取模块,用于获取待提取文本文件;预设标识确定模块,用于确定所述待提取文本文件是否包含预设标识;物质名称提取模块,用于当所述待提取文本文件包含所述预设标识,利用预先训练好的物质名称提取模型对所述预设标识对应的文本内容进行目标物质名称提取。

可选地,所述预先训练好的物质名称提取模型包括:CNN卷积模块,LSTM神经网络模块,线性模块和CRF条件随机场模块;所述物质名称提取模块,包括:字符级特征向量获取模块,用于利用所述卷积模块对所述文本内容中每一个语句中单词的字符向量进行卷积池化,得到每个单词的字符级特征向量;语句特征信息获取模块,用于将所述每个单词的字符级特征向量、第一预设词向量以及第二预设词向量进行拼接,将拼接结果输入至所述LSTM神经网络模块,得到所述语句的特征信息,所述第一预设词向量从与所述待提取文本文件不同类型的文本文件提取得到,所述第二预设词向量从与所述待提取文本文件同一类型的历史文本文件提取得到;物质名称提取子模块,用于将所述语句的特征信息输出至线性模块进行计算,将计算结果输出至CRF条件随机场模块进行目标物质名称提取。

根据第三方面,本发明实施例提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现第一方面或第一方面任一实施方式所述的物质名称提取方法的步骤。

根据第四方面,本发明实施例提供一种存储介质,其上存储有计算机指令,该指令被处理器执行时实现第一方面或第一方面任一实施方式所述的物质名称提取方法的步骤。

本发明技术方案,具有如下优点:

本实施例提供的物质名称提取方法/装置,根据预设标识查找预设标识对应部分的文本内容中是否含有物质名称信息,而预设标识可以预先根据需要设定,提高了物质名称提取的灵活性,并且,当预设标识为专利文本中实施例、步骤等对应的文本内容包含详细技术内容介绍之类的关键字,在提高物质名称提取的针对性的同时,不需要对整篇专利进行名称提取,从而提高物质名称提取的效率。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本发明实施例中物质名称提取方法的一个具体示例的流程图;

图2为本发明实施例中物质名称提取方法的一个具体示例图;

图3为本发明实施例中物质名称提取装置的一个具体示例原理框图;

图4为本发明实施例中电子设备的一个具体示例的原理框图。

具体实施方式

下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

在本发明的描述中,需要说明的是,术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。

在本发明的描述中,需要说明的是,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,还可以是两个元件内部的连通,可以是无线连接,也可以是有线连接。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。

此外,下面所描述的本发明不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。

本实施例提供一种物质名称提取方法,如图1所示,包括如下步骤:

S101,获取待提取文本文件。

示例性地,待提取文本文件可以是论文、专利等等。获取待提取文本文件可以是从数据库中获取,也可以是由用户输入,本实施例对待提取文本文件的类型以及获取方式不做限定,本领域技术人员可以根据需要确定。

S102,确定待提取文本文件是否包含预设标识。

示例性地,预设标识可以是预先设置的关键字,比如,当待提取文本文件为中文专利文件时,预设标识可以是:实施例+数字的形式,比如,实施例、实施例1、实施例2、化合物1、化合物2、步骤1、步骤2;当待提取文本文件为英文专利文件时,预设标识可以是:Example/Example+number/Compound+number/Reference+number/Step+number的形式,本实施例对预设标识的具体内容不做限定,本领域技术人员可以根据需要确定。

待提取文本文件是否包含预设标识的确定方式可以是将待提取文本文件输入预先训练好的基于规则的标示模型,该模型可以对多种预设标识进行识别,还可以是将待提取文本文件中所有的单词转化为词向量,将转换的词向量依次与预设标识的词向量进行对比,当出现相同的词向量,则确定待提取文本文件包含预设标识,本实施例对确定待提取文本文件是否包含预设标识的方式不做限定,本领域技术人员可以根据需要确定。

S103,当待提取文本文件包含预设标识,利用预先训练好的物质名称提取模型对预设标识对应的文本内容进行目标物质名称提取。

示例性地,目标物质名称可以是化学物质名称。预设标识对应的文本内容可以是预设标识以下的文本内容。当预设标识为“实施例”或“Example”时,当任一字符串为“实施例”或“Example”,则判断下一个字符串是否为化学物质名称,若为化学物质名称,则将该字符串的标签记为1,再进行下一个字符串的判断,直至该化学物质名称结束;若不为化学物质名称,则将该字符串的标签记为0,判断下一个字符串是否为化学物质名称。将标记为1的字符串进行整合,输出化学物质的IUPAC。

对预设标识对应的文本内容进行目标物质名称提取的方式可以是一直循环直至整个待提取文本文件结束,也可以是提取到第一个目标物质名称就结束循环,当预设标识有多个时,再进行下一个预设标识的识别。其中,化学物质名称的提取方式可以是利用预先训练好的物质名称提取模型对进行提取,本实施例对物质名称提取模型不做限制,本领域技术人员可以根据需要确定。

以对预设标识对应的文本内容进行目标物质名称提取的方式是一直循环直至整个待提取文本文件结束为例,对于一个实施例中包含三个物质名称的待提取文本文件,目标物质名称提取结果可以是:

实施例:化学物质名称A;化学物质名称B;化学物质名称C;或

Example:molecular name A;molecular name B;molecular name C。

本实施例提供的物质名称提取方法,根据预设标识查找预设标识对应部分的文本内容中是否含有物质名称信息,而预设标识可以预先根据需要设定,提高了物质名称提取的灵活性,并且,当预设标识为专利文本中实施例、步骤等对应的文本内容包含详细技术内容介绍之类的关键字,在提高物质名称提取的针对性的同时,不需要对整篇专利进行名称提取,从而提高物质名称提取的效率。

作为本实施例一种可选的实施方式,所述预先训练好的物质名称提取模型,包括:CNN卷积模块,LSTM神经网络模块,线性模块和CRF条件随机场模块;当待提取文本文件包含所述预设标识,利用物质名称提取模型对预设标识对应的文本内容进行目标物质名称提取,包括:

利用所述卷积模块对所述文本内容中每一个语句中单词的字符向量进行卷积池化,得到每个单词的字符级特征向量;

将所述每个单词的字符级特征向量、第一预设词向量以及第二预设词向量进行拼接,将拼接结果输入至所述LSTM神经网络模块,得到所述语句的特征信息,所述第一预设词向量从与所述待提取文本文件不同类型的文本文件提取得到,所述第二预设词向量从与所述待提取文本文件同一类型的历史文本文件提取得到;

将所述语句的特征信息输出至线性模块进行计算,将计算结果输出至CRF条件随机场模块进行目标物质名称提取。

示例性地,CNN卷积模块考虑了化学物质名称本身所具有的特性,包括化学物质名称中出现的字母、数字、标点符号以及特殊字符。因此,CNN卷积模块基于40万条化学物质名称库和上千篇普通文本数据的字母、数字、标点符号以及特殊字符的出现频率训练而成。

当待提取文本文件类型为专利文献时,由于专利文献的特殊性,包含专利语言内容以及自然语言内容,因此,需要先根据大量百度百科等非专利文献对word2vec词向量模型进行训练,从而得到预先建立的词向量表,通过查询非专利文献建立的词向量表,得到第一预设词向量;并根据美国专利局、欧洲专利局、世界专利组织等数十万篇专利文本,构建300维的词嵌入模型,从而形成预先建立的基于专利ELMo词向量表,通过查询专利文献建立的词向量表,得到第二预设词向量。在训练词向量模型时可以去除一些无意义的停用词,例如:of,the,a等,达到进一步提升模型的训练效率的效果。

利用预先训练好的物质名称提取模型对预设标识对应的文本内容进行目标物质名称提取时,首先通过查询词向量表将输入的语句转换为相应的词向量序列。然后对于语句中的每一个单词,通过查询字符向量表获得每个字符的字符向量,由字符向量组成单词的字符向量矩阵,由于字符向量太过稀疏,所以将字符向量输入CNN卷积模块对字符向量矩阵进行卷积和池化,获得每个单词的字符级特征向量。将每个单词的字符级特征向量,以及针对该单词查询到的词向量和ELMo向量进行加和拼接,获得信息更全面的词向量,将拼接后的词向量输入LSTM神经网络模块进行识别,将LSTM神经网络模块的输出传入线性模块进行计算,并将线性模块的输出通过CRF条件随机场模块解码出一个最优的标记序列,从而得到目标文本,也即化学物质名称。

本实施例提供的物质名称提取方法,对于不同文本文件,融合多种词向量进行拼接,得到信息更加全面的词向量作为LSTM神经网络模块的输入,提高了物质名称提取的准确性。

作为本实施例一种可选的实施方式,所述预设标识为多个,所述当待提取文本文件包含预设标识,利用预先训练好的物质名称提取模型对预设标识对应的文本内容进行目标物质名称提取包括:依次对识别出的每一个预设标识对应的目标位置的文本内容进行目标物质名称提取,直至遍历全部文本内容。

示例性地,目标位置可以是预设标识后的第一个完整目标物质名称所在的位置,如图2所示,实施例1、实施例2为预设标识,在其后的目标物质名称所在位置为目标位置。当提取到预设标识对应的目标位置上的第一个完整目标物质名称时,则识别下一个预设标识,当识别到对应的预设标识时,则对该预设标识对应的文本内容进行目标物质名称提取,直至遍历全部文本内容。对下一个预设标识进行识别以及目标物质名称进行提取的方式见上述实施例所述,在此不再赘述。

以预设标识分别为“实施例1”、“实施例2”…“实施例n”为例进行说明,目标物质名称提取结果可以是:

实施例1:化学物质名称A;/Example 1:molecular name A;

实施例2:化学物质名称B;/Example 2:molecular name B;

实施例n:化学物质名称N;/Example n:molecular name N。

在大量专利文本文件中,其撰写方式是在实施例后直接表明需要保护的化学物质名称,而详细介绍,比如合成过程以及使用方式撰写在具体实施方式内,针对这类的专利文件,本实施例提供的方法仅对需要保护的化学物质名称进行提取,而合成过程中的化学物质大概率是现有化学物质,所以不进行提取,提高了对新合成的化学物质名称的提取效率。

作为本实施例一种可选的实施方式,获取待提取文本文件,包括:当所述待提取文本文件为不可编辑文本文件,利用目标算法对所述不可编辑文本文件进行可编辑化处理。

示例性地,目标算法可以是OCR技术,本实施例对目标算法不做限定,本领域技术人员可以根据需要确定。获取到的待提取文本文件类型可能是pdf、txt、rtf或者xml信息。对于可编辑的文本文件可以不做处理,对于不可编辑的pdf以及图片信息,可以利用OCR技术将其转化为可编辑的文本信息。

作为本实施例一种可选的实施方式,所述待提取文本文件为专利文本文件,所述目标文本为化学物质名称。

作为本实施例一种可选的实施方式,所述方法还包括:将提取出的化学物质名称转化为目标形式。

示例性地,目标形式可以是SMILES、StdInChI、StdInChIKey、CML以及化学物质结构图片等。将提取出的化学物质名称转化为目标形式的方式可以是调用开源OPSIN包对化学物质名称进行转换。本实施例对具体目标形式以及转化方式不做限定,本领域技术人员可以根据需要确定。

本发明实施例提供一种物质名称提取装置,如图3所示,包括:

文本文件获取模块201,用于获取待提取文本文件;具体内容参见上述方法实施例,在此不再赘述。

预设标识确定模块202,用于确定所述待提取文本文件是否包含预设标识;具体内容参见上述方法实施例,在此不再赘述。

物质名称提取模块203,用于当所述待提取文本文件包含所述预设标识,利用预先训练好的物质名称提取模型对所述预设标识对应的文本内容进行目标物质名称提取。具体内容参见上述方法实施例,在此不再赘述。

本实施例提供的物质名称提取装置,根据预设标识查找预设标识对应部分的文本内容中是否含有物质名称信息,而预设标识可以预先根据需要设定,提高了物质名称提取的灵活性,并且,当预设标识为专利文本中实施例、步骤等对应的文本内容包含详细技术内容介绍之类的关键字,在提高物质名称提取的针对性的同时,不需要对整篇专利进行名称提取,从而提高物质名称提取的效率。

作为本实施例一种可选的实施方式,所述预先训练好的物质名称提取模型包括:CNN卷积模块,LSTM神经网络模块,线性模块和CRF条件随机场模块;所述物质名称提取模块,包括:

字符级特征向量获取模块,用于利用所述卷积模块对所述文本内容中每一个语句中单词的字符向量进行卷积池化,得到每个单词的字符级特征向量;具体内容参见上述方法实施例,在此不再赘述。

语句特征信息获取模块,用于将所述每个单词的字符级特征向量、第一预设词向量以及第二预设词向量进行拼接,将拼接结果输入至所述LSTM神经网络模块,得到所述语句的特征信息,所述第一预设词向量从与所述待提取文本文件不同类型的文本文件提取得到,所述第二预设词向量从与所述待提取文本文件同一类型的历史文本文件提取得到;具体内容参见上述方法实施例,在此不再赘述。

物质名称提取子模块,用于将所述语句的特征信息输出至线性模块进行计算,将计算结果输出至CRF条件随机场模块进行目标物质名称提取。具体内容参见上述方法实施例,在此不再赘述。

作为本实施例一种可选的实施方式,所述预设标识为多个,所述物质名称提取模块203还包括:

遍历模块,用于依次对识别出的每一个预设标识对应的目标位置的文本内容进行目标物质名称提取,直至遍历全部文本内容;具体内容参见上述方法实施例,在此不再赘述。

作为本实施例一种可选的实施方式,所述文本文件获取模块,包括:

文件转档模块,用于当所述待提取文本文件为不可编辑文本文件,利用目标算法对所述不可编辑文本文件进行可编辑化处理。具体内容参见上述方法实施例,在此不再赘述。

作为本实施例一种可选的实施方式,所述待提取文本文件为专利文本文件,所述目标物质名称为化学物质名称。具体内容参见上述方法实施例,在此不再赘述。

作为本实施例一种可选的实施方式,所述物质名称提取装置还包括:目标形式转换模块,用于将提取出的化学物质名称转化为目标形式。具体内容参见上述方法实施例,在此不再赘述。

本申请实施例还提供一种电子设备,如图4所示,处理器310和存储器320,其中处理器310和存储器320可以通过总线或者其他方式连接。

处理器310可以为中央处理器(Central Processing Unit,CPU)。处理器310还可以为其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等芯片,或者上述各类芯片的组合。

存储器320作为一种非暂态计算机可读存储介质,可用于存储非暂态软件程序、非暂态计算机可执行程序以及模块,如本发明实施例中的物质名称提取方法对应的程序指令/模块。处理器通过运行存储在存储器中的非暂态软件程序、指令以及模块,从而执行处理器的各种功能应用以及数据处理。

存储器320可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储处理器所创建的数据等。此外,存储器可以包括高速随机存取存储器,还可以包括非暂态存储器,例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施例中,存储器320可选包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至处理器。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

所述一个或者多个模块存储在所述存储器320中,当被所述处理器310执行时,执行如图1所示实施例中的物质名称提取方法。

上述电子设备的具体细节可以对应参阅图1所示的实施例中对应的相关描述和效果进行理解,此处不再赘述。

本实施例还提供了一种计算机存储介质,所述计算机存储介质存储有计算机可执行指令,该计算机可执行指令可执行上述任意方法实施例1中物质名称提取方法。其中,所述存储介质可为磁碟、光盘、只读存储记忆体(Read-OnlyMemory,ROM)、随机存储记忆体(Random Access Memory,RAM)、快闪存储器(Flash Memory)、硬盘(Hard Disk Drive,缩写:HDD)或固态硬盘(Solid-StateDrive,SSD)等;所述存储介质还可以包括上述种类的存储器的组合。

显然,上述实施例仅仅是为清楚地说明所作的举例,而并非对实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引伸出的显而易见的变化或变动仍处于本发明创造的保护范围之中。

技术分类

06120112162521