掌桥专利:专业的专利平台
掌桥专利
首页

基于云计算的创新创业平台服务数据处理方法及系统

文献发布时间:2023-06-19 19:30:30


基于云计算的创新创业平台服务数据处理方法及系统

技术领域

本发明涉及数据处理领域,且更为具体地,涉及一种基于云计算的创新创业平台服务数据处理方法及系统。

背景技术

在管理平台实际进行创新创业平台的服务数据处理中,为创业者推荐和匹配符合需求的平台各项服务资源尤为重要。但是,传统的方案只能依靠人工半自动化的方式进行推荐和匹配,或依靠机器关键词的检索匹配,导致平台服务资源的匹配推荐效率较低,且推荐和匹配的各项资源信息较为繁杂,并不具有很好的针对性,不能够满足创业者的需求。

因此,期望一种优化的创新创业平台服务数据处理方案。

发明内容

为了解决上述技术问题,提出了本发明。本发明的实施例提供了一种基于云计算的创新创业平台服务数据处理方法及系统。其首先对需求文本描述进行分词处理后通过第一上下文编码器以得到需求文本语义理解特征向量,接着,将备选服务资源的文本描述进行分词处理后通过第二上下文编码器以得到备选服务资源语义理解特征向量,然后,对所述需求文本语义理解特征向量和所述备选服务资源语义理解特征向量进行关联编码以得到匹配语义表达特征矩阵,最后,将所述匹配语义表达特征矩阵通过分类器以得到用于表示是否为创业者推荐备选服务资源的分类结果。这样,可以实现创业者需求和服务资源的精准匹配。

根据本发明的一个方面,提供了一种基于云计算的创新创业平台服务数据处理方法,其包括:

获取创业者提供的需求文本描述;

对所述需求文本描述进行分词处理后通过包含嵌入层的第一上下文编码器以得到需求文本语义理解特征向量;

获取备选服务资源的文本描述;

将所述备选服务资源的文本描述进行分词处理后通过包含嵌入层的第二上下文编码器以得到备选服务资源语义理解特征向量;

对所述需求文本语义理解特征向量和所述备选服务资源语义理解特征向量进行关联编码以得到匹配语义表达特征矩阵;

将所述匹配语义表达特征矩阵通过分类器以得到分类结果,所述分类结果用于表示是否为创业者推荐备选服务资源。

在上述的基于云计算的创新创业平台服务数据处理方法中,对所述需求文本描述进行分词处理后通过包含嵌入层的第一上下文编码器以得到需求文本语义理解特征向量,包括:

对所述需求文本描述进行分词处理以将所述需求文本描述转化为由多个词组成的第一词序列;

使用所述包含嵌入层的第一上下文编码器的嵌入层将所述第一词序列中各个词映射到词向量以获得第一词向量的序列;

使用所述包含嵌入层的第一上下文编码器的转化器对所述第一词向量的序列进行基于全局的上下文语义编码以获得所述需求文本语义理解特征向量。

在上述的基于云计算的创新创业平台服务数据处理方法中,使用所述包含嵌入层的第一上下文编码器的转化器对所述第一词向量的序列进行基于全局的上下文语义编码以获得所述需求文本语义理解特征向量,包括:

将所述第一词向量的序列进行一维排列以得到第一全局词序列特征向量;

计算所述第一全局词序列特征向量与所述第一词向量的序列中各个词向量的转置向量之间的乘积以得到多个第一自注意力关联矩阵;

分别对所述多个第一自注意力关联矩阵中各个第一自注意力关联矩阵进行标准化处理以得到多个第一标准化后自注意力关联矩阵;

将所述多个第一标准化后自注意力关联矩阵中各个第一标准化后自注意力关联矩阵通过Softmax分类函数以得到多个第一概率值;

分别以所述多个第一概率值中各个第一概率值作为权重对所述第一词向量的序列中各个第一词向量进行加权以得到所述需求文本语义理解特征向量。

在上述的基于云计算的创新创业平台服务数据处理方法中,将所述备选服务资源的文本描述进行分词处理后通过包含嵌入层的第二上下文编码器以得到备选服务资源语义理解特征向量,包括:

对所述备选服务资源的文本描述进行分词处理以将所述备选服务资源的文本描述转化为由多个词组成的第二词序列;

使用所述包含嵌入层的第二上下文编码器的嵌入层将所述第二词序列中各个词映射到词向量以获得第二词向量的序列;

使用所述包含嵌入层的第二上下文编码器的转化器对所述第二词向量的序列进行基于全局的上下文语义编码以获得所述备选服务资源语义理解特征向量。

在上述的基于云计算的创新创业平台服务数据处理方法中,对所述需求文本语义理解特征向量和所述备选服务资源语义理解特征向量进行关联编码以得到匹配语义表达特征矩阵,包括:

以如下关联编码公式对所述需求文本语义理解特征向量和所述备选服务资源语义理解特征向量进行关联编码以得到所述匹配语义表达特征矩阵;

其中,所述关联编码公式为:

其中,

在上述的基于云计算的创新创业平台服务数据处理方法中,还包括对所述包含嵌入层的第一上下文编码器、所述包含嵌入层的第二上下文编码器和所述分类器进行训练;

其中,对所述包含嵌入层的第一上下文编码器、所述包含嵌入层的第二上下文编码器和所述分类器进行训练,包括:

获取训练数据,所述训练数据包括创业者提供的训练需求文本描述,备选服务资源的训练文本描述,以及,所述是否为创业者推荐备选服务资源的真实值;

对所述训练需求文本描述进行分词处理后通过所述包含嵌入层的第一上下文编码器以得到训练需求文本语义理解特征向量;

将所述备选服务资源的训练文本描述进行分词处理后通过所述包含嵌入层的第二上下文编码器以得到训练备选服务资源语义理解特征向量;

对所述训练需求文本语义理解特征向量和所述训练备选服务资源语义理解特征向量进行关联编码以得到训练匹配语义表达特征矩阵;

对所述训练匹配语义表达特征矩阵进行本征单位化的逐位位移关联匹配优化以得到优化训练匹配语义表达特征矩阵;

将所述优化训练匹配语义表达特征矩阵通过所述分类器以得到分类损失函数值;

基于所述分类损失函数值并通过梯度下降的反向传播来对所述包含嵌入层的第一上下文编码器、所述包含嵌入层的第二上下文编码器和所述分类器进行训练。

在上述的基于云计算的创新创业平台服务数据处理方法中,对所述训练匹配语义表达特征矩阵进行本征单位化的逐位位移关联匹配优化以得到优化训练匹配语义表达特征矩阵,包括:

以如下强化公式对所述训练匹配语义表达特征矩阵进行本征单位化的逐位位移关联匹配优化以得到所述优化训练匹配语义表达特征矩阵;

其中,所述强化公式为:

其中,

在上述的基于云计算的创新创业平台服务数据处理方法中,将所述优化训练匹配语义表达特征矩阵通过所述分类器以得到分类损失函数值,包括:

使用所述分类器以如下优化公式对所述优化训练匹配语义表达特征矩阵进行处理以得到分类结果,所述优化公式为:

根据本发明的另一个方面,提供了一种基于云计算的创新创业平台服务数据处理系统,其包括:

需求文本获取模块,用于获取创业者提供的需求文本描述;

第一上下文编码模块,用于对所述需求文本描述进行分词处理后通过包含嵌入层的第一上下文编码器以得到需求文本语义理解特征向量;

备选服务资源获取模块,用于获取备选服务资源的文本描述;

第二上下文编码模块,用于将所述备选服务资源的文本描述进行分词处理后通过包含嵌入层的第二上下文编码器以得到备选服务资源语义理解特征向量;

关联编码模块,用于对所述需求文本语义理解特征向量和所述备选服务资源语义理解特征向量进行关联编码以得到匹配语义表达特征矩阵;

分类模块,用于将所述匹配语义表达特征矩阵通过分类器以得到分类结果,所述分类结果用于表示是否为创业者推荐备选服务资源。

在上述的基于云计算的创新创业平台服务数据处理系统中,所述第一上下文编码模块,用于:

对所述需求文本描述进行分词处理以将所述需求文本描述转化为由多个词组成的第一词序列;

使用所述包含嵌入层的第一上下文编码器的嵌入层将所述第一词序列中各个词映射到词向量以获得第一词向量的序列;

使用所述包含嵌入层的第一上下文编码器的转化器对所述第一词向量的序列进行基于全局的上下文语义编码以获得所述需求文本语义理解特征向量。

与现有技术相比,本发明提供的基于云计算的创新创业平台服务数据处理方法及系统,其首先对需求文本描述进行分词处理后通过第一上下文编码器以得到需求文本语义理解特征向量,接着,将备选服务资源的文本描述进行分词处理后通过第二上下文编码器以得到备选服务资源语义理解特征向量,然后,对所述需求文本语义理解特征向量和所述备选服务资源语义理解特征向量进行关联编码以得到匹配语义表达特征矩阵,最后,将所述匹配语义表达特征矩阵通过分类器以得到用于表示是否为创业者推荐备选服务资源的分类结果。这样,可以实现创业者需求和服务资源的精准匹配。

附图说明

为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员而言,在没有做出创造性劳动的前提下,还可以根据这些附图获得其他的附图。以下附图并未刻意按实际尺寸等比例缩放绘制,重点在于示出本发明的主旨。

图1为根据本发明实施例的基于云计算的创新创业平台服务数据处理方法的应用场景图;

图2为根据本发明实施例的基于云计算的创新创业平台服务数据处理方法的流程图;

图3为根据本发明实施例的基于云计算的创新创业平台服务数据处理方法的架构示意图;

图4为根据本发明实施例的基于云计算的创新创业平台服务数据处理方法的子步骤S120的流程图;

图5为根据本发明实施例的基于云计算的创新创业平台服务数据处理方法的子步骤S123的流程图;

图6为根据本发明实施例的基于云计算的创新创业平台服务数据处理方法的子步骤S140的流程图;

图7为根据本发明实施例的基于云计算的创新创业平台服务数据处理方法的训练步骤S200的流程图;

图8为根据本发明实施例的基于云计算的创新创业平台服务数据处理系统的框图。

具体实施方式

下面将结合附图对本发明实施例中的技术方案进行清楚、完整地描述,显而易见地,所描述的实施例仅仅是本发明的部分实施例,而不是全部的实施例。基于本发明实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,也属于本发明保护的范围。

如本发明和权利要求书中所示,除非上下文明确提示例外情形,“一”、“一个”、“一种”和/或“该”等词并非特指单数,也可包括复数。一般说来,术语“包括”与“包含”仅提示包括已明确标识的步骤和元素,而这些步骤和元素不构成一个排它性的罗列,方法或者设备也可能包含其他的步骤或元素。

虽然本发明对根据本发明的实施例的系统中的某些模块做出了各种引用,然而,任何数量的不同模块可以被使用并运行在用户终端和/或服务器上。所述模块仅是说明性的,并且所述系统和方法的不同方面可以使用不同模块。

本发明中使用了流程图用来说明根据本发明的实施例的系统所执行的操作。应当理解的是,前面或下面操作不一定按照顺序来精确地执行。相反,根据需要,可以按照倒序或同时处理各种步骤。同时,也可以将其他操作添加到这些过程中,或从这些过程移除某一步或数步操作。

下面,将参考附图详细地描述根据本发明的示例实施例。显然,所描述的实施例仅仅是本发明的一部分实施例,而不是本发明的全部实施例,应理解,本发明不受这里描述的示例实施例的限制。

如上所述,在管理平台实际进行创新创业平台的服务数据处理中,为创业者推荐和匹配符合需求的平台各项服务资源尤为重要。但是,传统的方案只能依靠人工半自动化的方式进行推荐和匹配,或依靠机器关键词的检索匹配,导致平台服务资源的匹配推荐效率较低,且推荐和匹配的各项资源信息较为繁杂,并不具有很好的针对性,不能够满足创业者的需求。因此,期望一种优化的创新创业平台服务数据处理方案。

相应地,考虑到为了能够为创业者推荐和匹配符合需求的平台各项服务资源,需要对于创业者提供的需求文本和备选服务资源的文本进行语义理解,以此来对于两者的语义特征信息进行匹配检测。但是,考虑到由于每个创业者的习惯不同导致其所提供的需求文本的表达方式不同,使得在进行需求语义理解时会造成偏差,进而降低服务资源推荐的精准度。因此,在此过程中,难点在于如何挖掘出创业者提供的需求文本的语义理解特征和备选服务资源的文本语义理解特征间的关联性特征分布信息,以此来对于创业的需求语义特征和服务资源的语义特征进行特征匹配,进而实现创业者需求和服务资源的精准匹配,以及时有效地为创业者推荐适宜的备选服务资源。

近年来,深度学习以及神经网络已经广泛应用于计算机视觉、自然语言处理、文本信号处理等领域。此外,深度学习以及神经网络在图像分类、物体检测、语义分割、文本翻译等领域,也展现出了接近甚至超越人类的水平。

深度学习以及神经网络的发展为挖掘创业者提供的需求文本的语义理解特征和备选服务资源的文本语义理解特征间的关联性特征分布信息提供了新的解决思路和方案。

具体地,在本发明的技术方案中,首先,获取创业者提供的需求文本描述。接着,考虑到由于所述创业者提供的需求文本描述是由多个词组成的,并且各个词之间具有着上下文的语义关联特征信息,而由于创业者的习惯不同导致所提供的需求文本描述有着不同的表达形式,难以对于其中的语义特征信息进行捕捉提取。因此,在本发明的技术方案中,为了能够充分地捕捉出所述创业者提供的需求文本描述的语义关联特征,以进行该需求描述语义特征的精准表达,进一步对所述需求文本描述进行分词处理以避免在后续语义特征提取时发生词序混乱后,将分词处理后的文本描述通过包含嵌入层的第一上下文编码器中进行编码,以提取出所述创业者提供的需求文本描述中关于创业者需求的基于全局的上下文语义关联特征信息,从而得到需求文本语义理解特征向量。

然后,获取备选服务资源的文本描述,考虑到该文本描述也是由多个词组成的语句,各个词之间也具有着上下文的语义关联特征,因此,将所述备选服务资源的文本描述进行分词处理后通过包含嵌入层的第二上下文编码器中进行编码,以此来提取出所述备选服务资源的文本描述中关于备选服务资源的基于全局的上下文语义关联特征信息,也就是,所述备选服务资源的文本语义理解特征信息,从而得到备选服务资源语义理解特征向量。

进一步地,对所述需求文本语义理解特征向量和所述备选服务资源语义理解特征向量进行关联编码以得到匹配语义表达特征矩阵,以此来表示所述创业者的需求语义理解特征和所述备选服务资源的语义理解特征间的关联性特征分布信息,即所述创业者的需求语义和所述备选服务资源的语义之间的匹配特征信息。接着,将所述匹配语义表达特征矩阵作为分类特征矩阵通过分类器,以得到用于表示是否为创业者推荐备选服务资源的分类结果。也就是,以所述创业者的需求语义和所述备选服务资源的语义之间的匹配程度来决策是否为创业者推荐备选服务资源。

具体地,在本发明的技术方案中,所述分类器的标签包括为创业者推荐备选服务资源(第一标签),以及,不为创业者推荐备选服务资源(第二标签),其中,所述分类器通过软最大值函数来确定所述分类特征矩阵属于哪个分类标签。值得注意的是,这里的所述第一标签p1和所述第二标签p2并不包含人为设定的概念,实际上在训练过程当中,计算机模型并没有“是否为创业者推荐备选服务资源”这种概念,其只是有两种分类标签且输出特征在这两个分类标签下的概率,即p1和p2之和为一。因此,是否为创业者推荐备选服务资源的分类结果实际上是通过分类标签转化为符合自然规律的二分类的类概率分布,实质上用到的是标签的自然概率分布的物理意义,而不是“是否为创业者推荐备选服务资源”的语言文本意义。应可以理解,在本发明的技术方案中,所述分类器的分类标签为是否为创业者推荐备选服务资源的控制策略标签,因此,在得到所述分类结果后,可基于所述分类结果来实现创业者需求和服务资源的精准匹配,以及时有效地为创业者推荐适宜的备选服务资源。

特别地,在本发明的技术方案中,这里,对于将所述需求文本语义理解特征向量和所述备选服务资源语义理解特征向量进行关联编码得到的所述匹配语义表达特征矩阵,由于所述创业者需求文本描述和备选服务资源文本描述之间的文本语义差异,所述需求文本语义理解特征向量和所述备选服务资源语义理解特征向量的逐位置对应性存在不均匀,这就使得对所述需求文本语义理解特征向量和所述备选服务资源语义理解特征向量进行逐位置关联编码所获得的所述匹配语义表达特征矩阵内存在由低关联性特征值编码得到的偏离整体特征分布的异常值,从而在通过分类器进行分类时影响模型的训练效果。

因此,优选地,在本发明的技术方案中,对所述匹配语义表达特征矩阵

到/>

也就是,通过基于所述匹配语义表达特征矩阵

图1为根据本发明实施例的基于云计算的创新创业平台服务数据处理方法的应用场景图。如图1所示,在该应用场景中,首先,获取创业者提供的需求文本描述(例如,图1中所示意的D1)和备选服务资源的文本描述(例如,图1中所示意的D2),然后,将所述需求文本描述和所述备选服务资源的文本描述输入至部署有用于基于云计算的创新创业平台服务数据处理算法的服务器中(例如,图1中所示意的S),其中,所述服务器能够使用所述基于云计算的创新创业平台服务数据处理算法对所述需求文本描述和所述备选服务资源的文本描述进行处理以得到用于表示是否为创业者推荐备选服务资源的分类结果。

在介绍了本发明的基本原理之后,下面将参考附图来具体介绍本发明的各种非限制性实施例。

图2为根据本发明实施例的基于云计算的创新创业平台服务数据处理方法的流程图。如图2所示,根据本发明实施例的基于云计算的创新创业平台服务数据处理方法,包括步骤:S110,获取创业者提供的需求文本描述;S120,对所述需求文本描述进行分词处理后通过包含嵌入层的第一上下文编码器以得到需求文本语义理解特征向量;S130,获取备选服务资源的文本描述;S140,将所述备选服务资源的文本描述进行分词处理后通过包含嵌入层的第二上下文编码器以得到备选服务资源语义理解特征向量;S150,对所述需求文本语义理解特征向量和所述备选服务资源语义理解特征向量进行关联编码以得到匹配语义表达特征矩阵;以及,S160,将所述匹配语义表达特征矩阵通过分类器以得到分类结果,所述分类结果用于表示是否为创业者推荐备选服务资源。

图3为根据本发明实施例的基于云计算的创新创业平台服务数据处理方法的架构示意图。如图3所示,在该网络架构中,首先,获取创业者提供的需求文本描述;接着,对所述需求文本描述进行分词处理后通过包含嵌入层的第一上下文编码器以得到需求文本语义理解特征向量;然后,获取备选服务资源的文本描述;接着,将所述备选服务资源的文本描述进行分词处理后通过包含嵌入层的第二上下文编码器以得到备选服务资源语义理解特征向量;然后,对所述需求文本语义理解特征向量和所述备选服务资源语义理解特征向量进行关联编码以得到匹配语义表达特征矩阵;最后,将所述匹配语义表达特征矩阵通过分类器以得到分类结果,所述分类结果用于表示是否为创业者推荐备选服务资源。

更具体地,在步骤S110中,获取创业者提供的需求文本描述;在步骤S130中,获取备选服务资源的文本描述。在管理平台实际进行创新创业平台的服务数据处理中,为了能够为创业者推荐和匹配符合需求的平台各项服务资源,需要对于创业者提供的需求文本和备选服务资源的文本进行语义理解,以此来对于两者的语义特征信息进行匹配检测。但是,考虑到由于每个创业者的习惯不同导致其所提供的需求文本的表达方式不同,使得在进行需求语义理解时会造成偏差,进而降低服务资源推荐的精准度。因此,在本发明的技术方案中,通过挖掘创业者提供的需求文本的语义理解特征和备选服务资源的文本语义理解特征间的关联性特征分布信息,以此来对于创业的需求语义特征和服务资源的语义特征进行特征匹配,进而实现创业者需求和服务资源的精准匹配,以及时有效地为创业者推荐适宜的备选服务资源。

更具体地,在步骤S120中,对所述需求文本描述进行分词处理后通过包含嵌入层的第一上下文编码器以得到需求文本语义理解特征向量。由于所述创业者提供的需求文本描述是由多个词组成的,并且各个词之间具有着上下文的语义关联特征信息,而由于创业者的习惯不同导致所提供的需求文本描述有着不同的表达形式,难以对于其中的语义特征信息进行捕捉提取。因此,在本发明的技术方案中,为了能够充分地捕捉出所述创业者提供的需求文本描述的语义关联特征,以进行该需求描述语义特征的精准表达,进一步对所述需求文本描述进行分词处理以避免在后续语义特征提取时发生词序混乱后,将分词处理后的文本描述通过包含嵌入层的第一上下文编码器中进行编码,以提取出所述创业者提供的需求文本描述中关于创业者需求的基于全局的上下文语义关联特征信息,从而得到需求文本语义理解特征向量。

应可以理解,通过上下文编码器,可以分析向量表示序列中的某个分词与其他分词之间的关系,以得到相应的特征信息。上下文编码器旨在挖掘得到词序列中上下文之间的隐藏模式,可选地,编码器包括:CNN(Convolutional Neural Network,卷积神经网络)、Recursive NN(RecursiveNeural Network,递归神经网络)、语言模型(Language Model)等。基于CNN的方法对于局部特征有比较好的提取效果,但其对于句子中的长程依赖(Long-term Dependency)问题效果欠佳,因此基于Bi-LSTM(Long Short- Term Memory,长短期记忆网络)的编码器被广泛使用。Recursive NN把句子当作树状结构而非序列进行处理,从理论上而言具有更强的表示能力,但其存在样本标注难度大、深层易梯度消失、难以并行计算等弱点,因此在实际应用中使用较少。Transformer是应用广泛的网络结构了,同时具有CNN和RNN的特性,对于全局特征有较好的提取效果,同时相较于RNN(RecurrentNeuralNetwork,循环神经网络)在并行计算上具有一定优势。

相应地,在一个具体示例中,如图4所示,对所述需求文本描述进行分词处理后通过包含嵌入层的第一上下文编码器以得到需求文本语义理解特征向量,包括:S121,对所述需求文本描述进行分词处理以将所述需求文本描述转化为由多个词组成的第一词序列;S122,使用所述包含嵌入层的第一上下文编码器的嵌入层将所述第一词序列中各个词映射到词向量以获得第一词向量的序列;以及,S123,使用所述包含嵌入层的第一上下文编码器的转化器对所述第一词向量的序列进行基于全局的上下文语义编码以获得所述需求文本语义理解特征向量。

相应地,在一个具体示例中,如图5所示,使用所述包含嵌入层的第一上下文编码器的转化器对所述第一词向量的序列进行基于全局的上下文语义编码以获得所述需求文本语义理解特征向量,包括:S1231,将所述第一词向量的序列进行一维排列以得到第一全局词序列特征向量;S1232,计算所述第一全局词序列特征向量与所述第一词向量的序列中各个词向量的转置向量之间的乘积以得到多个第一自注意力关联矩阵;S1233,分别对所述多个第一自注意力关联矩阵中各个第一自注意力关联矩阵进行标准化处理以得到多个第一标准化后自注意力关联矩阵;S1234,将所述多个第一标准化后自注意力关联矩阵中各个第一标准化后自注意力关联矩阵通过Softmax分类函数以得到多个第一概率值;以及,S1235,分别以所述多个第一概率值中各个第一概率值作为权重对所述第一词向量的序列中各个第一词向量进行加权以得到所述需求文本语义理解特征向量。

更具体地,在步骤S140中,将所述备选服务资源的文本描述进行分词处理后通过包含嵌入层的第二上下文编码器以得到备选服务资源语义理解特征向量。所述备选服务资源的文本描述也是由多个词组成的语句,各个词之间也具有着上下文的语义关联特征,因此,将所述备选服务资源的文本描述进行分词处理后通过包含嵌入层的第二上下文编码器中进行编码,以此来提取出所述备选服务资源的文本描述中关于备选服务资源的基于全局的上下文语义关联特征信息,也就是,所述备选服务资源的文本语义理解特征信息,从而得到备选服务资源语义理解特征向量。

相应地,在一个具体示例中,如图6所示,将所述备选服务资源的文本描述进行分词处理后通过包含嵌入层的第二上下文编码器以得到备选服务资源语义理解特征向量,包括:S141,对所述备选服务资源的文本描述进行分词处理以将所述备选服务资源的文本描述转化为由多个词组成的第二词序列;S142,使用所述包含嵌入层的第二上下文编码器的嵌入层将所述第二词序列中各个词映射到词向量以获得第二词向量的序列;以及,S143,使用所述包含嵌入层的第二上下文编码器的转化器对所述第二词向量的序列进行基于全局的上下文语义编码以获得所述备选服务资源语义理解特征向量。

相应地,在一个具体示例中,使用所述包含嵌入层的第二上下文编码器的转化器对所述第二词向量的序列进行基于全局的上下文语义编码以获得所述备选服务资源语义理解特征向量,包括:将所述第二词向量的序列进行一维排列以得到第二全局词序列特征向量;计算所述第二全局词序列特征向量与所述第二词向量的序列中各个词向量的转置向量之间的乘积以得到多个第二自注意力关联矩阵;分别对所述多个第二自注意力关联矩阵中各个第二自注意力关联矩阵进行标准化处理以得到多个第二标准化后自注意力关联矩阵;将所述多个第二标准化后自注意力关联矩阵中各个第二标准化后自注意力关联矩阵通过Softmax分类函数以得到多个第二概率值;以及,分别以所述多个第二概率值中各个第二概率值作为权重对所述第二词向量的序列中各个第二词向量进行加权以得到所述备选服务资源语义理解特征向量。

更具体地,在步骤S150中,对所述需求文本语义理解特征向量和所述备选服务资源语义理解特征向量进行关联编码以得到匹配语义表达特征矩阵。以此来表示所述创业者的需求语义理解特征和所述备选服务资源的语义理解特征间的关联性特征分布信息,即所述创业者的需求语义和所述备选服务资源的语义之间的匹配特征信息。

相应地,在一个具体示例中,对所述需求文本语义理解特征向量和所述备选服务资源语义理解特征向量进行关联编码以得到匹配语义表达特征矩阵,包括:以如下关联编码公式对所述需求文本语义理解特征向量和所述备选服务资源语义理解特征向量进行关联编码以得到所述匹配语义表达特征矩阵;其中,所述关联编码公式为:

其中,

更具体地,在步骤S160中,将所述匹配语义表达特征矩阵通过分类器以得到分类结果,所述分类结果用于表示是否为创业者推荐备选服务资源。也就是,以所述创业者的需求语义和所述备选服务资源的语义之间的匹配程度来决策是否为创业者推荐备选服务资源。应可以理解,在本发明的技术方案中,所述分类器的分类标签为是否为创业者推荐备选服务资源的控制策略标签,因此,在得到所述分类结果后,可基于所述分类结果来实现创业者需求和服务资源的精准匹配,以及时有效地为创业者推荐适宜的备选服务资源。

应可以理解,分类器的作用是利用给定的类别、已知的训练数据来学习分类规则和分类器,然后对未知数据进行分类(或预测)。逻辑回归(logistics)、SVM等常用于解决二分类问题,对于多分类问题(multi-class classification),同样也可以用逻辑回归或SVM,只是需要多个二分类来组成多分类,但这样容易出错且效率不高,常用的多分类方法有Softmax分类函数。

相应地,在一个具体示例中,所述的基于云计算的创新创业平台服务数据处理方法,其特征在于,还包括对所述包含嵌入层的第一上下文编码器、所述包含嵌入层的第二上下文编码器和所述分类器进行训练;其中,如图7所示,对所述包含嵌入层的第一上下文编码器、所述包含嵌入层的第二上下文编码器和所述分类器进行训练,包括:S210,获取训练数据,所述训练数据包括创业者提供的训练需求文本描述,备选服务资源的训练文本描述,以及,所述是否为创业者推荐备选服务资源的真实值;S220,对所述训练需求文本描述进行分词处理后通过所述包含嵌入层的第一上下文编码器以得到训练需求文本语义理解特征向量;S230,将所述备选服务资源的训练文本描述进行分词处理后通过所述包含嵌入层的第二上下文编码器以得到训练备选服务资源语义理解特征向量;S240,对所述训练需求文本语义理解特征向量和所述训练备选服务资源语义理解特征向量进行关联编码以得到训练匹配语义表达特征矩阵;S250,对所述训练匹配语义表达特征矩阵进行本征单位化的逐位位移关联匹配优化以得到优化训练匹配语义表达特征矩阵;S260,将所述优化训练匹配语义表达特征矩阵通过所述分类器以得到分类损失函数值;以及,S270,基于所述分类损失函数值并通过梯度下降的反向传播来对所述包含嵌入层的第一上下文编码器、所述包含嵌入层的第二上下文编码器和所述分类器进行训练。

特别地,在本发明的技术方案中,这里,对于将所述需求文本语义理解特征向量和所述备选服务资源语义理解特征向量进行关联编码得到的所述匹配语义表达特征矩阵,由于所述创业者需求文本描述和备选服务资源文本描述之间的文本语义差异,所述需求文本语义理解特征向量和所述备选服务资源语义理解特征向量的逐位置对应性存在不均匀,这就使得对所述需求文本语义理解特征向量和所述备选服务资源语义理解特征向量进行逐位置关联编码所获得的所述匹配语义表达特征矩阵内存在由低关联性特征值编码得到的偏离整体特征分布的异常值,从而在通过分类器进行分类时影响模型的训练效果。因此,优选地,在本发明的技术方案中,对所述匹配语义表达特征矩阵进行本征单位化的逐位位移关联匹配优化。

相应地,在一个具体示例中,对所述训练匹配语义表达特征矩阵进行本征单位化的逐位位移关联匹配优化以得到优化训练匹配语义表达特征矩阵,包括:以如下强化公式对所述训练匹配语义表达特征矩阵进行本征单位化的逐位位移关联匹配优化以得到所述优化训练匹配语义表达特征矩阵;其中,所述强化公式为:

其中,

也就是,通过基于所述匹配语义表达特征矩阵的本征分解获得的所述本征单位化矩阵来对所述匹配语义表达特征矩阵进行逐位位移关联,并以所述匹配语义表达特征矩阵相对本征单位化空间内的投影距离来进行特征关联关系的匹配,就可以解决模型参数在反向传播时,由于所述匹配语义表达特征矩阵的局部异常特征的关联性分布弱而导致的优化方向的不匹配问题,避免由所述匹配语义表达特征矩阵的处于分类目标域边缘的特征值被失配地约束在相反的优化方向,导致训练效果变差。这样,能够对于创业者的需求和服务资源进行精准匹配,从而优化创新创业平台服务数据处理,以及时有效地为创业者推荐适宜的备选服务资源。

相应地,在一个具体示例中,将所述优化训练匹配语义表达特征矩阵通过所述分类器以得到分类损失函数值,包括:使用所述分类器以如下优化公式对所述优化训练匹配语义表达特征矩阵进行处理以得到分类结果,所述优化公式为:

综上,基于本发明实施例的基于云计算的创新创业平台服务数据处理方法,其首先对需求文本描述进行分词处理后通过第一上下文编码器以得到需求文本语义理解特征向量,接着,将备选服务资源的文本描述进行分词处理后通过第二上下文编码器以得到备选服务资源语义理解特征向量,然后,对所述需求文本语义理解特征向量和所述备选服务资源语义理解特征向量进行关联编码以得到匹配语义表达特征矩阵,最后,将所述匹配语义表达特征矩阵通过分类器以得到用于表示是否为创业者推荐备选服务资源的分类结果。这样,可以实现创业者需求和服务资源的精准匹配。

图8为根据本发明实施例的基于云计算的创新创业平台服务数据处理系统100的框图。如图8所示,根据本发明实施例的基于云计算的创新创业平台服务数据处理系统100,包括:需求文本获取模块110,用于获取创业者提供的需求文本描述;第一上下文编码模块120,用于对所述需求文本描述进行分词处理后通过包含嵌入层的第一上下文编码器以得到需求文本语义理解特征向量;备选服务资源获取模块130,用于获取备选服务资源的文本描述;第二上下文编码模块140,用于将所述备选服务资源的文本描述进行分词处理后通过包含嵌入层的第二上下文编码器以得到备选服务资源语义理解特征向量;关联编码模块150,用于对所述需求文本语义理解特征向量和所述备选服务资源语义理解特征向量进行关联编码以得到匹配语义表达特征矩阵;以及,分类模块160,用于将所述匹配语义表达特征矩阵通过分类器以得到分类结果,所述分类结果用于表示是否为创业者推荐备选服务资源。

在一个示例中,在上述基于云计算的创新创业平台服务数据处理系统100中,所述第一上下文编码模块120,用于:对所述需求文本描述进行分词处理以将所述需求文本描述转化为由多个词组成的第一词序列;使用所述包含嵌入层的第一上下文编码器的嵌入层将所述第一词序列中各个词映射到词向量以获得第一词向量的序列;以及,使用所述包含嵌入层的第一上下文编码器的转化器对所述第一词向量的序列进行基于全局的上下文语义编码以获得所述需求文本语义理解特征向量。

在一个示例中,在上述基于云计算的创新创业平台服务数据处理系统100中,使用所述包含嵌入层的第一上下文编码器的转化器对所述第一词向量的序列进行基于全局的上下文语义编码以获得所述需求文本语义理解特征向量,包括:将所述第一词向量的序列进行一维排列以得到第一全局词序列特征向量;计算所述第一全局词序列特征向量与所述第一词向量的序列中各个词向量的转置向量之间的乘积以得到多个第一自注意力关联矩阵;分别对所述多个第一自注意力关联矩阵中各个第一自注意力关联矩阵进行标准化处理以得到多个第一标准化后自注意力关联矩阵;将所述多个第一标准化后自注意力关联矩阵中各个第一标准化后自注意力关联矩阵通过Softmax分类函数以得到多个第一概率值;以及,分别以所述多个第一概率值中各个第一概率值作为权重对所述第一词向量的序列中各个第一词向量进行加权以得到所述需求文本语义理解特征向量。

在一个示例中,在上述基于云计算的创新创业平台服务数据处理系统100中,所述第二上下文编码模块140,用于:对所述备选服务资源的文本描述进行分词处理以将所述备选服务资源的文本描述转化为由多个词组成的第二词序列;使用所述包含嵌入层的第二上下文编码器的嵌入层将所述第二词序列中各个词映射到词向量以获得第二词向量的序列;以及,使用所述包含嵌入层的第二上下文编码器的转化器对所述第二词向量的序列进行基于全局的上下文语义编码以获得所述备选服务资源语义理解特征向量。

在一个示例中,在上述基于云计算的创新创业平台服务数据处理系统100中,所述关联编码模块150,用于:以如下关联编码公式对所述需求文本语义理解特征向量和所述备选服务资源语义理解特征向量进行关联编码以得到所述匹配语义表达特征矩阵;其中,所述关联编码公式为:

其中,

在一个示例中,在上述基于云计算的创新创业平台服务数据处理系统100中,还包括对所述包含嵌入层的第一上下文编码器、所述包含嵌入层的第二上下文编码器和所述分类器进行训练的训练模块;其中,所述训练模块,用于:获取训练数据,所述训练数据包括创业者提供的训练需求文本描述,备选服务资源的训练文本描述,以及,所述是否为创业者推荐备选服务资源的真实值;对所述训练需求文本描述进行分词处理后通过所述包含嵌入层的第一上下文编码器以得到训练需求文本语义理解特征向量;将所述备选服务资源的训练文本描述进行分词处理后通过所述包含嵌入层的第二上下文编码器以得到训练备选服务资源语义理解特征向量;对所述训练需求文本语义理解特征向量和所述训练备选服务资源语义理解特征向量进行关联编码以得到训练匹配语义表达特征矩阵;对所述训练匹配语义表达特征矩阵进行本征单位化的逐位位移关联匹配优化以得到优化训练匹配语义表达特征矩阵;将所述优化训练匹配语义表达特征矩阵通过所述分类器以得到分类损失函数值;以及,基于所述分类损失函数值并通过梯度下降的反向传播来对所述包含嵌入层的第一上下文编码器、所述包含嵌入层的第二上下文编码器和所述分类器进行训练。

在一个示例中,在上述基于云计算的创新创业平台服务数据处理系统100中,对所述训练匹配语义表达特征矩阵进行本征单位化的逐位位移关联匹配优化以得到优化训练匹配语义表达特征矩阵,包括:以如下强化公式对所述训练匹配语义表达特征矩阵进行本征单位化的逐位位移关联匹配优化以得到所述优化训练匹配语义表达特征矩阵;其中,所述强化公式为:

其中,

在一个示例中,在上述基于云计算的创新创业平台服务数据处理系统100中,将所述优化训练匹配语义表达特征矩阵通过所述分类器以得到分类损失函数值,包括:实用所述分类器以如下优化公式对所述优化训练匹配语义表达特征矩阵进行处理以得到分类结果,所述优化公式为:

这里,本领域技术人员可以理解,上述基于云计算的创新创业平台服务数据处理系统100中的各个单元和模块的具体功能和操作已经在上面参考图1到图7的基于云计算的创新创业平台服务数据处理方法的描述中得到了详细介绍,并因此,将省略其重复描述。

如上所述,根据本发明实施例的基于云计算的创新创业平台服务数据处理系统100可以实现在各种无线终端中,例如具有基于云计算的创新创业平台服务数据处理算法的服务器等。在一个示例中,根据本发明实施例的基于云计算的创新创业平台服务数据处理系统100可以作为一个软件模块和/或硬件模块而集成到无线终端中。例如,该基于云计算的创新创业平台服务数据处理系统100可以是该无线终端的操作系统中的一个软件模块,或者可以是针对于该无线终端所开发的一个应用程序;当然,该基于云计算的创新创业平台服务数据处理系统100同样可以是该无线终端的众多硬件模块之一。

替换地,在另一示例中,该基于云计算的创新创业平台服务数据处理系统100与该无线终端也可以是分立的设备,并且该基于云计算的创新创业平台服务数据处理系统100可以通过有线和/或无线网络连接到该无线终端,并且按照约定的数据格式来传输交互信息。

根据本发明的另一方面,还提供了一种非易失性的计算机可读存储介质,其上存储有计算机可读的指令,当利用计算机执行所述指令时可以执行如前所述的方法。

技术中的程序部分可以被认为是以可执行的代码和/或相关数据的形式而存在的“产品”或“制品”,通过计算机可读的介质所参与或实现的。有形的、永久的储存介质可以包括任何计算机、处理器、或类似设备或相关的模块所用到的内存或存储器。例如,各种半导体存储器、磁带驱动器、磁盘驱动器或者类似任何能够为软件提供存储功能的设备。

所有软件或其中的一部分有时可能会通过网络进行通信,如互联网或其他通信网络。此类通信可以将软件从一个计算机设备或处理器加载到另一个。例如:从视频目标检测设备的一个服务器或主机计算机加载至一个计算机环境的硬件平台,或其他实现系统的计算机环境,或与提供目标检测所需要的信息相关的类似功能的系统。因此,另一种能够传递软件元素的介质也可以被用作局部设备之间的物理连接,例如光波、电波、电磁波等,通过电缆、光缆或者空气等实现传播。用来载波的物理介质如电缆、无线连接或光缆等类似设备,也可以被认为是承载软件的介质。在这里的用法除非限制了有形的“储存”介质,其他表示计算机或机器“可读介质”的术语都表示在处理器执行任何指令的过程中参与的介质。

本发明使用了特定词语来描述本发明的实施例。如“第一/第二实施例”、“一实施例”、和/或“一些实施例”意指与本发明至少一个实施例相关的某一特征、结构或特点。因此,应强调并注意的是,本说明书中在不同位置两次或多次提及的“一实施例”或“一个实施例”或“一替代性实施例”并不一定是指同一实施例。此外,本发明的一个或多个实施例中的某些特征、结构或特点可以进行适当的组合。

此外,本领域技术人员可以理解,本发明的各方面可以通过若干具有可专利性的种类或情况进行说明和描述,包括任何新的和有用的工序、机器、产品或物质的组合,或对他们的任何新的和有用的改进。相应地,本发明的各个方面可以完全由硬件执行、可以完全由软件(包括固件、常驻软件、微码等)执行、也可以由硬件和软件组合执行。以上硬件或软件均可被称为“数据块”、“模块”、“引擎”、“单元”、“组件”或“系统”。此外,本发明的各方面可能表现为位于一个或多个计算机可读介质中的计算机产品,该产品包括计算机可读程序编码。

除非另有定义,这里使用的所有术语(包括技术和科学术语)具有与本发明所属领域的普通技术人员共同理解的相同含义。还应当理解,诸如在通常字典里定义的那些术语应当被解释为具有与它们在相关技术的上下文中的含义相一致的含义,而不应用理想化或极度形式化的意义来解释,除非这里明确地这样定义。

上面是对本发明的说明,而不应被认为是对其的限制。尽管描述了本发明的若干示例性实施例,但本领域技术人员将容易地理解,在不背离本发明的新颖教学和优点的前提下可以对示例性实施例进行许多修改。因此,所有这些修改都意图包含在权利要求书所限定的本发明范围内。应当理解,上面是对本发明的说明,而不应被认为是限于所公开的特定实施例,并且对所公开的实施例以及其他实施例的修改意图包含在所附权利要求书的范围内。本发明由权利要求书及其等效物限定。

相关技术
  • 一种基于云计算的创新创业平台智慧服务方法与系统
  • 基于云计算和区块链服务的数据处理方法、系统及平台
技术分类

06120115938336