掌桥专利:专业的专利平台
掌桥专利
首页

一种基于多模态信息的航运数据抽取方法及系统

文献发布时间:2024-04-18 20:01:55


一种基于多模态信息的航运数据抽取方法及系统

技术领域

本发明属于航运数据抽取技术领域,更具体地,涉及一种基于多模态信息的航运数据抽取方法及系统。

背景技术

现有技术中关于航运数据的抽取方法基本都是对单一数据进行抽取,但是现实中航运数据多为多模态信息,多模态的航运数据抽取是指从多种不同类型的数据源中提取有关航运领域的信息的技术方法。这些数据源可以包括航运结构化数据、航运图像数据和航运视频数据等多种形式的数据。

因此亟需一种基于多模态信息的航运数据抽取方法。

发明内容

为解决以上技术特征,本发明提出一种基于多模态信息的航运数据抽取方法,包括:

获取航运数据的样本,所述样本包括:航运结构化数据、航运图像数据和航运视频数据,对所述航运结构化数据、所述航运图像数据和所述航运视频数据分别进行预处理,生成预处理后的航运结构化数据、预处理后的航运图像数据和预处理后的航运视频数据;

分别提取预处理后的航运结构化数据的航运结构化数据特征、预处理后的航运图像数据的航运图像特征和预处理后的航运视频数据的航运视频数据特征,设置多模态关联性模型,计算所述航运结构化数据特征、所述航运图像特征和所述航运视频数据特征之间的关联性度量,根据所述关联性度量,将所述航运结构化数据特征、所述航运图像特征和所述航运视频数据特征进行特征融合,对融合后的特征进行特征抽取。

进一步的,对所述航运结构化数据、所述航运图像数据和所述航运视频数据分别进行预处理包括:

对于所述航运结构化数据,进行去噪操作;

对于所述航运图像数据,进行图像增强操作和尺寸标准化操作;

对于航运视频数据,进行视频信号增强操作。

进一步的,所述多模态关联性模型包括:

C=W

其中,C为关联性度量,W

进一步的,还包括设置航运数据抽取效率模型,计算航运数据抽取效率,具体为:

其中,E

进一步的,还包括在航运数据抽取效率模型的基础上,设置航运数据抽取指数模型,计算航运数据抽取指数,具体为:

其中,E′为航运数据抽取指数,N为样本数量。

本发明还提出一种基于多模态信息的航运数据抽取系统,包括:

获取样本模块,用于获取航运数据的样本,所述样本包括:航运结构化数据、航运图像数据和航运视频数据,对所述航运结构化数据、所述航运图像数据和所述航运视频数据分别进行预处理,生成预处理后的航运结构化数据、预处理后的航运图像数据和预处理后的航运视频数据;

抽取特征模块,用于分别提取预处理后的航运结构化数据的航运结构化数据特征、预处理后的航运图像数据的航运图像特征和预处理后的航运视频数据的航运视频数据特征,设置多模态关联性模型,计算所述航运结构化数据特征、所述航运图像特征和所述航运视频数据特征之间的关联性度量,根据所述关联性度量,将所述航运结构化数据特征、所述航运图像特征和所述航运视频数据特征进行特征融合,对融合后的特征进行特征抽取。

进一步的,对所述航运结构化数据、所述航运图像数据和所述航运视频数据分别进行预处理包括:

对于所述航运结构化数据,进行去噪操作;

对于所述航运图像数据,进行图像增强操作和尺寸标准化操作;

对于航运视频数据,进行视频信号增强操作。

进一步的,所述多模态关联性模型包括:

C=W

其中,C为关联性度量,W

进一步的,还包括设置航运数据抽取效率模型,计算航运数据抽取效率,具体为:

其中,E

进一步的,还包括在航运数据抽取效率模型的基础上,设置航运数据抽取指数模型,计算航运数据抽取指数,具体为:

其中,E′为航运数据抽取指数,N为样本数量。

总体而言,通过本发明所构思的以上技术方案与现有技术相比,具有以下有益效果:

本发明获取航运数据的样本,所述样本包括:航运结构化数据、航运图像数据和航运视频数据,对所述航运结构化数据、所述航运图像数据和所述航运视频数据分别进行预处理,生成预处理后的航运结构化数据、预处理后的航运图像数据和预处理后的航运视频数据;分别提取预处理后的航运结构化数据的航运结构化数据特征、预处理后的航运图像数据的航运图像特征和预处理后的航运视频数据的航运视频数据特征,设置多模态关联性模型,计算所述航运结构化数据特征、所述航运图像特征和所述航运视频数据特征之间的关联性度量,根据所述关联性度量,将所述航运结构化数据特征、所述航运图像特征和所述航运视频数据特征进行特征融合,对融合后的特征进行特征抽取。本发明通过以上技术方案,能够自动对包含多模态信息的航运数据进行抽取,并判断抽取效率和指数。

附图说明

图1是本发明实施例1的方法的流程图;

图2是本发明实施例2的系统的结构图。

具体实施方式

为了更好的理解上述技术方案,下面将结合说明书附图以及具体的实施方式对上述技术方案做详细的说明。

本发明提供的方法可以在如下的终端环境中实施,所述终端可以包括一个或多个如下部件:处理器、存储介质和显示屏。其中,存储介质中存储有至少一条指令,所述指令由处理器加载并执行以实现下述实施例所述的方法。

处理器可以包括一个或者多个处理核心。处理器利用各种接口和线路连接整个终端内的各个部分,通过运行或执行存储在存储介质内的指令、程序、代码集或指令集,以及调用存储在存储介质内的数据,执行终端的各种功能和处理数据。

存储介质可以包括随机存储介质(Random Access Memory,RAM),也可以包括只读存储介质(Read-Only Memory,ROM)。存储介质可用于存储指令、程序、代码、代码集或指令。

显示屏用于显示各个应用程序的用户界面。

本发明公式中所有下角标只为了区分个参数,并没有实际含义。

除此之外,本领域技术人员可以理解,上述终端的结构并不构成对终端的限定,终端可以包括更多或更少的部件,或者组合某些部件,或者不同的部件布置。比如,终端中还包括射频电路、输入单元、传感器、音频电路、电源等部件,在此不再赘述。

实施例1

如图1所示,本发明实施例提供一种基于多模态信息的航运数据抽取方法,包括:

步骤101,获取航运数据的样本,收集来自不同数据源的多模态数据,例如航运报告文本(航运结构化数据)、航运图像、声音记录等,将这些数据整合到一个统一的存储库中。所述样本包括:航运结构化数据、航运图像数据和航运视频数据,对所述航运结构化数据、所述航运图像数据和所述航运视频数据分别进行预处理,生成预处理后的航运结构化数据、预处理后的航运图像数据和预处理后的航运视频数据,具体的,对所述航运结构化数据、所述航运图像数据和所述航运视频数据分别进行预处理包括:

对于所述航运结构化数据,进行去噪操作;

对于所述航运图像数据,进行图像增强操作和尺寸标准化操作;

对于航运视频数据,进行视频信号增强操作。

步骤102,分别提取预处理后的航运结构化数据的航运结构化数据特征、预处理后的航运图像数据的航运图像特征和预处理后的航运视频数据的航运视频数据特征(例如,对于航运结构化数据,可以使用词袋模型、TF-IDF等方法提取航运结构化数据特征;对于图像数据,可以使用卷积神经网络(CNN)提取图像特征;对于航运视频数据,可以使用声音处理技术提取航运视频数据特征),设置多模态关联性模型,计算所述航运结构化数据特征、所述航运图像特征和所述航运视频数据特征之间的关联性度量,根据所述关联性度量,将所述航运结构化数据特征、所述航运图像特征和所述航运视频数据特征进行特征融合,对融合后的特征进行特征抽取。

具体的,在本实施例中的一个实例为有航运结构化数据(T)、航运图像数据(I)和航运视频数据(A),并且希望从中抽取船舶的状态信息,在这个实例中,定义不同数据类型之间的关联性为船舶的位置和状态,假设:

C

C

C

通过所述多模态关联性模型分别计算C

C=W

其中,C为关联性度量,W

具体的,还包括设置航运数据抽取效率模型,计算航运数据抽取效率,具体为:

其中,E

具体的,还包括在航运数据抽取效率模型的基础上,设置航运数据抽取指数模型,计算航运数据抽取指数,具体为:

其中,E′为航运数据抽取指数,N为样本数量。

实施例2

如图2所示,本发明实施例还提供一种基于多模态信息的航运数据抽取系统,包括:

获取样本模块,用于获取航运数据的样本,收集来自不同数据源的多模态数据,例如航运报告文本(航运结构化数据)、航运图像、声音记录等,将这些数据整合到一个统一的存储库中。所述样本包括:航运结构化数据、航运图像数据和航运视频数据,对所述航运结构化数据、所述航运图像数据和所述航运视频数据分别进行预处理,生成预处理后的航运结构化数据、预处理后的航运图像数据和预处理后的航运视频数据,具体的,对所述航运结构化数据、所述航运图像数据和所述航运视频数据分别进行预处理包括:

对于所述航运结构化数据,进行去噪操作;

对于所述航运图像数据,进行图像增强操作和尺寸标准化操作;

对于航运视频数据,进行视频信号增强操作。

抽取特征模块,用于分别提取预处理后的航运结构化数据的航运结构化数据特征、预处理后的航运图像数据的航运图像特征和预处理后的航运视频数据的航运视频数据特征(例如,对于航运结构化数据,可以使用词袋模型、TF-IDF等方法提取航运结构化数据特征;对于图像数据,可以使用卷积神经网络(CNN)提取图像特征;对于航运视频数据,可以使用声音处理技术提取航运视频数据特征),设置多模态关联性模型,计算所述航运结构化数据特征、所述航运图像特征和所述航运视频数据特征之间的关联性度量,根据所述关联性度量,将所述航运结构化数据特征、所述航运图像特征和所述航运视频数据特征进行特征融合,对融合后的特征进行特征抽取。

具体的,在本实施例中的一个实例为有航运结构化数据(T)、航运图像数据(I)和航运视频数据(A),并且希望从中抽取船舶的状态信息,在这个实例中,定义不同数据类型之间的关联性为船舶的位置和状态,假设:

C

C

C

通过所述多模态关联性模型分别计算C

C=W

其中,C为关联性度量,W

具体的,还包括设置航运数据抽取效率模型,计算航运数据抽取效率,具体为:

其中,E

具体的,还包括在航运数据抽取效率模型的基础上,设置航运数据抽取指数模型,计算航运数据抽取指数,具体为:

其中,E′为航运数据抽取指数,N为样本数量。

实施例3

本发明实施例还提出一种存储介质,存储有多条指令,所述指令用于实现所述的一种基于多模态信息的航运数据抽取方法。

可选地,在本实施例中,上述存储介质可以位于计算机网络中计算机终端群中的任意一个计算机终端中,或者位于移动终端群中的任意一个移动终端中。

可选地,在本实施例中,存储介质被设置为存储用于执行实施例1方法的程序代码;

实施例4

本发明实施例还提出一种电子设备,包括处理器和与所述处理器连接的存储介质,所述存储介质存储有多条指令,所述指令可被所述处理器加载并执行,以使所述处理器能够执行一种基于多模态信息的航运数据抽取方法。

具体的,本实施例的电子设备可以是计算机终端,所述计算机终端可以包括:一个或多个处理器、以及存储介质。

其中,存储介质可用于存储软件程序以及模块,如本发明实施例中的一种基于多模态信息的航运数据抽取方法,对应的程序指令/模块,处理器通过运行存储在存储介质内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的一种基于多模态信息的航运数据抽取方法。存储介质可包括高速随机存储介质,还可以包括非易失性存储介质,如一个或者多个磁性存储系统、闪存、或者其他非易失性固态存储介质。在一些实例中,存储介质可进一步包括相对于处理器远程设置的存储介质,这些远程存储介质可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

处理器可以通过传输系统调用存储介质存储的信息及应用程序,以执行实施例1方法步骤;

上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。

在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。

在本发明所提供的几个实施例中,应所述理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的系统实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者所述技术方案的全部或部分可以以软件产品的形式体现出来,所述计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储介质(ROM,Read-Only Memory)、随机存取存储介质(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

显然,上述实施例仅仅是为清楚地说明所作的举例,而并非对实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引伸出的显而易见的变化或变动仍处于本发明创造的保护范围之中。

技术分类

06120116571416