掌桥专利:专业的专利平台
掌桥专利
首页

技术领域

本发明涉及交通数据处理领域,尤其是涉及一种基于图结构的交通全领域数据检索方法、装置及介质。

背景技术

目前常见的交通领域的数据具有以下特点:

1、数据表示格式多为针对某一细分领域的特定语言(DSL)专门化设计,在大交通领域的不同应用方向没有很好地通用性。

2、数据表示多用于一种尺度,例如围观尺度的驾驶行为数据表示、中观尺度的道路车辆轨迹、宏观尺度的路网交通流分布等,缺少一种跨尺度表示交通数据的表示方法。

3、数据表示多基于XML、CSV、Json等序列式数据形式,而交通领域中的应用,经常涉及依据数据对象之间各种复杂关系的查询和操作,序列式数据形式对这种复杂的关系模态的处理效率较低。

当涉及到交通仿真、自动驾驶仿真和决策等任务时,场景工程的重要性以及统一数据的依赖是不容忽视的。这些任务的复杂性和准确性要求需要通过全场景统一数据来实现。例如:在交通仿真方面,统一数据的使用能够提供对真实交通场景的细致理解,并实现对复杂交通环境的准确模拟和仿真。这对于评估自动驾驶系统在各种情景下的性能和安全性至关重要。但是目前的交通领域数据格式互不相同,多源数据不能相互补充,同时在复杂场景中性能压力较大难以满足实时性要求。

发明内容

本发明的目的是为了提供一种基于图结构的交通全领域数据检索方法、装置及介质,解决交通领域中不同DSL的数据表示方法不具备全场景统一性的问题,给出一种统一的基于图结构的数据表示方法,从而解决交通领域后续下游应用在调用数据进行处理时性能较低的问题,满足实时性要求。

本发明的目的可以通过以下技术方案来实现:

一种基于图结构的交通全领域数据检索方法,包括以下步骤:

S1、获取交通领域多源DSL的异构数据;

S2、对异构数据进行前处理,转换为基于图结构的统一中间表示;

S3、基于交通数据统一中间表示构建图数据库;

S4、根据下游应用的需要调用检索工具对图数据库进行检索,获取相关交通数据。

所述步骤S2具体为:

判断多源DSL的异构数据是否为交通领域中会被频繁操作的数据,

如果是频繁操作的数据,则将其转换为xml数据格式,并对xml数据进行即时编译,转换为基于图结构的统一中间表示;

如果不是频繁操作的数据,则仅对数据进行索引编码处理。

所述图数据库采用分布式数据库对交通数据的统一中间表示进行存储。

所述图数据库中设有隐私保护机制和安全机制。

所述检索工具包括精确检索工具和向量检索工具,其中,所述精确检索工具根据图的拓扑结构进行精确检索,向量检索工具基于深度学习方法训练图嵌入和度量算子的模型,利用图嵌入得到的向量和相似度度量算子在图数据库中进行模糊检索。

所述向量检索工具基于图卷积神经网络实现,假设图结构由N个节点组成,每个节点表示为一个d维特征向量x

其中,N(i)表示节点i的邻居节点集合,c

所述相似度度量算子采用余弦相似度计算图嵌入向量z

其中,z

所述相似度度量算子采用深度学习方法训练得到,在二分类任务中,相似度得分s的表达式为:

s=sigmoid(w

其中,w是模型的权重参数,b是偏置参数,[z

一种基于图结构的交通全领域数据检索装置,包括:

前处理模块,用于获取交通领域多源DSL的异构数据,并对异构数据进行前处理,转换为基于图结构的统一中间表示;

数据存储模块,用于基于交通数据统一中间表示构建图数据库,对交通数据进行存储;

检索工具模块,用于根据下游应用的需要调用检索工具对图数据库进行检索,获取相关交通数据。

一种计算机可读存储介质,其上存储有程序,所述程序被执行时实现如上述所述的方法。

与现有技术相比,本发明具有以下有益效果:

(1)实现了数据格式和语义的统一化:本发明所提供的中间表示方法可以将不同来源、不同格式、不同语义的交通领域数据进行统一化,使得这些数据能够被更加方便地使用和处理。

(2)利用图数据的特性进行了设计:本发明所提供的中间表示方法基于图数据的特性进行了设计,可以将交通领域的数据转化为节点和边,并建立图结构。这种设计可以使得数据具有跨尺度、高扩展性、高灵活性的特点。例如,可以将不同城市、不同区域、不同时间尺度的数据都表示为图数据,从而实现跨尺度的数据统一化。同时,基于图数据的结构特性,可以使用图分析和图计算等技术,对数据进行高效的处理和分析。

(3)分布式数据存储:本发明所提供的中间表示方法可以支持分布式数据存储,保证数据的安全和隐私性,并且可以让数据提供方和使用方进行高效交易。例如,可以使用区块链技术实现数据交易和数据共享,从而保证数据的安全和可信度。

(4)提供了高效数据检索方案:本发明所提供的中间表示方法可以使用深度学习等技术,提供针对下游应用的更深层信息的向量检索工具。例如,可以使用图嵌入算法将图数据嵌入到低维向量空间中,并使用向量相似度计算方法,实现高效的数据检索和推荐。同时,可以根据下游应用的需求,对图嵌入算法进行优化和调整,以提高检索的准确性和效率。

附图说明

图1为本发明的方法流程图;

图2为前处理过程流程图;

图3为一种实施例中XML转换为基于Graph的中间表示的示例图;

图4为检索工具工作流程示意图;

图5为本发明的交通全领域数据检索装置结构示意图。

具体实施方式

下面结合附图和具体实施例对本发明进行详细说明。本实施例以本发明技术方案为前提进行实施,给出了详细的实施方式和具体的操作过程,但本发明的保护范围不限于下述的实施例。

本实施例提供一种基于图结构的交通全领域数据检索方法,如图1所示,包括以下步骤:

S1、获取交通领域多源DSL的异构数据。

S2、对异构数据进行前处理,转换为基于图结构的统一中间表示。

考虑到不同的应用场景和目的,各种工具所使用的DSL的数据结构特征也各不相同。从可用性和处理性能的角度来看,当这些DSL具有更高的抽象级别和语法灵活性时,它们的语法及数据结构往往提供更好的语言可用性。然而,这会导致处理复杂性的增加和计算机性能的降低。目前计算机性能的进步已经超越了人类能力的极限,由于生理障碍,人类的能力没有显著的进步。JIT(即时编译)和IR(中间表示)的理念可以帮助缓解DSL中数据结构的性能和统一性问题。本步骤的目的就是将多源DSL的异构数据转换为统一的中间表示。

具体的,如图2所示,步骤S2包括以下步骤:

S21、判断多源DSL的异构数据是否为交通领域中会被频繁操作的数据;

S22、如果是频繁操作的数据,则将其转换为xml数据格式,并对xml数据进行JIT(即时编译)处理,转换为基于图结构的统一中间表示(IR);

数据转换的方式需要针对具体特定格式而定。因为目前的其他表示格式多数是基于xml的扩展,如csv、json等都有可以方便转换为xml格式的工具。所以在本实施例中,将不同来源的、定义各异的数据首先转换为xml格式,然后再基于xml数据转换为图数据。

图3展示了一种xml数据转换为基于Graph的统一中间表示的方法。

使用图数据作为IR的方法解决了交通行业中数据不统一、处理复杂数据效率低、无法快速查询等问题。以往其他的数据统一的做法如基于xml数据格式的方式,仅解决了数据不统一的问题,其它问题无法得到有效解决。

S23、如果不是频繁操作的数据,则仅对数据进行索引编码处理。

本实施例中,索引编码具体为将这条数据在数据库中的地址索引作为图数据IR中的一个节点,而非将此条数据转换为图数据中的一个子图。例如某汽车的外形图片,可以将其索引作为一个连接在汽车节点上的一个节点,而非将图片转换成图数据连接到汽车节点作为子图。

本实施例得到的统一中间表示IR是以Graph为基础的,不仅表示了XML中所能直接读取的个体属性信息,还将个体之间、属性之间的关系信息表示出来。这种中间表示是一种异质图G

φ:V

每个边都是有向边且有对应的边的类别,也可以通过唯一映射函数表示:

ψ:E

由于节点不仅可以表示实体,也可以表示抽象概念,在不同尺度上可以将子图结构和高级实体节点或抽象节点之间相互转换,所以使这种中间表示形式具有了跨尺度和灵活的特性。

S3、基于交通数据统一中间表示构建图数据库。

图数据库存储主要考虑数据库的鲁棒性、数据安全性和隐私。统一数据涉及到多个数据源的整合和共享,涉及到大量的敏感信息和个人隐私。保护数据安全和隐私是一个重要的考虑因素,需要制定相应的隐私保护措施和安全机制。

本实施例中,在数据交易时对于隐私和敏感信息利用AIGC等人工智能方法进行脱敏处理,保护交通数据中的用户隐私。在多方之间建立定价博弈体系动态定价,建立去中心化的数据交易平台,利用区块链技术保证交易的透明性,利用智能合约技术确保交易的公正性。

全交通领域的数据格式还需考虑多源数据提供方和使用方的数据交易需求,本实施例使用分布式数据库进行数据存储。

S4、根据下游应用的需要调用检索工具对图数据库进行检索,获取相关交通数据。

检索工具包括精确检索工具和向量检索工具,如图4所示,精确检索工具根据图的拓扑结构进行精确检索,向量检索工具基于深度学习方法,如图卷积神经网络、图自编码器、随机游走等方式,训练图嵌入和度量算子的模型,利用图嵌入得到的向量和相似度度量算子在图数据库中进行模糊检索,检索的结果可以应用于下游应用,以相应下游应用对交通领域数据的调用。

具体的,可以根据下游应用的需求进行检索工具的选择,精确检索工具可以依据图的拓扑结构进行快速的精确检索,相较传统的序列式数据库有较为显著的性能提高;向量检索工具可以在Graph数据库中进行更高效的模糊检索。

在一种实施方式中,向量检索工具基于图卷积神经网络实现,假设图结构由N个节点组成,每个节点表示为一个d维特征向量x

其中,N(i)表示节点i的邻居节点集合,c

本实施例中,相似度度量算子采用余弦相似度计算图嵌入向量z

其中,z

本发明针对交通领域中目前的不同DSL的数据表示方法不具备当前所需的全场景统一性及性能较低的问题,进行了方法创新,主要优点有:

a.实现交通领域数据格式的统一化;

b.具备跨尺度特性;

c.具有高灵活性和高可扩展性;

d.对于交通领域中的常见操作形式性能更好。

总之,本发明所提供的中间表示方法具有数据统一化、跨尺度、高扩展性、高灵活性、分布式数据存储和高效数据检索等优点和扩展,可以为交通领域的数据处理和应用提供更加便捷和高效的解决方案。

本发明的原理是设计基于图的数据中间表示,以统一交通领域中多源数据结构的统一并提高数据库检索性能。具体来说,由于交通领域的应用涉及大量的、关系依赖型数据的检索,所以序列型的数据库性能较低,而图结构的数据形式天然适合于关系依赖型的数据表达,并且具有跨尺度、高灵活性的特点。在图数据的精确检索工具之外,设计了高效的向量检索工具,结合深度学习产生的图嵌入和度量模型,用以检索更复杂的信息。

在一种实施例中,本发明所提供的中间表示方法可以统一交通领域的多源异构数据的表示,并提供高效的数据检索方法。以下是几个可以突出这些优势的应用案例:

1、基于交通领域多源异构数据的交通流量预测:通过将不同来源的交通数据转化为节点和边,并建立图结构,然后使用图计算等技术,可以实现对交通流量的预测。例如,使用图卷积神经网络(GCN)对交通数据进行建模,得到交通流量的预测结果。使用本发明提供的高效数据检索方法,可以快速地查询和分析历史交通数据,从而提高交通流量预测的准确性和效率。

2、基于交通领域多源异构数据的交通规划:通过将不同城市、不同区域的交通数据转化为节点和边,并建立图结构,然后使用图计算等技术,可以实现交通规划。例如,利用图分析算法进行城市交通热点区域的分析和规划。使用本发明提供的高效数据检索方法,可以快速地查询和分析不同城市的交通数据,从而提高交通规划的准确性和效率。

3、自动驾驶控制:本发明所提供的中间表示方法可以将不同来源的控制数据(例如控制指令、车辆状态等)转化为节点和边,并建立图结构,从而实现自动驾驶控制。例如,使用图控制算法对车辆的控制指令进行处理和优化。使用本发明提供的高效数据检索方法,可以快速地查询和分析不同来源的控制数据,从而提高自动驾驶控制的准确性和效率。

具体的,可以根据下游应用的实际需要来调用本发明方法,因此,本领域技术人员应当知晓,下游应用的不同不应当限制本发明的保护范围,上述应用案例仅仅为其中几个示例。

实施例2

本实施例与实施例1的区别在于,相似度度量算子采用深度学习方法训练得到,以二分类任务训练相似度得分的简单前馈网络为例,相似度得分s的表达式为:

s=sigmoid(w

其中,w是模型的权重参数,b是偏置参数,[z

实施例3

本实施例提供一种基于图结构的交通全领域数据检索装置,如图5所示,包括:

前处理模块,用于获取交通领域多源DSL的异构数据,并对异构数据进行前处理,转换为基于图结构的统一中间表示;

数据存储模块,用于基于交通数据统一中间表示构建图数据库,对交通数据进行存分布式存储,并在保证数据安全和隐私的前提下,支持高效的数据交易;

检索工具模块,可以对接下游的具体应用,根据下游应用的需要调用检索工具对图数据库进行检索,获取相关交通数据,提供高效的信息检索方式。

本装置可以使用前处理模块将交通领域各应用方面的多源数据转换为统一的中间表示形式,然后配合数据存储模块和检索工具模块应用于交通领域的各类下游应用中。

前处理模块、数据存储模块和检索模块的具体实现方式可以参照实施例1和实施例2,本实施例在此不再赘述。

实施例4

本实施例提供一种计算机可读存储介质,其上存储有程序,所述程序被执行时实现如上述实施例1或2所述的方法。

上述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。

以上详细描述了本发明的较佳具体实施例。应当理解,本领域的普通技术人员无需创造性劳动就可以根据本发明的构思做出诸多修改和变化。因此,凡本技术领域中技术人员依据本发明的构思在现有技术的基础上通过逻辑分析、推理、或者有限的实验可以得到的技术方案,皆应在权利要求书所确定的保护范围内。

技术分类

06120116523311