掌桥专利:专业的专利平台
掌桥专利
首页

用于风险交易捕捉的图特征搜索方法和系统

文献发布时间:2023-06-19 18:53:06


用于风险交易捕捉的图特征搜索方法和系统

技术领域

本公开主要涉及机器学习领域,尤其涉及用于风险交易捕捉的图特征搜索方法和系统。

背景技术

在现实世界中,事务之间的联系并不总是出现在单个物体上,而是可能存在于物体之间的共性联系上。例如,在交易网络中,通过对用户同卡的所有账户过去一段时间的交易金额进行累计,可以判别用户的交易是否存在风险。这种累计信息可以用图特征来描述。

图特征能够有效地揭示事物之间的联系,提升建模的效果。然而,为了获得图特征,需要利用现有数据不断地进行案例分析,将人工提炼出来的模式整理成特征的生成逻辑,这一过程会占用大量的人力资源。通过以深度表征学习为代表的表征学习方法得到的特征解释性差,有时甚至无法直接使用。同时,通过现有技术的方法得到的特征往往是一度信息的聚合,无法借助二度或者二度以上的信息刻来画特征,从而缺乏对图特征的高效利用。

有鉴于此,期望提出一种改进的图特征搜索方法和系统,能够自动获得有效的图特征,降低人力投入,减少特征工程耗时,提升建模效果。

发明内容

以下给出一个或多个方面的简要概述以提供对这些方面的基本理解。此概述不是所有构想到的方面的详尽综览,并且既非旨在标识出所有方面的关键性或决定性要素亦非试图界定任何或所有方面的范围。其唯一的目的是以简化形式给出一个或多个方面的一些概念以作为稍后给出的更详细描述之序言。

本公开提出了一种用于风险交易捕捉的图特征搜索方法,包括:基于交易数据构建图特征及其初始搜索空间;从该初始搜索空间中获取多个候选图特征,其中每个候选图特征包括信息聚合表示;利用强化学习策略来确定变异位置和变异值以获得特征反馈;基于该特征反馈来缩减该初始搜索空间以获得目标搜索空间;从该目标搜索空间中获取目标图特征;利用该目标图特征来捕捉该交易数据中的风险交易。

在本公开的一实施例中,每个候选图特征包括主体、客体、时间窗口、过滤条件、以及走图结构。

在本公开的一实施例中,信息聚合表示包括二度信息和/或二度以上信息的聚合。

在本公开的一实施例中,多个候选图特征包括随机生成的图特征和先前评估的图特征。

在本公开的一实施例中,每个候选图特征是图形查询语言(GQL)特征。

在本公开的一实施例中,利用强化学习策略来确定变异位置和变异值以获得特征反馈进一步包括:利用该强化学习策略来推荐变异位置和变异值;将该变异位置和该变异值应用于该多个候选图特征以获得多个变异图特征;确定并评估每个变异图特征的特征值以获得该特征反馈。

在本公开的一实施例中,确定并评估每个变异图特征的特征值以获得该特征反馈进一步包括:确定每个变异图特征的特征值的度量;筛除度量不满足条件的变异图特征;确定所保留变异图特征的重要度作为该特征反馈。

在本公开的一实施例中,度量包括以下至少一者:方差、缺失值比例、卡方值、IV值、PSI值。

在本公开的一实施例中,确定所保留变异图特征的重要度进一步包括:将所保留变异图特征输入树模型来确定重要度。

在本公开的一实施例中,基于该特征反馈来缩减该初始搜索空间以获得目标搜索空间进一步包括迭代地执行以下步骤直至该特征反馈满足预设条件:基于该特征反馈来调整强化学习策略;利用经调整的强化学习策略来确定新的变异位置和变异值以获得多个新的变异图特征;确定并评估每个新的变异图特征的特征值以获得新的特征反馈;基于该新的特征反馈来缩减该初始搜索空间。

在本公开的一实施例中,变异位置是图特征的多个候选变异位置之一,并且变异值是图特征的多个候选特征值之一。

本公开还提出了一种用于风险交易捕捉的图特征搜索系统,包括:搜索空间构建模块,基于交易数据构建图特征及其初始搜索空间;候选图特征模块,从该初始搜索空间中获取多个候选图特征,其中每个候选图特征包括信息聚合表示;图特征变异模块,利用强化学习策略来确定变异位置和变异值以获得特征反馈;搜索空间缩减模块,基于该特征反馈来缩减该初始搜索空间以获得目标搜索空间;目标图特征模块,从该目标搜索空间中获取目标图特征;捕捉模块,利用该目标图特征来捕捉该交易数据中的风险交易。

本公开还提出了一种计算机可读存储介质,其存储计算机程序,该计算机程序能被处理器执行以执行前述用于风险交易捕捉的图特征搜索方法。

本公开的技术方案通过定义图特征的表示,获得了二度及二度以上的信息聚合表示。同时利用强化学习策略来获得特征变异的位置和具体值,减少了搜索空间,保证能在合理的时间内生成有效的图特征。

附图说明

结合附图理解下面阐述的详细描述时,本公开的特征、本质和优点将变得更加明显。在附图中,相同附图标记始终作相应标识。要注意,所描述的附图只是示意性的并且是非限制性的。在附图中,一些部件的尺寸可放大并且出于解说性的目的不按比例绘制。

图1示出了本公开一实施例的图特征搜索的示意性架构图。

图2示出了本公开一实施例的用于风险交易捕捉的图特征搜索方法的示例性流程图。

图3示出了本公开一实施例的示例性GQL图特征。

图4示出了强化学习的示意图。

图5示出了本公开一实施例的基于特征反馈来缩减初始搜索空间的示例性过程。

图6示出了本公开一实施例的搜索空间缩减示意图。

图7示出了使用本公开的图特征搜索方法来捕捉风险交易的示例性过程。

图8示出了本公开一实施例的用于风险交易捕捉的图特征搜索系统的框图。

图9示出了本公开一实施例的包括用于风险交易捕捉的图特征搜索系统的设备框图。

具体实施方式

为使本公开的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图对本公开进一步详细说明。在以下详细描述中,阐述了许多具体细节以提供对所描述的示例性实施例的透彻理解。然而,对于本领域技术人员显而易见的是,可以在没有这些具体细节中的一些或全部的情况下实践所描述的实施例。在其它示例性实施例中,没有详细描述公知的结构,以避免不必要地模糊本公开的概念。应当理解,本文所描述的具体实施例仅仅用以解释本公开,并不用于限定本公开。同时,在不冲突的情况下,实施例所描述的各个方面可以任意组合。

如上文提到的,通过将人工提炼出来的模式整理成特征的生成逻辑的过程会占用大量的人力资源。同时,现有技术得到的特征解释性差,且往往是一度信息的聚合,无法借助二度或者二度以上的信息刻来画特征,从而缺乏对图特征的利用。

有鉴于此,本公开提出了一种改进的图特征搜索方法和系统。

图1示出了本公开一实施例的图特征搜索的示意性架构图100。

在本公开中,图特征是指通过某种方法构图得到的图的局部特征或者全局特征,包括但不限于一度和二度信息的聚合。此处的构图是指节点与节点之间通过关系进行连接,并将相关联的点归纳为一个子图的一种算法。另外,如在本文中使用的,图特征生成/图特征搜索是指一种图特征自动生成的方法,该方法在图特征搜索空间内寻优和计算出有效的图特征(例如,满足预设条件/要求的图特征)。

举例而言,可以对用户的交易数据进行构图,并通过生成有效的图特征来描述用户交易数据的特性。

应注意,虽然本公开的大部分描述是参照交易数据和风险交易场景来解说的,但本公开的技术方案可以应用于其他领域中与图特征有关的各种合适场景,诸如社交网络场景、商品推荐场景等等。

如图1所示,在图特征生成阶段,可以基于输入的候选图特征来获得变异图特征。

在本公开的一实施例中,候选图特征可以来自两部分,一部分来自于随机生成的图特征,一部分来自于先前评估过的特征中评分较高的图特征(例如,评分超过特定分值的图特征、评分排名靠前的图特征等等)。

候选图特征通过强化学习策略变异出新的图特征(在本文中也被称为“变异图特征”)。变异图特征相比于原始的候选图特征在一个或多个位置处发生变异/改变。具体而言,强化学习策略基于候选图特征推荐变异位置和变异值,使候选图特征的变异位置处的值发生变异,从而得到变异图特征。关于强化学习和强化学习策略将在下文进一步详细描述。

在得到变异图特征之后,进行图特征确定。在此,根据构图数据确定(例如,计算出)变异图特征的真实特征值。

在确定特征值之后,可以对特征进行评估。举例而言,可以评估各个特征的方差、缺失值比例、卡方值、IV值、PSI值等等。随后,可以将不符合条件的特征剔除,并对所保留的特征进行评估以得到各个特征的重要度。

经过特征评估后,可以将得到的特征信息作为特征反馈来反馈给强化学习,以优化强化学习策略。举例而言,可以将特征重要度作为特征反馈。同时,将特征重要度较高的特征作为候选图特征,再次迭代执行整个过程,直至特征反馈满足预设条件。此时,可以认为完成了对强化学习策略的优化。应注意,特征重要度仅是特征反馈的一个示例而非限制。在实际实现中,本领域技术人员可以采用其他合适的度量作为特征反馈。

迭代结束后得到的图特征可以作为系统输出。

图2示出了本公开一实施例的用于风险交易捕捉的图特征搜索方法200的示例性流程图。

方法200开始于步骤202。在步骤202,基于交易数据构建图特征及其初始搜索空间。

在本公开的一实施例中,交易数据可以是与用户在特定时间段内进行的交易事务有关的所有数据。在获得这些数据之后,可以基于该交易数据来构图(诸如静态图、动态图)。

在一些实现中,图中的各个节点可以表示各个用户,并且用户信息可以包含在节点的属性中。而图中相邻节点之间的边可以表示不同用户之间具有交易关系,并且与交易相关联的特征可以包含在边的属性中。在优选实现中,可以构建动态图,以体现用户交易随时间变化的特性。

在基于交易数据完成构图之后,得到各个图特征,并且图中的所有图特征及其组合可以构成初始搜索空间。在替换实施例中,可以对所有图特征进行一定处理来获得初始搜索空间。例如,在风险交易捕捉场景中,可以筛除与用户的风险交易无关/相关性很小的图特征(诸如与用户的身体数据有关的图特征等等)。而在商品推荐场景中,可以筛除与用户的购买习惯无关/相关性很小的图特征。以此方式,可以使初始搜索空间保持较小,从而提高图特征搜索效率。

在步骤204,从该初始搜索空间中获取多个候选图特征,其中每个候选图特征包括信息聚合表示。

在本公开的一实施例中,每个候选图特征包括主体、客体、时间窗口、过滤条件、聚合函数、以及走图结构。通过聚合函数可以实现对信息的聚合表示。候选图特征的详细结构将在下文参照图3进行进一步描述。

在本公开的一实施例中,信息聚合表示包括二度信息和/或二度以上信息的聚合。通过利用二度信息和/或二度以上信息,可以更有效地刻画图特征。

在本公开的一实施例中,多个候选图特征可以包括随机生成的图特征和先前评估的图特征(例如,先前评估的评分较高/性能较优异的图特征)。

在本公开的一实施例中,每个候选图特征是图形查询语言(Graph QueryLanguage,GQL)特征。

在步骤206,利用强化学习策略来确定变异位置和变异值以获得特征反馈。

在本公开的一实施例中,变异位置是图特征的多个候选变异位置之一,并且变异值是图特征的多个候选特征值之一。

通过强化学习策略可以推荐出特征变异的变异位置和变异值,从而减少了搜索空间,保证能够在合理的时间内生成有效的图特征,提升了图特征生成效率。

虽然在本公开中描述采用强化学习策略来控制特征变异,但在实际实现中,还可以采用其他算法来控制特征变异。例如,可以使用遗传算法来控制特征变异,优先选择优异的父特征变异生成子特征,不断地优化种子池,从而提高所生成特征的质量。

在本公开的一实施例中,利用强化学习策略来确定变异位置和变异值以获得特征反馈进一步包括:利用强化学习策略来推荐变异位置和变异值;将变异位置和变异值应用于多个候选图特征以获得多个变异图特征;确定并评估每个变异图特征的特征值以获得特征反馈。

在本公开的一实施例中,确定并评估每个变异图特征的特征值以获得特征反馈进一步包括:确定每个变异图特征的特征值的度量;筛除度量不满足条件的变异图特征;确定所保留变异图特征的重要度作为特征反馈。

在本公开的一实施例中,度量可以包括以下至少一者:方差、缺失值比例、卡方值、IV值、PSI值。

方差表示每一个变量(观察值)与总体均数之间的差异。

缺失值比例可以用缺失特征数量/总的样本数来表示。

卡方值体现统计样本的实际观测值与理论推断值之间的偏离程度。卡方值越大,说明二者的偏差程度越大;反之,二者偏差越小。

IV值(Information Value)主要用来对输入变量进行编码和预测能力评估。特征变量IV值的大小即表示该变量预测能力的强弱。IV值越大,表示该变量的预测能力越强。

PSI(population stability index)值用于衡量测试样本及模型开发样本评分的分布差异,是常见的模型稳定度评估指标。PSI值越小,说明两个分布之间的差异越小,进而表明模型越稳定。

在确定特征值的度量之后,可以筛除度量不满足条件的变异图特征。具体而言,可以预先设置度量需要满足的条件,当所确定的度量不满足该预设条件时,可以筛除相应的变异图特征。

举例而言,在度量为缺失值比例时,预设条件可以为缺失值比例不超过特定阈值。例如,当缺失值比例超过0.1时,可以认为该特征不合理。在度量为IV值时,预设条件可以为IV值大于特定阈值。例如,当IV值小于或等于0.02时,可以认为该特征没有预测能力。在度量为PSI值时,预设条件可以为PSI值不超过特定阈值。例如,当PSI值超过0.25时,可以认为该特征不稳定。此时可以剔除不满足预设条件的特征。

应注意,上述各个度量和具体的预设条件仅是作为示例来提供的。在具体实现中,本领域技术人员还可以根据实际情况采用其他度量和/或其他恰适的预设条件。

图特征的重要度可以采用多种方式来衡量。在本公开的一实施例中,可以通过树模型来衡量所保留变异图特征的重要度。

树模型是机器学习领域中广泛使用的一种模型。常见的树模型包括决策树、随机森林、XGBoost等等。

在本公开中,优选地使用XGBoost。XGBoost将目标函数泰勒展开到了二阶,从而保留更多有关目标函数的信息。同时,XGBoost加入了和叶子权重的L2正则化项,有利于模型获得更低的方差。此外,XGBoost增加了自动处理缺失值特征的策略,自动对有缺失值的样本进行划分,无需对缺失特征进行填充预处理。

在本公开的一实施例中,可以选择XGBoost输出的total_gain值作为特征重要度的衡量指标。total_gain表示某一特征在每次分裂节点时带来的总收益。

关于上述几个树模型的具体实现在机器学习领域是众所周知的,在此不再赘述。

上述采用XGBoost来衡量图特征的重要度仅是示例性的而非限制性的。在不同实现中,可以采用其他模型或指标来衡量特征的重要度。

在步骤208,基于该特征反馈来缩减该初始搜索空间以获得目标搜索空间。

在本公开的一实施例中,基于该特征反馈来缩减该初始搜索空间以获得目标搜索空间进一步包括迭代地执行以下步骤直至该特征反馈满足预设条件:基于该特征反馈来调整强化学习策略;利用经调整的强化学习策略来确定新的变异位置和变异值以获得多个新的变异图特征;确定并评估每个新的变异图特征的特征值以获得新的特征反馈;基于该新的特征反馈来缩减该初始搜索空间。

关于缩减初始搜索空间的详细过程将在下文参照图5进行进一步描述。

在步骤210,从该目标搜索空间中获取目标图特征。

当特征反馈满足预设条件时,可以认为此时目标搜索空间中图特征的质量较优(例如,满足预设要求)。可以从目标搜索空间中获取图特征作为目标图特征。在一些实施例中,可以从目标搜索空间中随机选择图特征作为目标图特征。在替换实施例中,可以按一定的规则从目标搜索空间中选择图特征作为目标图特征。举例而言,可以从目标搜索空间中选择重要度最高的图特征作为目标图特征。

在步骤212,利用该目标图特征来捕捉该交易数据中的风险交易。

目标图特征可以很好地体现交易数据中的风险模式,基于该风险模式可以捕捉用户交易数据中的风险交易。目标图特征可以表征风险交易的共性,从而可以通过挖掘出这些共性来捕捉风险交易。举例而言,通过将“用户同卡的所有账户在特定时间段内的累计交易金额”作为目标图特征,可以高效准确地识别用户的潜在风险交易。由此可见,该目标图特征的性能优异,且具有良好的解释性。

在实际实现中,还可以将目标图特征与风险控制方案中的其他模型和策略相结合地使用,从而更加有效地识别/捕捉风险交易。

图3示出了本公开一实施例的示例性GQL图特征300。

在本公开的一实施例中,使用GQL图特征来刻画图特征,从而获得二度及二度以上的信息聚合表示。图3示出了示例性的二度GQL图特征。

在本公开的一实施例中,GQL图特征主要包括6个组成部分:主体(subject)、客体(object)、时间窗口、过滤条件、聚合函数(AGG_FUNCTION)、以及走图结构,其中时间窗口包含在构图逻辑和过滤条件中,并且聚合函数可以实现对信息的聚合表示。

GQL图特征的每一个可变化的位置/组成部分都可以表示为一个slot(槽位),通过对每一个slot进行embedding(嵌入),可以将整个GQL图特征转化为embedding表示,随后可以输入强化学习模型中进行进一步训练。

在进行特征变异时,可以从GQL图特征的6个组成部分中选取一个或多个部分进行变异。

应注意,图3中所示的GQL图特征仅是一个示例,而非限制性的。在实际实现中,本领域技术人员可以定义不同形式的GQL图特征。

图4示出了强化学习的示意图400。

强化学习(Reinforcement Learning)(也被称为再励学习、评价学习或增强学习)是机器学习的范式和方法论之一,用于描述和解决智能体(agent)在与环境(environment)的交互过程中通过学习策略以达成回报最大化或实现特定目标的问题。

在强化学习中,智能体和环境是能够进行交互的对象。智能体可以感知外界环境的状态和反馈的奖励,并进行学习和决策。智能体的决策功能是指根据外界环境的状态来做出不同的动作,而学习功能是指根据外界环境的奖励来调整策略。环境是智能体外部的所有事物,并受智能体动作的影响而改变其状态,并反馈给智能体相应的奖励。

强化学习具有四个要素:状态(state)、动作(action)、策略(policy)、奖励(reward)。状态是指智能体从环境获取的信息;动作是指智能体的行为表征;奖励是指环境对于动作的反馈;而策略是指智能体根据状态进行下一步动作的函数。

强化学习是智能体以“试错”的方式进行学习,通过与环境进行交互获得的奖励来指导自身的动作,其最终目标是找到一个最优策略,使智能体获得尽可能多的来自环境的奖励。

以本公开的GQL图特征为例,状态(S

(n1:USER)[e1:RED_PACKET_TRANSACTION WHERE amt<=1]->(n2:USER)WHEREn1.id<>n2.id RETURN n1.id AS n1,STD(DISTINCT e1.62)AS aggResult GROUP BY n1

动作(A

下一状态(S

(n1:USER)-[e1:RED_PACKET_TRANSACTION WHERE amt>100AND amt<=500]->(n2:USER)WHERE n1.id<>n2.id RETURN n1.id AS n1,STD(DISTINCT e1.62)ASaggResult GROUP BY n1

奖励(R

关于强化学习的具体实现在本领域是公知的,在此不再赘述。

图5示出了本公开一实施例的基于特征反馈来缩减初始搜索空间的示例性过程500。过程500可以是200的一部分(例如,步骤208)。

过程500开始于步骤502。在步骤502,基于特征反馈(例如,在步骤206获得的特征反馈)来调整强化学习策略。

在步骤504,利用经调整的强化学习策略来确定新的变异位置和变异值,以获得多个新的变异图特征。

在一些实现中,可以对单个位置的值进行变异。在其他实现中,可以对多个位置的值进行变异。

以上文结合图3和图4所描述的GQL图特征为例,可以对GQL图特征的一个或多个部分进行变异。举例而言,可以对过滤条件进行变异,将过滤条件“amt<=1”

变异为“amt>100AND amt<=500”。对于每个变异位置,可以预先设置一组候选5变异值。当对图特征的某个变异位置进行变异时,可以从该变异位置的对应一组候选

变异值中选择(例如,随机选择、按预定规则选择等等)一个变异值。

在步骤506,确定并评估每个新的变异图特征的特征值以获得新的特征反馈。

在本公开的一实施例中,确定并评估每个新的变异图特征的特征值以获得新的特征反馈进一步包括:确定每个新的变异图特征的特征值的度量(例如,缺失值0比例、IV值等等);筛除特征反馈度量不满足条件的变异图特征(例如,筛除缺

失值比例超过0.1的变异图特征、筛除IV值超过0.25的变异图特征等等);确定所保留变异图特征的重要度(例如,XGBoost树模型输出的total_gain值)作为新的特征反馈。

在步骤508,基于新的特征反馈来缩减初始搜索空间。

5在实际实现中,可以采用各种方式来缩减初始搜索空间。举例而言,如果新的特征反馈优于前一轮迭代中的特征反馈(例如,在特征反馈为特征重要度的情况下,新的特征重要度高于前一轮迭代中的特征重要度),则可以从初始搜索空间中筛除前一轮迭代中的变异图特征。如果前一轮迭代中的特征反馈优于新的特

征反馈,则可以从初始搜索空间中筛除此轮迭代中的变异图特征。通过特征变异0以及缩减初始搜索空间,可以使经缩减搜索空间中所保留的图特征的质量不断提高。

在判断框510,判断特征反馈是否满足预设条件。

如果特征反馈满足预设条件,则迭代完成,过程500结束。此时得到的搜索空间即为目标搜索空间。

5如果特征反馈不满足预设条件,则过程500前往步骤502进行下一轮迭代。

举例而言,预设条件可以是特征重要度满足预设阈值。预设阈值可以根据经验设定、通过训练或实验过程设定、或通过理论计算来设定。在不同实现中,还可以设定不同的预设条件。

图6示出了本公开一实施例的搜索空间缩减示意图600。

如图所示,基于初始搜索空间可以获得一特征反馈。例如,可以通过图2的步骤206可以获得该特征反馈。

随后,可以基于该特征反馈对初始搜索空间进行空间缩减,以获得经缩减搜索空间。举例而言,如果特征反馈不满足一定的要求(诸如特征反馈未到达一定的阈值),则可以将相应的图特征从初始搜索空间中筛除。

基于该经缩减搜索空间可以获得新的特征反馈。例如,可以通过图5的步骤506获得该新的特征反馈。

接着,可以对该新的特征反馈进行预设条件判断,以判断该新的特征反馈是否满足预设条件。

如果不满足预设条件,则可以继续进行下一轮迭代。在下一轮迭代中,基于该新的特征反馈对当前的搜索空间继续进行空间缩减。

如上文提及的,可以基于相邻迭代中特征反馈的比较来进行空间缩减。具体而言,如果当前迭代中的特征反馈优于前一轮迭代中的特征反馈,则可以从搜索空间中筛除前一轮迭代中的特征反馈所对应的图特征;反之,如果前一轮迭代中的特征反馈优于当前迭代中的特征反馈,则可以从搜索空间中筛除当前迭代中的特征反馈所对应的图特征。同样地,这种空间缩减方式仅是示例性的而非限制性的。在实际实现中,本领域技术人员可以采用不同的方式来进行空间缩减。

如果满足预设条件,则可以结束迭代。此时的搜索空间可以作为目标搜索空间。

通过多轮迭代过程(如图6中的虚线框所示),可以使搜索空间不断缩减,直至获得目标搜索空间。

图7示出了使用本公开的图特征搜索方法来捕捉风险交易的示例性过程700。

在过程700开始时,可以首先获得用户交易数据。

在本公开的一些实现中,此处的用户交易数据可以是单个用户在某一时间段内(例如,一天、一周、一个月、等等)的一些/所有交易数据。在其他实现中,用户交易数据可以是多个用户(例如,属于同一组织的多个用户、在同一地区内的多个用户、等等)在某一时间段内的一些/所有交易数据。在多用户的情况下,交易数据可以体现这些用户之间的资金交互关系。

在获得用户交易数据之后,可以基于交易数据来进行构图。

如上文所述,可以基于交易数据来构建静态图或动态图。具体而言,图中的节点可以对应于用户信息,图中的边可以对应于用户的交易信息。在优选实施例中,可以采用动态图,以表征交易随时间的变化信息。

图构建完成之后,可以采用本公开的图特征搜索方案来获得目标图特征。

基于目标图特征可以捕捉用户交易数据中的风险交易。

目标图特征可以体现风险交易的一些共性。举例而言,进行风险交易的用户在特定时间段内所有账户的交易总金额往往较大。由此,可以将用户在特定时间段内所有账户的交易总金额作为目标图特征,并基于该目标图特征来识别出潜在的风险交易。例如,可以计算目标图特征的特征值,当特征值超过某个阈值时,可以认为用户存在风险交易。由此可见,基于目标图特征可以找出具有共性的交易,从而识别出风险交易和风险用户。

在用户交易数据包含单个用户的交易数据的情况下,可以捕捉该单个用户的风险交易。在用户交易数据包含多个用户的交易数据的情况下,可以捕捉单个用户的风险交易以及多个用户之间的风险交易(例如,识别风险交易群体)。

在一些实现中,可以直接基于目标图特征来捕捉风险交易。在另外一些实现中,还可以将目标图特征与中间模块(例如,训练模块、预测模块等等)相结合地使用,以进一步提高识别风险交易的准确性。

图8示出了本公开一实施例的用于风险交易捕捉的图特征搜索系统800的框图。

参见图8,系统800可以包括搜索空间构建模块802、候选图特征模块804、图特征变异模块806、搜索空间缩减模块808、目标图特征模块810、以及捕捉模块812。这些模块中的每一者可在一条或多条总线814上直接或间接地彼此连接或通信。

搜索空间构建模块802可以基于交易数据构建图特征及其初始搜索空间。

候选图特征模块804可以从初始搜索空间中获取多个候选图特征,其中每个候选图特征包括信息聚合表示。

在本公开的一实施例中,每个候选图特征包括主体、客体、时间窗口、过滤条件、聚合函数、以及走图结构。

在本公开的一实施例中,该信息聚合表示包括二度信息和/或二度以上信息的聚合。

在本公开的一实施例中,该多个候选图特征包括随机生成的图特征和先前评估的图特征。

在本公开的一实施例中,每个候选图特征是GQL图特征。

图特征变异模块806可以利用强化学习策略来确定变异位置和变异值以获得特征反馈。

在本公开的一实施例中,图特征变异模块806还可以被配置成:利用强化学习策略来推荐变异位置和变异值;将变异位置和变异值应用于多个候选图特征以获得多个变异图特征;确定并评估每个变异图特征的特征值以获得特征反馈。

在本公开的一实施例中,确定并评估每个变异图特征的特征值以获得特征反馈进一步包括:确定每个变异图特征的特征值的度量;筛除度量不满足条件的变异图特征;确定所保留变异图特征的重要度作为特征反馈。

在本公开的一实施例中,度量包括以下至少一者:方差、缺失值比例、卡方值、IV值、PSI值。

在本公开的一实施例中,确定所保留变异图特征的重要度进一步包括:将所保留变异图特征输入树模型来确定重要度。

搜索空间缩减模块808可以基于特征反馈来缩减初始搜索空间以获得目标搜索空间。

在本公开的一实施例中,搜索空间缩减模块808可被进一步配置成通过迭代地执行以下步骤直至特征反馈满足预设条件来缩减初始搜索空间:基于特征反馈来调整强化学习策略;利用经调整的强化学习策略来确定新的变异位置和变异值以获得多个新的变异图特征;确定并评估每个新的变异图特征的特征值以获得新的特征反馈;基于新的特征反馈来缩减初始搜索空间。

在本公开的一实施例中,变异位置是图特征的多个候选变异位置之一,并且变异值是图特征的多个候选特征值之一。

目标图特征模块810可以从目标搜索空间中获取目标图特征。

捕捉模块812可以利用目标图特征来捕捉交易数据中的风险交易。

虽然图8中示出了系统800的特定模块,但应理解,这些模块仅是示例性的而非限制性的。在不同的实现中,可以组合、拆分、移除这些模块中的一个或多个模块,或者添加另外的模块。例如,在一些实现中,搜索空间缩减模块808和目标图特征模块810可以被合并成单个模块。在一些实现中,系统800还可以包括附加的模块。

图9示出了本公开一实施例的包括用于风险交易捕捉的图特征搜索系统的设备900的框图。

该设备示出了一般硬件环境,可在其中根据本公开的示例性实施例应用本公开。

现在将参照图9描述设备900,其是可以应用于本公开的各方面的硬件设备的示例性实施例。设备900可以是被配置为执行处理和/或计算的任何机器,可以是但不限于工作站、服务器、台式计算机、膝上型计算机、平板计算机、个人数字助理(PDA)、智能电话、或其任何组合。

设备900可包括可以经由一个或多个接口与总线912连接或与总线912通信的组件。例如,设备900可包括总线912、处理器902、存储器904、输入设备908、以及输出设备910等等。

处理器902可以是任何类型的处理器,并且可包括但不限于通用处理器和/或专用处理器(例如特殊处理芯片)、智能硬件设备(例如,通用处理器、DSP、CPU、微控制器、ASIC、FPGA、可编程逻辑器件、分立的门或晶体管逻辑组件、分立的硬件组件、或其任何组合)。在一些情形中,处理器902可被配置成使用存储器控制器来操作存储器阵列。在其它情形中,存储器控制器(未示出)可被集成到处理器902中。处理器902可以负责管理总线和一般性处理,包括执行存储在存储器上的软件。处理器902还可以被配置成执行本文中所描述的与用于风险交易捕捉的图特征搜索相关的各种功能。例如,处理器902可被配置成:基于交易数据构建图特征及其初始搜索空间;从该初始搜索空间中获取多个候选图特征,其中每个候选图特征包括信息聚合表示;利用强化学习策略来确定变异位置和变异值以获得特征反馈;基于该特征反馈来缩减该初始搜索空间以获得目标搜索空间;从该目标搜索空间中获取目标图特征;利用该目标图特征来捕捉该交易数据中的风险交易。

存储器904可以是可实现数据存储的任何存储设备。存储器904可包括但不限于磁盘驱动器、光学存储设备、固态存储器、软盘、软盘、硬盘、磁带或任何其它磁介质、光盘或任何其它光学介质、ROM(只读存储器)、RAM(随机存取存储器)、高速缓冲存储器和/或任何其它存储器芯片或盒、和/或计算机可从其读取数据、指令和/或代码的任何其它介质。存储器904可存储包括计算机可读指令的计算机可执行软件906,这些指令在被执行时使得处理器执行本文中所描述的与用于风险交易捕捉的图特征搜索相关的各种功能。

输入设备908可以是可以用于输入信息的任何类型的设备。

输出设备910可以是用于输出信息的任何类型的设备。在一种情形中,输出设备910可以是可显示信息的任何类型的输出设备。

本公开的技术方案使用GQL图形查询语言刻画图特征,从而获得二度及二度以上的信息聚合表示。另外,通过定义图特征的六大组成部分(主体、客体、时间窗口、过滤条件、聚合函数和走图结构),获得了图特征的嵌入表示,为下一步的特征变异提供可能。此外,通过使用强化学习推荐出特征变异的位置和具体值,有效缩减了搜索空间,保证能在合理的时间内生成有效的图特征。以此方式获得的图特征性能优异,且具有良好的解释性。

以上结合附图阐述的详细说明描述了示例而不代表可被实现或者落在权利要求的范围内的所有示例。术语“示例”和“示例性”在本说明书中使用时意指“用作示例、实例或解说”,并不意指“优于或胜过其它示例”。

贯穿本说明书引述的“一个实施例”或“一实施例”意指结合该实施例描述的特定特征、结构或特性是包含在本公开的至少一个实施例中的。因此,这些短语的使用可以不仅仅指代一个实施例。此外,所描述的特征,结构或特性可以在一个或多个实施例中以任何合适的方式组合。

提供之前的描述是为了使本领域任何技术人员均能够实践本文中所描述的各种方面。对这些方面的各种修改将容易为本领域技术人员所明白,并且在本文中所定义的普适原理可被应用于其它方面。因此,权利要求并非旨在被限定于本文中所示的方面,而是应被授予与语言上的权利要求相一致的全部范围,其中对要素的单数形式的引述除非特别声明,否则并非旨在表示“有且仅有一个”,而是“一个或多个”。除非特别另外声明,否则术语“一些”指的是一个或多个。本公开通篇描述的各个方面的要素为本领域普通技术人员当前或今后所知的所有结构上和功能上的等效方案通过引述被明确纳入于此,且旨在被权利要求所涵盖。

还应注意,这些实施例可能是作为被描绘为流程图、流图、结构图、或框图的过程来描述的。尽管流程图可能会把诸操作描述为顺序过程,但是这些操作中有许多操作能够并行或并发地执行。另外,这些操作的次序可被重新安排。

虽然已经说明和描述了各种实施例,但是应该理解,实施例不限于上述精确配置和组件。可以在本文公开的设备的布置、操作和细节上作出对本领域技术人员显而易见的各种修改、替换和改进而不脱离权利要求的范围。

相关技术
  • 用于神经网络的特征图处理方法、装置和系统及存储介质
  • 适用于物品循环交易的交易方法和系统
  • 一种基于交易风险特征库的风险检测方法
  • 用于基于关系图生成风险特征的方法及装置
技术分类

06120115722935