掌桥专利:专业的专利平台
掌桥专利
首页

处理金融系统现金微生物数据溯源的公共卫生管理系统

文献发布时间:2023-06-19 19:30:30


处理金融系统现金微生物数据溯源的公共卫生管理系统

技术领域

本发明涉及数据处理技术领域,具体涉及一种处理金融系统现金微生物数据溯源的公共卫生管理系统。

背景技术

在我国线上支付取代大量下线支付的背景下,纸币仍然处于现金流通的绝对地位,且不可能被取代。由于现金实体始终存在着微生物污染的问题,这些微生物可能通过直接(亲密接触)或间接(食物或其他无生命物体)手段传播。纸币目前仍然是公共卫生的潜在威胁,且在政务大数据和人工智能应用取得显著成效的当下,当前依然缺少科学地基于金融系统现金流通的态势,分析携带微生物的特征以及公共卫生事件响应方案的系统。

本发明基于金融系统的现金流通,对现金中的大面额纸币,提出一种针对金融系统中的纸币微生物特征以及纸币的流通特征进行分析,并基于历史大数据生成公共卫生事件方案的应急响应方案。

发明内容

本发明提供处理金融系统现金微生物数据溯源的公共卫生管理系统,以解决现有的无法基于纸币的流通态势特征以及携带微生物的特征生成应急响应方案的问题,以下内容为所采用的技术方案。

本发明一个实施例提供了处理金融系统现金微生物数据溯源的公共卫生管理系统,该系统包括以下模块:纸币信息获取模块,记录有回流行为的纸币的信息;纸币回流特征描述子获得模块,根据每张有回流行为的纸币信息得到长时间流通特征描述子和短时间流通特征描述子;根据长时间流通特征描述子和短时间流通特征描述子得到地理流通范围指标、回流稳定性指标及活跃度评级指标;选择若干张活跃度评级指标大于阈值的纸币进行拭子测试,根据拭子测试的结果得到每张纸币的微生物特征描述子;调整后公共卫生事件获取模块,获取一个公共卫生事件,将公共卫生事件的数据结构化得到公共卫生事件数据,所述公共卫生事件数据由引导句和文本内容构成,获取公共卫生事件的开始和结束时间,在一个公共卫生事件中将包含公共卫生事件的微生物的纸币的每次回流作为一个记录,在公共卫生事件中获取若干记录,使用聚类得到不同的簇,每个簇为一个流通模式,所述聚类所使用的度量距离是根据任意两个记录的长时间流通特征描述子和短时间流通特征描述子得到;在每个流通模式下,根据所有记录的微生物特征描述子得到每个流通模式的总体微生物特征描述子,根据每个记录的微生物特征描述子和总体微生物特征描述子对每个流通模式筛选异常记录,得到每个公共卫生事件的主流通模式,根据主流通模式对公共卫生事件进行调整得到调整后公共卫生事件;TokenQ获取模块,对于若干调整后的公共卫生事件,利用每个记录的长时间流通特征描述子、短时间流通特征描述子以及微生物特征描述子根据孪生网络获取每个记录的现金态势特征,将现金态势特征构建为Token得到TokenQ;现金态势特征的Dropout的比例获取模块,根据每个记录的现金态势特征得到每个现金态势特征对应的LOF值,根据每个现金态势特征对应的LOF值得到TokenQ的Dropout的比例;应急响应方案制定模块,基于计算出来后的现金态势特征的Dropout的比例,对LLM进行训练,将TokenQ和若干引导句输入LLM中,得到生成内容,根据生成内容得到公共卫生事件应急响应方案。

优选地,所述纸币的信息包括纸币每次回流时的日期和地理位置,纸币的ID与纸币每次回流的日期和地理位置关联。

优选地,根据每张有回流行为的纸币信息得到长时间流通特征描述子和短时间流通特征描述子的方法为:设定一个长时间阈值,在长时间阈值对应的时间内,统计每张纸币回流时的日期和地理位置,计算每张纸币相邻两个日期的差得到时间间隔,计算时间间隔的均值记为时间间隔中心值,根据每次回流的地理位置得到位置中心值,位置中心值由经纬度表示,根据时间间隔和时间间隔的均值得到每张纸币的时间均方误差,根据位置中心值与其与地理位置的距离得到位置均方误差,长时间流通特征描述子由位置中心值、时间间隔中心值、时间均方误差、位置均方误差构成;设置一个短时间阈值,在短时间阈值对应的时间内,计算得到短时间内每张纸币的位置中心值、时间间隔中心值、时间均方误差、位置均方误差,短时间流通特征描述子由短时间内计算得到的位置中心值、时间间隔中心值、时间均方误差、位置均方误差构成。

优选地,根据长时间流通特征描述子和短时间流通特征描述子得到地理流通范围指标、回流稳定性指标及活跃度评级指标的方法为:将长时间流通特征描述子和短时间流通特征描述子的位置均方误差的均值作为地理流通范围指标,将长时间流通特征描述子和短时间流通特征描述子的时间间隔中心值的最大值与长时间流通特征描述子的时间间隔中心值的比值作为回流稳定性指标,将每张纸币的回流稳定性指标的倒数和地理流通范围指标的乘积作为活跃度评级指标。

优选地,根据拭子测试的结果得到每张纸币的微生物特征描述子的方法为:在一次公共卫生事件中,对于每张纸币检测其中的菌群种类,将影响公共卫生时间中的菌群种类记为1,其与菌群种类都记为0,得到固定维数的二进制编码,固定维数的二进制编码就表示每张纸币的微生物特征描述子。

优选地,所述任意两个记录的度量距离的获取方法为:

优选地,根据所有记录的微生物特征描述子得到每个流通模式的总体微生物特征描述子的方法为:对于每个流通模式,将每个流通模式中所有记录的微生物特征描述子进行或运算,即两个编码中存在1时结果为1,不存在1时结果为0,将所有记录或运算后得到每个流通模式的总体微生物特征描述子。

优选地,所述根据每个记录的微生物特征描述子和总体微生物特征描述子对每个流通模式筛选异常记录的方法为:将总体微生物特征描述子和每个记录的微生物特征描述子计算汉明距离,将计算出的汉明距离递减排序,将大于筛选阈值的记录视为异常记录,进行剔除。

优选地,所述根据主流通模式对公共卫生事件进行调整得到调整后公共卫生事件的方法为:计算主流流通模式下的短时间流通特征描述子中平均时间间隔值的均值作为典型流通的时间间隔,将公共卫生事件的开始时间向前推移典型流通的时间间隔的时间长度得到调整后的公共卫生事件。

本发明的有益效果是:本发明提供一种利用和分析公共卫生事件数据、纸币微生物特征数据、金融系统中纸币流通特征数据,自动构成可靠的大型语言模型(LargeLanguage Model, LLM)微调数据集的方法,进而获得一种基于LLM的公共卫生事件方案的生成系统;此外,还提供一种基于构建微调数据集,分阶段训练LLM的方法,使其生成更准确的应急响应管理方案。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。

图1为本发明的一个实施例的处理金融系统现金微生物数据溯源的公共卫生管理系统示意图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

请参阅图1,其示出了本发明一个实施例提供的处理金融系统现金微生物数据溯源的公共卫生管理系统流程图,该系统包括纸币信息获取模块、纸币回流特征描述子获得模块、调整后公共卫生事件获取模块、TokenQ获取模块、现金态势特征的Dropout的比例获取模块、以及应急响应方案制定模块。

纸币信息获取模块记录有回流行为的纸币信息。如果一张纸币的流通属性很丰富,说明这个纸币流通性较高。表面的微生物记录更具有范围代表性和时效性,更适合作为公共卫生事件的微生物记录的参考。本实施例选择ATM机和柜台的纸币。因为这两种来源的纸币直接与金融系统绑定,所以是容易规范化实施的对象。本实施例可以仅选择面值为100元的人民币,并根据纸币的编号为每张纸币建立一个实例。所述实例是指实施者可以在数据库中建立一个对象,对象具有唯一ID,即纸币的编号。基于纸币编号,可以持续记录一张纸币每次流通回到金融系统的时间。这样,每日统计柜台、ATM机所收取的纸币的编号,从而为每张纸币建立自身的实例,并在每次回流到柜台或ATM机时,记录日期、回流到的所在地的地理位置。这样,每当一张纸币回流到金融系统,即任一银行柜台或ATM机时,纸币所对应的当前实例就会记录一次日期和地理位置。纸币信息获取模块获得若干张纸币的编号以及每张纸币每次回流时的日期和地理位置。

纸币回流特征描述子获得模块,根据每张有回流行为的纸币信息得到长时间流通特征描述子和短时间流通特征描述子;根据长时间流通特征描述子和短时间流通特征描述子得到地理流通范围指标、回流稳定性指标及活跃度评级指标;选择若干张活跃度评级指标大于阈值的纸币进行拭子测试,根据拭子测试的结果得到每张纸币的微生物特征描述子。

纸币信息获取是长期、持续记录的,因此可以在一段时间内根据记录得到众多纸币回流到金融系统的时间以及位置。基于每次记录时间和位置,基于记录的分布可以得到每张纸币此时的纸币流通特征数据。

首先,对于一张纸币实例,只要回流进入过金融系统,就统计得到该纸币实例的回流时间和回流地理位置。由于一张纸币在一天内可能没有发生回流也可能发生了多次回流,因此需要设定一个相对较长的观测时长。在本实施例中以半年为例,建立长时间流通特征描述子,也就是说统计半年内每张纸币的回流时间和回流位置。半年内指公共卫生事件开始前任意一个半年内。

根据每张纸币的所有回流时间得到每张纸币回流的时间间隔,计算每张纸币所有时间间隔的均值作为时间间隔中心值TM。计算所有时间间隔与时间间隔均值的均方误差记为时间均方误差TMSE。根据每张纸币的回流位置得到位置中心值LM,位置由坐标表示,因此位置中心值也由坐标表示。位置的坐标为经纬度,计算位置中心值与各个位置之间的距离的均方误差记为位置均方误差LMSE。

通过时间间隔中心值TM、位置中心值LM、时间均方误差TMSE、位置均方误差LMSE来构成纸币的长时间流通特征描述子M1。长时间流通特征描述子M1共有5个数值,其中位置中心值LM有两个数值,其余为一个数值。时间均方误差TMSE是指时间间隔的差异大小,差异越大,则时间约不固定。同样,位置均方误差LMSE越大,位置越发散。

基于建立的长时间流通特征描述子M1的方法,设定一个相对短的观测时长,来得到短时间流通特征描述子M2。根据公共卫生事件的突发性,在本实施例中可以设定为一个月,一个月指公共卫生事件开始前任意一个月内。同样地,将对应数据处理为时间间隔中心值TM、位置中心值LM、时间均方误差TMSE及位置均方误差LMSE构成此次回流后的短时间流通特征描述子M2。短时间流通特征描述子M2共5个数值,其中位置中心值占2个数值,其余占1个数值。

通过长短期时间的特征描述,使得表示流通特征的数值与纸币回流到金融系统的次数无关,而是和流通的范围、时效有关的流通特征有关。进一步的,根据长时间流通特征描述子和短时间流通特征描述子的位置均方误差获得地理流通范围指标S1,公式如下:

进一步的,根据长时间流通特征描述子M1和短时间流通特征描述子M2的时间间隔中心值获得回流稳定性指标S2,公式如下:

基于地理流通范围指标和回流稳定性指标得到每张纸币的活跃度评级指标S,其中

由于对纸币进行微生物特征分析的成本较高,因此仅对评级较高的纸币进行分析和采样。原因是基于纸币流通特征进行评级后,可以找出较为活跃的纸币,从而提高纸币微生物特征代表近期公共卫生事件的能力。

根据各个具备采样的站点,选择K张纸币作为采样的对象,其中K≥10。本实施例中,K可以为20,即针对一次站点计划的采样,选择此时回流到站点的纸币实例中,针对S值最大的前20张纸币实例开展微生物采样操作。

对已知的菌群进行编号,每获得一种新的菌群,就为菌群进行一次编号,从1开始进行正整数编号。如果采集到已经被编号的菌群不再重新进行编号,即每个不种不同的菌群有不同的编号,从而确定拭子测试后,菌落的有无。由于病毒变种较为活跃,因此可以针对少数常见的流感病毒进行标记。

例如在一种与炭疽热公共卫生事件相关的时期,采集的一张纸币的拭子测试结果中,发现了如芽孢杆菌、青霉素、镰刀菌和酿酒酵母,分别编号为119、3481、2750、821。其可能引起免疫抑制疾病,还可能感染炭疽热。对于上述编号检出与否,标记为1(有)或0(无)。假设共建立了5000个编号,则属于119,3481,2750,821的编号为1,其余为0;最后,将5000个编号表示为5000维的微生物特征描述子W1,维数固定为5000。

对每张纸币进行评级后,对于评级较高的纸币,每一次回流得到该纸币的微生物特征描述子W1。

至此,每一张纸币回流一次后,若该纸币的活跃度足够高,就使其参与微生物采样,便得到了W1、M1、M2三个特征描述子。

调整后公共卫生事件获取模块,获取一个公共卫生事件,将公共卫生事件的数据结构化得到公共卫生事件数据,公共卫生事件数据由引导句和文本内容构成,获取公共卫生事件的开始和结束时间,在一个公共卫生事件中将包含公共卫生事件的微生物的纸币的每次回流作为一个记录,在公共卫生事件中获取若干记录,使用聚类得到不同的簇,每个簇为一个流通模式,聚类所使用的度量距离是根据任意两个记录的长时间流通特征描述子和短时间流通特征描述子得到。公共卫生事件数据是指公共卫生事件发生前后的一系列描述性信息及其应急响应方案,可以通过人为整理为具备模板性质的文本。其中包括的语义字段可以为应急方案内容的引导句对应的语义,例如引导句“应急响应措施”的语义字段可以是“措施”、“响应”,语义字段的概念与字段相同,即一个数据条目的字段名。而引导句和对应内容则是字段名对应的数据;基于LLM的文本生成方式,只要构建微调训练后的LLM,LLM即可基于引导句续写对应的内容。一旦建立了现金态势特征的关联关系,即可根据现金态势特征来作为Token,驱动LLM根据引导句来生成符合预期的应急方案内容,例如通过本申请的TokenQ获取模块来进行实施。

本实施例提出一种典型的字段模板,作为结构化数据的格式,本实施例的每个事件数据包括以下内容。引导句:事件类型和严重程度,内容为:使用自然语言的形式描述公共卫生事件的类型和严重程度。引导句:基本情况,内容为:描述事件的起因、时间、地点、传播方式等基本情况。引导句:应急响应措施,内容为:列出针对该事件所采取的多项应急响应措施,包括隔离、检疫、医疗救治、物资保障等多个项。引导句:风险评估和预测,内容为:基于指标数据对事件的发展趋势进行评估和预测,包括但不限于感染率、死亡率。引导句:信息发布和协调机制,内容为:描述信息发布和协调机制,包括应急通讯、信息共享、指挥调度等。

以上只是一种对结构化数据的格式的实例,具体特征为对公共卫生事件建立各个字段,并在各个字段内使用自然语言和指标性数据的方式构建结构化数据,即每个公共卫生事件都对应一个结构化数据。本领域技术人员应当理解,对于公共卫生事件,可以自然地按照引导句构成传统的表格,如下表所示。

这种表格即为一种结构化数据,即表格各项的对应的标题为引导句(例如“信息发布和协调机制”),引导句对应的内容自然语言文本或指标性数据为字段对应的数据。

本实施例的技术特征为建立一种公共卫生事件数据格式,并得到结构化的公共卫生事件数据,其中的语义字段必须包含“应急响应措施”、“信息发布和协调机制”所对应的语义。即存在两个字段名称分别属于这两个含义,例如“措施”与“机制”。这是应急响应方案的核心内容。基于此基础,实施者可以进一步加入其它语义字段的引导句的设计和内容。

由于人工根据引导句使用自然语言的方式描述应急方案的各个引导句的对应内容,乃至使用指标数据对公共卫生事件进行量化的方法是认为的,属于记录标注范畴。本发明只为说明公共卫生事件数据需要以上述方式整理为结构化数据。结构化数据的详实程度、内容、准确性视实施者条件和构建的方式而定。

至此,所述的引导句与字段名表示对信息相符,例如“应急响应措施”、“信息发布和协调机制”,语义字段对应的内容即为方案内容。

本实施例基于对各个记录的长时间流通特征描述子M1、短时间流通特征描述子M2进行时间关系的分析,将结构化的公共卫生事件数据和记录进行关联,对于属于一个公共卫生事件开始和结束事件范围内含有对应微生物特征描述子W1、以及长时间流通特征描述子M1、短时间流通特征描述子M2的若干记录,都对应此次公共卫生事件的记录,即将每一次纸币的每一次回流作为一次记录,该记录包括对应纸币的长时间流通特征描述子和短时间流通特征描述子和该纸币在该次回流时的微生物特征描述子。

针对此次公共卫生事件,确定每个记录的时间间隔分布和空间分布,从而表示为当前公共卫生事件下不同的流通模式G。

对于任意两个记录,根据记录的长时间流通特征描述子和短时间流通特征描述子的时间均方误差和位置均方误差构建流通模式之间的度量函数,公式如下:

在式中,a,b任意两个记录,那么所有记录基于度量函数,可以建立整个假想空间中记录的分布,一个记录和其它记录之间有的距离较近,有的较远。

用1减去余弦相似度的方式是基于余弦相似度计算余弦距离的方法,其中根据记录中长时间流通特征描述子M1和短时间流通特征描述子M2内的时间均方误差TMSE和位置均方误差LMSE构成的四维向量,进行a、b对应的向量之间的余弦相似度的计算,然后换算为余弦距离。如果两个记录的长时间流通特征描述子和短时间流通特征描述子的时间均方误差和位置均方误差数值相似,则认为流通模式相似。

进一步的,基于计算得到的度量函数,使用DBSCAN聚类,采用minPts=20,r=0.3的参数,即只有当度量函数在0.3的范围内,数量大于20的记录才是核心点。基于此,得到不同的流通模式G,G内部有不同的簇,且存在孤立的记录,对孤立的记录进行剔除,不参与后续处理,每一个簇就是一个流通模式。

进一步的,对于一个公共卫生事件的始末过程,对应的记录会存在不同的流通模式,根据剔除W1异常的记录,确定流通模式下的W1对应的模式。

对于不同的流通模式,计算各个流通模式下所可能检出的微生物的总体微生物特征描述子W2,W1是一种二进制编码,即每个维度的数值是0或1,因此,对一个流通模式的簇内所有记录的W1进行或运算,由于W1为二进制编码,因此或运算为任意两个编码同位置存在值为1时为1,不存在值为1时为0,得到一个流通模式下所可能检出的微生物的总体微生物特征描述子W2,W2编码中大部分的值都为1。基于W2,计算簇内所有记录的W1与W2的汉明距离,汉明距离越大,说明W1与W2相同的编码越多,即W1中值为1的编码越多,在总长度为5000时,值为1的编码越多,说明值为0的越少,说明W1所能检出的微生物类型越少。

对于距离过大的,说明在相似的流通模式下,W1的分布与其它纸币不相似,不能很好代表公共卫生事件发生时的微生物特征从而剔除异常记录,因此,实施者设定阈值比例,本实施例将簇内的记录基于汉明距离递减排序,对于前10%的,视为异常记录,并进行剔除。

对于不同的流通模式,对于剔除异常的微生物特征后的记录,都有各个流通模式的记录中的短期流通特征描述子M1中平均时间间隔TM。

将每个簇内记录最多的流通模式视为主流通模式,计算主流流通模式下的短时间流通特征描述子M2中平均时间间隔TM值的均值,作为典型流通的时间间隔。根据典型流通的时间间隔重新确定此公共卫生事件的开始时间,具体的,公共卫生事件的开始时间向前推移典型流通的时间间隔的时间长度,其目的是修正开始时间,能够捕获到公共卫生事件发生前夕的W1。基于此根据新的公共卫生事件开始时间和结束时间,重新确定流通模式G,并基于各个模式的W2剔除异常的W1的记录,将新的公共卫生事件记为调整后公共卫生事件。

这样,对于自动建立一个公共卫生事件发展的过程中,得到更加准确且典型的记录,便于训练孪生网络T,从而得到更加准确的现金态势特征。

对于TokenQ获取模块而言,当一次公共卫生事件发生时,调整后公共卫生事件发生的时间范围内的所有纸币中,活跃度高且采集了微生物记录的纸币实例的记录有极大可能可以表示符合该公共卫生事件的微生物特征,与流通特征相结合,能够进一步表示微生物特征在不同流通特征下的微生物特征分布。因此,结合W1、M1、M2,根据关联的结果,训练孪生网络T。

孪生网络的作用在于区分不同的公共卫生事件的标签,并基于记录将其表示在高维空间中,从而在高维空间的距离上与其它公共卫生事件的记录距离保持较大间隔。

由于未来用于观测和实施生成公共卫生事件应急方案的记录是不统一、多版本且缺乏统一描述的,为了在GPT-2等LLM属于RNN的范式的前提下,输入统一的特征,并添加引导句,需要一种将记录W1、M1、M2描述为统一的现金态势特征Q的方法,LLM指大型语言模型。从而让LLM能够基于现金态势特征Q和引导句输出对应的内容。因此建立孪生网络T,并根据关联关系为一个公共卫生事件内的现金态势特征Q建立相同的标签,从而区分若干公共卫生事件之间的现金态势特征Q。

在孪生网络中,网络的架构是相同的,且权重在子网络中也是共享的,这样的网络被称为孪生网络。孪生网络的用途是根据指定为相同的数据和不同的数据,学习输出有用的数据描述子,这些描述子可以进一步用于在各个子网的输入之间进行比较,例如人脸识别等应用使用的训练技术为孪生网络。本发明所述孪生网络是FCN(全连接神经网络),输入是若干个数值,即现金态势特征Q。

每个记录的输入FCN的方法如下,对于一个记录,有W1、M1、M2三个描述子,将三个描述子拼接为高维的描述子,包含W1、M1、M2的所有数值。

将任意两个记录被输入网络后,对每个记录打上标签,标签为公共卫生事件的事件名字,如果记录的标签相同,则孪生网络需要将两个记录的现金态势特征Q重新描述为在高维空间相似的描述子,具体是得到两个描述子,使相同标签下的经过FCN后,余弦相似度接近1。反之接近0。

所述FCN的输出的新的描述子的维度为128维,即现金态势特征Q为128维,具体的维度数可以由人工自由限定。孪生网络的训练方法是公知的,如何迭代收敛、如何调整常规的超参数等是本领域技术人员公知的,本发明不再赘述。使用上述方法即可解决如何将纸币微生物特征、流通特征统一描述为适合在LLM作为引导信息的特征。

因此,对于任意记录,即可通过孪生网络T生成现金态势特征Q,即每个记录得到一个现金态势特征,且与其它公共卫生事件中的现金态势特征Q存在较大的高维空间差异,使得LLM能够基于现金态势特征Q和引导句生成内容。

历史发生的公共卫生事件的结构化的公共卫生事件数据可以作为微调LLM的训练集中的语料数据,但此时的语料数据还缺乏与现金态势特征的准确关联。因此需要建立现金态势特征Q和结构化的公共卫生事件数据之间的关联关系,即可根据现金态势特征Q和引导句来作为LLM的输入,从而令LLM根据先前输入来生成符合预期的应急方案内容。

基于现金态势特征Q和引导句,构建训练LLM的训练集,训练集的标签公共卫生事件数据。由于语料都是以Token来构建的,因此,现金态势特征Q还不是Token,为了将现金态势特征Q构建为Token,即分词,首先要为现金态势特征Q的各数值建立与Token的关联。具体方法是,先确定现金态势特征Q中所有数值可能达到数值范围,确定数值范围的方法是找出训练孪生网络时现金态势特征Q的某一维度的最大值和最小值,从而确定现金态势特征Q的各个数值可能达到的数值范围。

本发明基于GPT的Token进行编码,GPT使用Byte-Pair Encoding——BPE方法进行编码,假设先前预训练的GPT模型的词汇表大小为40478,现金态势特征Q的各数值的最大最小值的范围是[-1000,50000],则将现金态势特征Q的范围转换到[0,40478],即通过这种方式将现金态势特征Q转为一种文字,从而在GPT等LLM中能够捕获其特征。基于这种方法,将现金态势特征Q转为Token,记为TokenQ,TokenQ是定长的,即128个。

对于数据集,将TokenQ和引导句作为LLM的输入,输出为引导句对应的内容。

现金态势特征的Dropout的比例获取模块,语言模型中的先验知识都来自于先前预训练的语料,因为训练语言模型的大数据语料库在收集时难免会包含一些错误的信息,这些错误知识都会被学习,存储在模型参数中,模型生成文本时会优先考虑自身参数化的知识,所以更倾向生成幻觉内容,这也是自然语言生成任务中大部分幻觉的来源。

对于微调任务来说,如果记录分布不均衡,则在长尾效应的影响下,一些任务会更容易出现幻觉,即生成错误的内容,例如:假设有两种截然不同公共卫生事件的记录,LLM严重出现幻觉时,便会错误地将一种公共卫生事件现金态势特征生成出另一种公共卫生事件对应的方案的大部分内容。

训练LLM时,为了基于有限的TokenQ、引导句和对应的文本内容,需要对TokenQ进行随机的修改,称为Dropout操作,具体是将TokenQ中随机选取一部分的Token置零或转为随机字符,使得LLM能够根据部分TokenQ的信息生成正确的方案内容。

由于已经将所有现金记录中的微生物特征、长短时间的特征映射到高维空间,且现金态势特征Q与其它公共卫生事件中的现金态势特征Q存在较大的高维空间差异。考虑到LOF较大的记录属于长尾记录,LLM的作用是尽可能生成正确的内容,所以对于长尾记录,需要进一步提高Dropout操作的Token数,避免过拟合,从而导致生成幻觉内容。

具体的,LOF的计算方式为:现金态势特征Q所处的空间是一个128维的高位空间,每个现金态势特征Q就是该高维空间的一个记录点,基于余弦距离计算每个现金态势特征Q之间的距离。

在这个高维空间中,可以假设一个记录点p,LOF表示点p的K邻域点的局部可达密度与点p的局部可达密度之比的平均数,这样,LOF可以表示p是离群点的程度。

如果这个比值越接近1,说明p的其邻域点密度差不多,p可能和邻域同属一簇;如果这个比值越小于1,说明p的密度高于其邻域点密度,p为密集点;如果这个比值越大于1,说明p的密度小于其邻域点密度,p越可能是异常点。

对于每个R邻域点的局部可达密度,R值设为20,即假设一个公共卫生事件对应的现金态势特征Q至少应有20个,从而根据各记录的最近邻的20个记录计算局部可达密度。

因此,基于不同现金态势特征Q之间的余弦距离,可以计算每个现金态势特征Q对应的LOF大小。

LLM的幻觉问题通过本发明的数据集建立方法和现金态势特征Q的表示的效果,只需针对每个现金态势特征Q修正Dropout的比例便可得到更好的特征表示,在每个训练批次中,通过忽略一半的特征检测器,可以明显地减少过拟合现象。这种方式可以减少特征检测器间的相互作用,Dropout就是忽略的比例,检测器相互作用是指某些检测器依赖其他检测器才能发挥作用,进一步抑制LLM的幻觉问题。具体的,Dropout的比例依照LOF是动态的,首先需要人为设定一个最小的Dropout比例和一个最大的Dropout比例,在本实施例中设定最小的Dropout比例和最大的Dropout比例分别为5%和25%。

每个记录的现金态势特征Q的Dropout的比例为的计算方式为:计算所有现金态势特征Q对应的LOF值,LOF越大,说明Dropout的比例越大。对所有的现金态势特征Q的LFO进行线性归一化,使得最大的LOF值为0.25,最小的LOF值为0.05。归一化后的LOF值作为输入,得到TokenQ的Dropout的比例。至此,获得了每个记录现金态势特征Q的Dropout的比例。

对于应急响应方案制定模块而言,基于计算出来后的现金态势特征Q的Dropout的比例,减轻LLM训练的幻觉现象,基于训练后的LLM,使用者可以根据一个现金的此时检测的记录(W1,M1,M2),生成TokenQ,结合引导句得到用于公共卫生事件应急响应方案的文本内容。

首先将每个记录转为TokenQ,并添加引导句,对于一个应急响应方案,有多个引导句,因此需要先输入TokenQ的128个数值,然后添加引导句,例如:信息发布和协调机制;然后令LLM生成最大为若干字符长度的内容。实施者重置网络,继续基于TokenQ使用其它引导句,进而快速根据一张纸币的微生物数据和纸币近期的流通特征,让LLM从先前的公共卫生事件的方案中为其生成最合适的应急方案的各个内容。

基于各个纸币的微生物特征的检测结果,结合流通特征描述子M1和M2,可以得到各个纸币对应的TokenQ,实施者只需使用不同引导句,即可根据不同纸币得到所需要的公共卫生事件应急响应方案的文本内容。

至此,实施者可以根据一些参与检测的纸币记录,快速得到多个版本的公共卫生事件应急响应方案的文本内容,从而快速从多个版本的内容中提取重要信息,帮助制定更加科学有效的公共卫生事件应急响应方案。

以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

相关技术
  • 基于现金微生物溯源分析的公共卫生安全金融预警系统
  • 钞箱、现金处理设备及现金处理设备的信息管理系统
技术分类

06120115936640