掌桥专利:专业的专利平台
掌桥专利
首页

一种基于商旅行程业务数据的异常用户生成内容识别方法

文献发布时间:2024-04-18 19:58:53


一种基于商旅行程业务数据的异常用户生成内容识别方法

技术领域

本发明涉及数据处理技术领域,尤其涉及一种基于商旅行程业务数据的异常用户生成内容识别方法。

背景技术

随着互联网技术的发展,线上到线下的商旅行程服务在人们的日常生活中发挥着越来越重要的作用。随着在线订票的普及,在商旅行程业务中,用户会生成各种行程数据,需要尽早地识别用户信息是否有异常,确保商旅行程业务的正常运行,避免不必要的事件发生,增加用户的体验。现有的监测识别方式对商旅行程业务数据的异常用户生成内容识别效果不够高效,不能及时监测和识别异常用户生成内容,为此提出一种基于商旅行程业务数据的异常用户生成内容识别方法。

发明内容

为了解决上述问题,本发明提出一种基于商旅行程业务数据的异常用户生成内容识别方法,以更加确切地解决上述所述现有的监测识别方式对商旅行程业务数据的异常用户生成内容识别效果不够高效,不能及时监测和识别异常用户生成内容的问题。

本发明通过以下技术方案实现的:

本发明提出一种基于商旅行程业务数据的异常用户生成内容识别方法,所述方法为:

S1:通过日志记录、爬虫技术实时监测和记录商旅行程的各项数据,其中各项数据包括行程信息、用户操作、数据异常;

S2:根据行程数据的完整性、一致性、频率以及用户的操作行为,基于聚类的方法通过局部离群因子检测法的思想融合成改进算法,改进算法对各个数据的异常分数进行计算,判断行程数据所属用户是否存在异常;

S3:根据判断结果,通过SQL查询语句或者使用数据库操作工具筛选出可能存在异常的用户,并获取其相关的行程数据;

S4:通过正则表达式匹配或者字符串处理函数将获取的行程数据中的各项信息提取出来,并转换成统一的格式后,将不同来源的行程数据进行合并,以便后续的分析处理;

S5:通过自然语言处理对合并后的行程数据进行异常内容识别,识别出行程数据中的异常情况;

S6:将识别出异常的内容记录到数据库或输出到文件中,并提供给相关人员进行查看和处理,以便相关人员采取相应的措施。

进一步的,所述根据行程数据的完整性、一致性、频率以及用户的操作行为,基于聚类的方法通过局部离群因子检测法的思想融合成改进算法,改进算法对各个数据的异常分数进行计算,判断行程数据所属用户是否存在异常的步骤中,包括;

将数据聚类后,区分聚类后的大小簇,并将每簇按数据量大小从大到小排序后计算异常分数,若数据点属于大簇,则计算其与当前簇的聚类中心的距离,若数据点属于小簇,则计算他与最近的大簇的聚类中心的距离;得出异常分数,即计算出用户的行程数据的完整性异常得分、一致性异常得分、频率异常得分、操作行为异常得分指标,根据指标来判断用户是否异常;若用户的各数据的异常分数得分高于设定的阈值,则判定该用户为异常用户。

进一步的,所述数据聚类,包括;通过设

进一步的,所述区分聚类后的大小簇,包括;

进一步的,所述计算异常分数的在步骤中,包括;计算第t个点的异常分数值F,F定义为:

进一步的,所述通过正则表达式匹配或者字符串处理函数将获取的行程数据中的各项信息提取出来,并转换成统一的格式后,将不同来源的行程数据进行合并,以便后续的分析处理的步骤中,包括;

通过正则表达式匹配或字符串处理函数,提取出行程数据中不同的格式的起始时间、结束时间、地点、交通工具数据信息后,将数据信息转换成统一的格式,以方便后续的比较和分析;根据行程数据的特点和需求进行选择,将不同渠道或平台提供的数据合并成一个统一的数据集。

进一步的,所述通过自然语言处理对合并后的行程数据进行异常内容识别,识别出行程数据中的异常情况的步骤中,包括;

通过NLP技术对行程数据中的文本进行分词、词性标注和实体识别处理;将正常行程数据和异常行程数据作为训练样本通过机器学习算法训练自动判断行程数据是否异常的模型;利用训练好的模型对合并后的行程数据进行预测和分类;根据模型的输出结果,确定用户行程数据存在异常情况。

进一步的,所述将识别出异常的内容记录到数据库或输出到文件中,并提供给相关人员进行查看和处理,以便相关人员采取相应的措施的步骤中,包括;

对记录到数据库或输出到文件中的内容进行安全处理,对数据进行加密、限制数据库访问权限,以保护异常内容的隐私。

本发明的有益效果:通过实时监测和记录商旅行程数据,结合改进算法对行程数据的分析和判断,从整体上评估用户的行程数据是否存在异常,可以及时发现存在异常的用户和行程数据,通过自动化的方法对行程数据进行异常检测和识别,减少了人工审查的工作量,只有被标记为异常的行程数据才需要人工干预,其识别方法更加高效及时,节省了大量时间和资源。

附图说明

图1为本发明的一种基于商旅行程业务数据的异常用户生成内容识别方法的流程示意图。

本申请为目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。

具体实施方式

为了更加清楚完整的说明本发明的技术方案,下面结合附图对本发明作进一步说明。

请参考图1,本发明提出一种基于商旅行程业务数据的异常用户生成内容识别方法,所述方法为:

S1:通过日志记录、爬虫技术实时监测和记录商旅行程的各项数据,其中各项数据包括行程信息、用户操作、数据异常;

S2:根据行程数据的完整性、一致性、频率以及用户的操作行为,基于聚类的方法通过局部离群因子检测法的思想融合成改进算法,改进算法对各个数据的异常分数进行计算,判断行程数据所属用户是否存在异常;

S3:根据判断结果,通过SQL查询语句或者使用数据库操作工具筛选出可能存在异常的用户,并获取其相关的行程数据;

S4:通过正则表达式匹配或者字符串处理函数将获取的行程数据中的各项信息提取出来,并转换成统一的格式后,将不同来源的行程数据进行合并,以便后续的分析处理;

S5:通过自然语言处理对合并后的行程数据进行异常内容识别,识别出行程数据中的异常情况;

S6:将识别出异常的内容记录到数据库或输出到文件中,并提供给相关人员进行查看和处理,以便相关人员采取相应的措施。

具体实施方式:我们可以在商旅系统中添加日志记录功能;通过在关键业务逻辑处插入日志记录代码,我们可以实时记录用户的行程信息、操作行为以及其他相关数据;这些日志可以包括用户ID、行程时间、地点、交通工具、操作类型等信息;通过日志记录,我们可以追踪用户的行程过程,了解他们的操作行为,并记录下可能存在的异常情况,其次,我们可以使用爬虫技术来定时抓取商旅系统的数据;通过编写爬虫程序,我们可以模拟用户登录商旅系统,获取行程数据并存储到数据库或文件中;这样,我们可以实时获取最新的行程数据,并进行后续的分析和处理;在监测和记录商旅行程数据时,我们需要注意保护用户隐私和数据安全;我们可以采取一些措施,例如加密敏感数据、限制访问权限、定期清理日志和数据等,以确保用户的数据不被滥用或泄露;通过日志记录和爬虫技术,我们可以实时监测和记录商旅行程的各项数据,包括行程信息、用户操作和数据异常;这为后续的异常内容识别和问题处理提供了可靠的数据基础;为了判断行程数据所属用户是否存在异常,我们可以根据行程数据的完整性、一致性、频率以及用户的操作行为,利用基于聚类的方法和局部离群因子检测法相结合的思想来进行改进算法;首先,我们可以将行程数据按照用户进行聚类;可以将具有相似行程模式和行为特征的行程数据归为同一类别,建立每个用户的行程模型;然后,我们将数据聚类后,区分聚类后的大小簇,并将每簇按数据量大小从大到小排序后,当前几簇的和占总量的

在本实施例中,在步骤S2中,包括;将数据聚类后,区分聚类后的大小簇,并将每簇按数据量大小从大到小排序后,当前几簇的和占总量的

在本实施例中,在步骤S4中,包括;

在识别行程数据中的异常内容之前,需要对行程数据进行处理和转换,以方便后续的比较和分析;通过正则表达式匹配或字符串处理函数,提取出行程数据中不同的格式的起始时间、结束时间、地点、交通工具数据信息等信息;根据行程数据的具体格式和规则,可以编写相应的正则表达式来匹配并提取这些信息;可以使用正则表达式来匹配时间格式,如yyyy-MM-dd HH:mm,以提取起始时间和结束时间;同时,可以使用字符串处理函数来提取地点和交通工具等信息,例如从文本中截取关键词或按照固定位置进行切割;将数据信息转换成统一的格式,根据行程数据的特点和需求,选择一个统一的数据格式,例如统一使用ISO 8601标准的日期时间格式,或者将地点信息转换为经纬度坐标表示等;通过统一数据格式,可以方便后续的比较和分析;以方便后续的比较和分析;根据行程数据的特点和需求进行选择,将不同渠道或平台提供的数据合并成一个统一的数据集,即如果行程数据来自不同渠道或平台,需要将它们合并成一个统一的数据集;可以根据行程数据的来源添加一个字段来标识数据的渠道或平台,然后将各个数据源的行程数据合并到同一个数据集中;可以使用数据库操作或编程语言的数据处理函数来实现数据合并。

在本实施例中,在步骤S5中,包括;

通过NLP技术对行程数据中的文本进行分词、词性标注和实体识别处理等步骤,通过将文本转化为结构化的信息,可以更好地理解和分析文本中的内容;将正常行程数据和异常行程数据作为训练样本通过机器学习算法训练自动判断行程数据是否异常的模型,在训练过程中,模型会学习到正常行程数据和异常行程数据之间的差异,从而能够自行判断新的行程数据是否异常;利用训练好的模型对合并后的行程数据进行预测和分类,通过将行程数据输入到模型中,模型会输出一个概率或分类结果,表示该行程数据是否属于异常用户生成内容;根据模型的输出结果,确定用户行程数据存在异常情况,根据模型的输出结果,我们可以确定用户的行程数据是否存在异常情况;如果模型输出的概率高于某个阈值,我们可以认为该行程数据属于异常用户生成内容。

当然,本发明还可有其它多种实施方式,基于本实施方式,本领域的普通技术人员在没有做出任何创造性劳动的前提下所获得其他实施方式,都属于本发明所保护的范围。

技术分类

06120116511674