掌桥专利:专业的专利平台
掌桥专利
首页

一种与文本背景时间相关的不合规信息检测方法

文献发布时间:2024-04-18 19:58:53


一种与文本背景时间相关的不合规信息检测方法

技术领域

本发明涉及中英文自然语言处理、信息检索领域,更具体地说是涉及与文本背景时间相关的不合规信息检测方法。

技术背景

中文作为一种复杂的象形文字,存在较多形似、音似字,且由于历史文化的发展,还出现了一些异体字。在信息技术普及之前,属于传统的书籍出版时代,各类信息由具备较高文化素养的知识分子撰写,并经过出版社或编辑部编辑的审校,较少出现错别字和不合规信息。但随着信息技术的发展,人们日益使用计算机编写各类文档,尤其在互联网时代,信息传播加速,各类信息呈爆炸性增长。在互联网时代,尤其是自媒体爆炸发展的当今,越来越多的人成为互联网信息的提供者,这些人的文化素养良莠不齐,且不再有专业文字编辑的审校,错误信息的出现日渐频繁。

信息爆炸使得人工即时检查变得困难。大量的已经产生的信息,随着时间的推移,也可能出现新的与当前经济和政治形势相关的不合规问题。目前,针对上述棘手问题已出现了多种技术手段,最常见的是基于关键词的信息过滤技术。与文本时间相关的不合规信息无法通过基于关键词的信息过滤技术识别。基于搜索引擎文件索引的方法是另一种常见技术手段,该方法适合对大量文件的批量处理,同样无法识别与文本背景时间相关的不合规信息。

相当数量的不合规信息与文本的背景时间密切相关。举例来说,广西壮族自治区成立于1958年3月5日。假定某2022年发表的文章,讨论的是1955年广西的相关事情,使用“广西省”的说法是可以的。同样,假定某2022年发表的文章,讨论的是1959年广西的相关事情,则必须使用“广西壮族自治区”或“广西”的说法,使用“广西省”的说法不再合规。这突出反映了文本背景时间的重要性。

因此,使用技术手段识别文本信息中与背景时间相关的不合规信息,减少误判,提高文本审核效率,是摆在各出版社、报刊杂志、政府网站、新闻网站、论坛网站等信息传播源管理人员面前的亟待解决的问题,也是净化网络环境,营造晴朗网络空间的内在要求。

发明内容

为此,本发明提供了一种与文本背景时间相关的不合规信息检测方法,通过自然语言处理技术和信息检索技术,可以完成与文本背景时间相关的不合规信息的实时检测。本发明支持中文、英文以及中英文和数字混合的不合规信息的检测。

为达成上述目标,本发明提供的技术方案,包含以下内容:

1.不合规信息资源整理

整理不合规信息资源,区分是否与文本背景时间相关,并记录相关的背景时间和正确表述。

2.背景时间识别

对传入的文本流,按照GBK编码读入内存。对文本进行段落和句子的划分,记录段落和句子的起始和结束位置。对句子进行背景时间识别,记录句子背景时间,若某句子中包含多个背景时间,取最大时间为句子背景时间。识别标题的背景时间作为全局重要时间参考。

3.确定其它没有背景时间的句子的背景时间

根据算法确定其它没有背景时间的句子的背景时间。若标题含有背景时间,则所有没有背景时间的句子的背景时间为标题的背景时间;若标题无背景时间,则按段确定句子背景时间,若某段中所有句子均未识别到背景时间,则该段所有句子背景时间设为当前年份;若某段包含单一背景时间,则全段所有未包含背景时间的句子统一赋值为该单一背景时间;若某段中包含多个句子多个背景时间,则根据算法确定其它没有背景时间的句子的背景时间。

4.识别与背景时间相关的不合规信息并获取其正确表述

顺序扫描文本流数据,对文本的每个句子做正向最大匹配分词处理。顺序扫描切分的词语,如果检测到疑似不合规信息,则根据该信息关联的时间和文本的背景时间,判定是否合规。具体判定规则与该不合规信息分类相关。对判定不合规的信息,返回其正确表述。

附图说明

图1图示出了一种与文本背景时间相关的不合规信息检测方法的示意图。

实施方式

为使本发明的技术方案更加清晰明白,以下对本发明所述方案作进一步地详细说明。

本发明提供了一种与文本背景时间相关的不合规信息的检测方法,通过自然语言处理技术和信息检索技术,可以有效检测与文本背景时间相关的不合规信息。参照附图,本发明提供的方法包含如下步骤:

1.不合规信息资源整理

参考国家相关法律法规和管理规范,整理不合规信息,区分是否与文本背景时间相关,并记录相关的背景时间和正确表述。

2.句子背景时间识别

对传入的文本流,按照GBK编码读入内存。对文本进行段落和句子的划分,记录段落和句子的起始和结束位置。对段落和句子进行时间识别,记录句子和段落背景时间。具体的识别方法如下:(1)寻找句子中以阿拉伯数字计数的年份,比如1956年,识别年份;(2)寻找句子中以中文数字计数的年份,比如一九九六年,识别年份;(3)寻找句子中以纪年计数的年份,比如康熙十二年、康德十一年、二十世纪20年代等,换算为公元纪年年份;(4)寻找特色历史时期或特殊人物,比如某某战争时期、某人等,以特色历史时期或特殊人物定位年份;(5)寻找句子中的特殊时间格式,比如(1949-2009)等,取最大值作为年份。

若某句子中包含多个时间,取最大时间为句子背景时间。

识别标题的背景时间作为全局重要时间参考。

3.无背景时间的句子的背景时间设置

若标题含有背景时间,则所有没有背景时间的句子的背景时间为标题的背景时间;若标题无背景时间,则按段确定句子背景时间,若某段中所有句子均未识别到背景时间,则该段所有句子背景时间设为当前年份;若某段包含单一背景时间,则全段所有未包含背景时间的句子统一赋值为该单一背景时间;若某段中包含多个句子多个背景时间,则根据算法确定其它没有背景时间的句子的背景时间,算法如下:(1)第一个句子如果有背景时间,其后连续的没有背景时间的句子,赋值为第一个句子的背景时间;(2)第一个句子若无背景时间,则顺序查找到第一个具有背景时间的句子N,前N-1个句子的背景时间赋值为第N个句子的背景时间;(3)依次顺序扫描,若句子J-K(K>=J)没有背景时间,则J-K句子的背景时间赋值为J-1句子的背景时间;(4)重复步骤(3)直到所有句子完成背景时间赋值。

4.与背景时间相关的不合规信息识别并获取正确表述

与背景时间相关的不合规信息检测以句子为处理单位。对句子进行正向最大匹配分词处理,也可采用其它分词算法。顺序扫描切分的词语,如果检测到疑似不合规信息,则比较该信息关联的时间和文本的背景时间,如果该信息关联的时间小于等于句子的背景时间,通常认为是不合规表述;如果该信息关联的时间大于句子的背景时间,通常认为是合规表述。具体判定规则与该不合规信息分类相关。对判定不合规的信息,查询不合规信息资源库,找到相应的正确表述并返回。

虽然本发明所揭露的实施方式如上,但所述的内容只是为了便于理解本发明而采用的实施方式,并非用以限定本发明。任何本发明所属技术领域内的技术人员,在不脱离本发明所揭露的精神和范围的前提下,可以在实施的形式上及细节上作任何的修改与变化,但本发明的专利保护范围,仍须以所附的权利要求书所界定的范围为准。

技术分类

06120116513934