掌桥专利:专业的专利平台
掌桥专利
首页

一种新闻标题相似度识别方法

文献发布时间:2023-06-19 13:49:36



技术领域

本发明涉及文本识别技术领域,具体为一种新闻标题相似度识别方法。

背景技术

现有相似文本识别技术在计算文本相似度时,主要采用基于词典或者特征工程的文本相似度计算技术,词典或者特征工程的准确性,在很大程度上影响算法准确性。

但是,针对词汇量少、语义信息少的短文本,如新闻标题来说,难以建立准确的词典或者特征工程,将导致现有相似文本识别技术难以捕捉短文本中的关键信息,相似度计算效果较差,相似文本识别率低。

即现有相似文本识别技术存在针对新闻标题等短文本的相似文本识别率低的技术问题。

发明内容

为实现上述目的,本发明采取的技术方案为:

一种新闻标题相似度识别方法,包括以下步骤:

1.输入两个标题;

2.对两个标题中的特殊字符进行剔除;

3.对剔除后的标题内容进行相同字符统计,得出相同字数;

4.计算相同字符数与最短的标题的比值,比值大于0.5即判定为相似,否则判定为不相似。

工作原理和有益效果:简单,快速,可移植强。

具体实施方式

根据下述实施例,可以更好地理解本发明。

一种新闻标题相似度识别方法,包括以下步骤:

1.输入两个标题;如:a:“我国超一半人感染幽门螺杆菌!”,b:“我国超一半人已感染幽门螺杆细菌”;

2.对两个标题中的特殊字符进行剔除;

3.对剔除后的标题内容进行相同字符统计,得出相同字数;

4.计算相同字符数与最短的标题的比值,比值大于0.5即判定为相似,否则判定为不相似。

相关技术
  • 一种新闻标题相似度识别方法
  • 一种基于字体颜色的新闻标题识别方法及装置
技术分类

06120113821803