掌桥专利:专业的专利平台
掌桥专利
首页

一种从大段文字信息中获取关键信息的方法和系统

文献发布时间:2023-06-19 12:13:22



技术领域

本发明涉及数据分析和数据处理技术领域,具体提供一种从大段文字信息中获取关键信息的方法和系统。

背景技术

数据处理是对数据的采集、存储、检索、加工、变换和传输,是从大量的、可能是杂乱无章的、难以理解的数据中抽取并推导出对于某些特定的人们来说是有价值、有意义的数据。数据处理是系统工程和自动控制的基本环节,贯穿于社会生产和社会生活的各个领域。利用数据采集技术大规模地采集需要的数据,然后在收集的数据里获取所需要的关键信息,是数据更加有意义。

在生活中,进行数据收集的时候,肯定会有收集到大段的数据,无论是何种的大段信息,如果不能有进行有效的处理,从中获取所需要的关键信息,对人们来说都是无意义的数据。大段的数据里面肯定有大量的文字信息或者符号,或者我们不需要的字符符号等,通过进行进一步的数据处理和识别之后,让数据更容易使用,更容易获取我们所需要的数据。通过自己所需信息的关键字,从大量文字信息中获取需要的信息。

发明内容

本发明的技术任务是针对上述存在的问题,提供一种简单易操作,能够快速的获取所需信息的从大段文字信息中获取关键信息的方法。

本发明进一步的技术任务是提供一种从大段文字信息中获取关键信息的系统。

为实现上述目的,本发明提供了如下技术方案:

一种从大段文字信息中获取关键信息的方法,包括如下步骤:

S1、数据预处理:根据文字内容特点分隔文字基本信息,得到包含关键词的短句;

S2、提取包含关键词的短语中的的关键信息。

作为优选,步骤S1中,从包含关键词的短句中去除与关键词数据间的干扰符号。

作为优选,在VBA语言中,实现对文字基本信息的分隔。

作为优选,在VBA语言中,提取分割后包含关键词的短句。

一种从大段文字信息中获取关键信息的系统,包括数据预处理模块和关键信息提取模块,数据预处理模块用于根据文字内容特点分隔文字基本信息,得到包含关键词的短句;关键信息提取模块用于提取包含关键词的短语中的的关键信息。

作为优选,所述数据预处理模块从包含关键词的短句中去除与关键词数据间的干扰符号。

作为优选,所述数据预处理模块中,在VBA语言中,实现对文字基本信息的分隔。

作为优选,所述数据预处理模块中,在VBA语言中,提取分割后包含关键词的短句。

与现有技术相比,本发明的从大段文字信息中获取关键信息的方法具有以下突出的有益效果:通过本发明所述的从大段文字信息中获取关键信息的方法可以方便快速的提取所述的关键信息,并且准确率较高,能够满足人们对关键信息的需求,充分的利用大段文字信息,具有良好的推广应用价值。

具体实施方式

下面将结合实施例,对本发明的从大段文字信息中获取关键信息的方法和系统作进一步详细说明。

实施例

本发明的从大段文字信息中获取关键信息的方法包括如下步骤:

S1、数据预处理:根据文字内容特点分隔文字基本信息,得到包含关键词的短句;

S2、提取包含关键词的短语中的的关键信息。

其中步骤S1中,从包含关键词的短句中去除与关键词数据间的干扰符号。在VBA语言中,实现对文字基本信息的分隔。并且在VBA语言中,提取分割后包含关键词的短句。

本发明的从大段文字信息中获取关键信息的系统,包括数据预处理模块和关键信息提取模块,数据预处理模块用于根据文字内容特点分隔文字基本信息,得到包含关键词的短句;关键信息提取模块用于提取包含关键词的短语中的的关键信息。

数据预处理模块从包含关键词的短句中去除与关键词数据间的干扰符号。数据预处理模块中,在VBA语言中,实现对文字基本信息的分隔。数据预处理模块中,在VBA语言中,提取分割后包含关键词的短句。

利用本发明所述的从大段文字信息中获取关键信息的方法的一个具体实施例如下:

以网络零售平台的水产品为例,从中选出具有代表性的几个例子展示采集到的商品基本信息所具有的形式,每一个商品基本信息都是一大段文字,如下:

例1

品牌:海鲜颂商品名称:海鲜颂调味大黄鱼大黄花鱼福建宁德冷冻三去黄鱼海鲜水产500g商品编号:16752821418店铺:海鲜颂官方旗舰店商品毛重:500.00g保存状态:冷冻原产地:中国大陆重量:500g以下海水/淡水:海水国产/进口:国产包装:简装分类:黄鱼/黄花鱼烹饪建议:火锅,炒菜,煎炸,蒸菜,烧烤更多参数》。

例2

{”基本信息”:[{”生产日期”:“2016年08月19日至2016年08月19日”},{”包装方式”:”包装”},{”品牌”:”CENTURY/鲜得味”},{”重量(g)”:”180”},{”食品工艺”:”腌制水产”},{”商品条形码”:”748485900766”},{”产地”:”泰国”},{”套餐份量”:”5人份”},{”套餐周期”:”1周”},{”配送频次”:”1周2次”},{”厂名”:”泰万发工业有限公司”},{”厂址”:”泰国”},{”厂家联系方式”:”59760411”},{”配料表”:”详见包装”},{”储藏方法”:”阴凉干燥,不受阳光直射处”},{”保质期”:”1095”},{”食品添加剂”:”详见包装”}]}。

处理流程如表1所示:

表1

具体的如下所述:为叙述简洁,作如下规定。记重量关键词集合为:

Keywords={z1,z2,z3}, (1)

其中,z1=“净含量”,z2=“重量”,z3=“商品毛重”

记重量单位的集合为:Unit=Unit1∪Unit2, (2)

其中,Unit1={u1,u2,u3,u4},Unit2={u5,u6,u7},

u1=“g”,u2=“千克”,u3=“公斤”,u4=“两”,u5=“g”,u6=“克”,u7=“斤”,

记数字集合为:R,记表示重量数值范围的连接符号集合为Link={-,--}。

下面以“重量”这个重量关键词、“g”这个重量单位、“-”这个连接符号以及VBA编程语言为例,说明处理过程。

第一步预处理

根据商品基本信息特点分隔商品基本信息,得到包含重量关键词“净含量”、“重量”、“商品毛重”等重量关键词的短句(记为ShortSentence),并去除上述关键词与重量数据间的干扰符号。例如根据空格将例1类型的商品基本信息分隔;根据逗号将例4类型的商品基本信息分隔,同时将“重量(g)”与数字间的干扰符号”去掉(不同的平台之间此处的干扰符号可能不同,同一个平台上此处的干扰符号基本相同)。在VBA语言中,可用SPLIT函数实现如上所述对商品基本信息的分隔,结果记为SplitResult,若以空格为分隔符,则:SplitResult=SPLIT(ShortSentence,””);可用FILTER函数提取分隔后包含重量关键词的短句,结果记为FilterResult,

例如:FilterResult=FILTER(SplitResult,”重量“,TRUE);

若重量关键字和重量单位间有干扰符号,可用REPLACE函数将干扰符号(以引号”为例)替换为空值,即删除干扰符号,结果不妨仍记为FilterResult:

FilterResult=REPLACE(FilterResult,””””,””).

根据VBA编程语言语法规则,符号和字符串需要用一对引号“”包围起来,而当符号和字符串本身为引号“时,需用两个“表示一个引号。

其他主流编程语言均有类似的实现分隔、替换功能的函数。为了叙述简洁,以

下提到的函数均以VBA语言具有的函数举例。

第二步提取数字和单位(结果中可能包含表示范围的符号-或符号--)

由预处理得到的结果有以下两种模式:

[模式1:]*+重量关键词+数值[[+单位]+连接符+数值]+单位+*

[模式2:]*+重量关键词+(+单位+)+数值+*

其中,符号“*”代表0个或者多个任意字符,而符号“+”和“[]”有特殊含义:

“+”号连接了语句各组分,“[]”代表可能存在也可能不存在的语句组分。

对于模式1:根据重量关键字和重量单位分别在FilterResult中的位置,提取

出其中的重量关键字和重量单位部分,记为NumUnit。在VBA中,可用函数LEN获得字符串长度,例如:

LEN(“重量”)=2

LEN(“g”)=1;

可用INSTR函数获取位置,记重量关键词、重量单位的起始位置为a,b:

a=INSTR(FilterResult,“重量”),

b=INSTR(FilterResult,“g”).

那么待提取出的重量数字和重量单位的起始位置为:

a+LEN(“重量”)

待提取出的重量数字和重量单位的总长度为:

b+LEN(“g”)-l1-LEN(“重量”).

可用MID函数得到提取结果:

NumUnit=MID(FilterResult,a+LEN(“重量”),b+LEN(“g”)-l1-LEN(“重量”))

对于模式2:可根据模式1的思路处理。

a=INSTR(FilterResult,“g”),

b=LEN(FilterResult),

则提取结果为:

NumUnit=MID(FilterResult,a+LEN(“g”)+1,b-a-LEN(“g”))。

以上所述的实施例,只是本发明较优选的具体实施方式,本领域的技术人员在本发明技术方案范围内进行的通常变化和替换都应包含在本发明的保护范围内。

相关技术
  • 一种从大段文字信息中获取关键信息的方法和系统
  • 一种快速频道切换时获取关键信息的方法、装置和系统
技术分类

06120113211766