掌桥专利:专业的专利平台
掌桥专利
首页

一种提取智能家居行业动态信息的方法和系统

文献发布时间:2023-06-19 10:08:35


一种提取智能家居行业动态信息的方法和系统

技术领域

本发明涉及计算机技术领域,特别是涉及一种提取智能家居行业动态信息的方法和系统。

背景技术

智能家居行业作为互联网时代的新兴产业,伴随5G和物联网技术的高速发展呈现出了更强的增长趋势,如何基于市场最新发展动态及时做出反应和决策,成为抓住智能家居市场的关键。智能家居行业动态的主要来源是互联网资讯文章,传统的行业动态分析借助人工在庞大的文章报告中阅读查找相关数据,并进行整理记录,例如通过人工翻阅各大新闻类网站和媒体,从中选取有用信息组成行业周报和行业月报,这个工作需要由专门的人员每周花费2-3个工作日进行资料查找、筛选、排版等工作,需要消耗大量人力资源。同时,用户意图识别的任务可以抽象为自然语言处理中的文本分类任务,可以使用相关算法实现自动意图识别代替人工识别操作。文本分类是指对给定的非结构化文本,根据相应的分类算法或模型,得到文本对应的类别,用于相关判断。而传统的机器学习算法基于人工特征工程提取文本特征,在文本分类上的准确率和鲁棒性上都存在一定局限,且基于传统循环神经网络和卷积神经网络的深度学习算法对于训练数据的质量要求也较高。

发明内容

鉴于以上所述现有技术的缺点,本发明的目的在于提供一种提取智能家居行业动态信息的方法和系统,用于解决现有技术中存在的技术问题。

为实现上述目的及其他相关目的,本发明提供一种提取智能家居行业动态信息的方法,包括以下步骤:

通过网络爬虫自动获取与智能家居行业关联的资讯文章,并存储至数据库中;

对获取的资讯文章进行清洗,并对清洗后的资讯文章进行词性标注和命名实体识别;

在完成实体识别以及对资讯文章进行的词性标注后,根据中文的词性句法和知识库中的先验关系,从资讯文章中提取出结构化数据组合;

将历史时刻智能家居行业研究报告中各个板块的文章作为训练数据,训练深度卷积神经网络文本分类模型,并利用训练后的深度卷积神经网络文本分类模型确定清洗后的资讯文章是否属于智能家居行业动态信息,以及确定清洗后的资讯文章属于智能家居行业中哪个子板块;

对清洗后的资讯文章进行打分,并从清洗后的资讯文章中选取目标段落作为智能家居行业研究报告中的文章摘要;

使用历史时刻智能家居行业研究报告作为模板,根据所述结构化数据组合、各个子板块动态资讯文章和文章摘要定期构建智能家居行业研究报告。

可选地,包括利用目标函数确定清洗后的资讯文章属于智能家居行业中哪个子板块;所述目标函数的表达式如下:

其中

可选地,若负样本的

可选地,所述结构化数据组合包括:时间、销量、金额、增长、产品、机构和企业。

可选地,对清洗后的资讯文章进行打分,包括按照预先定制的评分标准对文章段落的位置、长度、数词量、关键词频进行打分。

可选地,所述资讯文章包括:智能家居行业门户网站资讯、媒体新闻资讯文章、行业分析文章、互联网新闻和微信公众号文章。

可选地,对所述资讯文章清洗包括:对所述资讯文章进行停用词筛选、去除所述资讯文章的网页标签和去除所述资讯文章的超链接。

可选地,对清洗后的资讯文章进行词性标注和命名实体识别,包括:

使用训练好的词性标注模型BiGRU-CRF结合智能家居行业关键词和对应产品的三元组对关系文章针对性进行词性标注和命名实体识别。

本发明还提供一种提取智能家居行业动态信息的系统,包括有:

采集模块,用于通过网络爬虫自动获取与智能家居行业关联的资讯文章,并存储至数据库中;

清洗模块,用于对获取的资讯文章进行清洗,并对清洗后的资讯文章进行词性标注和命名实体识别;

结构化数据模块,用于在完成实体识别以及对资讯文章进行的词性标注后,根据中文的词性句法和知识库中的先验关系,从资讯文章中提取出结构化数据组合;

分类模块,用于将历史时刻智能家居行业研究报告中各个板块的文章作为训练数据,训练深度卷积神经网络文本分类模型,并利用训练后的深度卷积神经网络文本分类模型确定清洗后的资讯文章是否属于智能家居行业动态信息,以及确定清洗后的资讯文章属于智能家居行业中哪个子板块;

摘要提取模块,用于对清洗后的资讯文章进行打分,并从清洗后的资讯文章中选取目标段落作为智能家居行业研究报告中的文章摘要;

报告构建模块,用于使用历史时刻智能家居行业研究报告作为模板,根据所述结构化数据组合、各个子板块动态资讯文章和文章摘要定期构建智能家居行业研究报告。

可选地,包括利用目标函数确定清洗后的资讯文章属于智能家居行业中哪个子板块;所述目标函数的表达式如下:

其中

若负样本的

如上所述,本发明提供一种提取智能家居行业动态信息的方法和系统,具有以下有益效果:

本发明基于智能家居领域,在行业动态数据捕捉提取任务上,提出构建一套自动化行业动态趋势捕捉并自动生成报告的方法。在文章结构化信息抽取上,基于智能家居行业背景提出一种结合行业先验知识和自然语言处理序列标注的智能化行业动态数据提取方式,同时结合基于深度学习的文本分类模型和多类指标的段落摘要提取,自动生成行业研究报告。而且本发明还具有以下优点:

(1)通常文本数据挖掘处理一般为停用词筛选、网页标签及超链接去除等。本发明在此基础上,融入了智能家居行业垂直领域知识,通过引入智能家居行业词表对模型输入文本的领域关键词位置进行特征加强,同时针对智能家居行业中企业与旗下产品的关系知识库,利用远程监督的方式,在进行实体识别时,提前确定语义角色,为后续数据抽取提供先验知识。通过两种特殊处理方式增加行业信息融入到机器学习模型,将机器学习模型鲁棒性的准确率较一般算法提供了15%以上。

(2)传统深度学习文本分类采用的卷积神经网络,网络模型较浅,特征抽取和表示能力不强,对于语言学知识与上下文模式学习不足。本专利使用深层叠加的DPCNN网络结构,通过残差连接的方式加强信息在深层网络中的流通,语义特征提取能力和上下文模式学习能力较传统模式提高了20%以上。

(3)在信息产生和流通速度急剧上升,语义分析和自然语言处理技术日益完善的今天,再依靠人工手动翻阅和查找媒体资讯,编辑行业报告的行为已然过时,本方法以行业分析的实际需求为出发点,着力于提高行业研究和分析的覆盖面和效率,不仅为智汇家庭行业的研究报告提供了高效的解决方案,也可通过修改行业词表为其他行业提供实际应用场景的定制解决方案。

附图说明

图1为提取智能家居行业动态信息的方法框架示意图;

图2为提取智能家居行业动态信息的建模流程示意图。

具体实施方式

以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。

需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,遂图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制,其实际实施时各组件的型态、数量及比例可为一种随意的改变,且其组件布局型态也可能更为复杂。

请参阅图1和图2,本发明提供一种提取智能家居行业动态信息的方法,包括以下步骤:

通过网络爬虫自动获取与智能家居行业关联的资讯文章,并存储至数据库中;

对获取的资讯文章进行清洗,并对清洗后的资讯文章进行词性标注和命名实体识别;

在完成实体识别以及对资讯文章进行的词性标注后,根据中文的词性句法和知识库中的先验关系,从资讯文章中提取出结构化数据组合;

将历史时刻智能家居行业研究报告中各个板块的文章作为训练数据,训练深度卷积神经网络文本分类模型,并利用训练后的深度卷积神经网络文本分类模型确定清洗后的资讯文章是否属于智能家居行业动态信息,以及确定清洗后的资讯文章属于智能家居行业中哪个子板块;

对清洗后的资讯文章进行打分,并从清洗后的资讯文章中选取目标段落作为智能家居行业研究报告中的文章摘要;

使用历史时刻智能家居行业研究报告作为模板,根据所述结构化数据组合、各个子板块动态资讯文章和文章摘要定期构建智能家居行业研究报告。

根据上述记载,包括利用目标函数确定清洗后的资讯文章属于智能家居行业中哪个子板块;所述目标函数的表达式如下:

其中

若负样本的

本方法采用爬虫结合基于深度学习的自然语言处理技术,利用爬虫对全网海量智能家居相关数据和文章进行爬取,以提供给深度学习模型进行自我学习和训练。将智能家居垂直领域词表与深度学习模型相融合,构建智能家居领域专有的机器学习算法,识别归类海量智能家居行业相关文章中最有价值的段落或语句,对文章内趋势数据通过自然语言结构化提取并重构,使之成为可直接发布的权威行业研究报告。不但节省了每周的人员工作量,还将工作效率提高了98%以上,筛选的数据范围和有效性提高了200%以上。

在一示例性实施例中,处理流程按4个环节进行:

1、数据采集:数据来源于权威媒体、互联网新闻以及微信公众号文章,通过爬虫技术自动抽取出有关新闻资讯报道和行业分析文章。

2、数据预处理:通常文本数据处理一般为停用词筛选、网页标签及超链接去除等。本项目在此基础上,融入了智能家居行业垂直领域知识,通过引入智能家居行业词表对模型输入文本的领域关键词位置进行特征加强,同时针对智能家居行业中企业与旗下产品的关系知识库,利用远程监督的方式,在进行实体识别时,提前确定语义角色,为后续数据抽取提供先验知识。通过两种特殊处理方式增加行业信息融入到机器学习模型,将机器学习模型在智能家居文本数据上的鲁棒性较一般算法提高了15%以上。

3、信息提取:通过对处理清洗后的文章,利用深度学习序列标注模型对文章进行词性标注和命名实体识别。结合智能家居领域知识库,对文章中的智能家居关键词位置的embedding进行加权,使模型更加注意该位置及附近词汇,同时通过智能家居企业与产品关系库,优先对产品与企业的位置进行标记提取,进而提供先验知识,提高模型的准确率。根据词性标注和远程监督提取的智能家居产品企业信息,通过基于词法句法的规则引擎对产品的销量、增长动态以及发生时间等数据进行抽取,构建结构化分析数据。

4、产业研究报告构建:通过使用历史产业研究报告作为模板,利用历史产业研究报告中的各个板块的文章作为训练数据,训练DPCNN文本分类模型,将爬虫采集的文章定位到各个子版块之中,并根据文章段落的位置、长度、数词量、关键词频按照定制的评分标准进行打分,选取目标语句和段落作为研究报告中的文章摘要,定时构建行业最新动态产业研究报告。

根据上述记载,本发明是机器学习算法和智能家居行业业务特征深度结合,经过大量实践摸索研究的具有较好预测效果的自然语言分析业务流程,算法高效,针对性强,工序流程高度契合数据分析业务,抽取数据并生成报告成功率较高的流程。对智能家居行业研究报告生成所使用的数据源主要由各大门户网站与行业内微信公众号组成。将相关文章资讯数据进行抽取、清洗、加工、整理、加载。运用深度学习序列标注模型BiGRU和深度卷积神经网络模型DPCNN对文本分别进行数据抽取和文章归类,分析结果并通过生成智能研究报告进行展示,供分析人员进行查阅和分析。本发明在工程应用实践中,相较文本数据挖掘项目普遍采用的基于规则提取流程和与通用技术方法,本发明具有明显较高的独创性、开创性和效益优势。

在另一示例性实施例中,结合网络爬虫和深度学习提取智能家居领域行业动态结构化数据的技术方案包括如下步骤:

步骤(1):通过网络爬虫对智能家居行业门户网站、新闻资讯网站、微信公众号等多渠道文章进行爬取,并存储在数据库中;

步骤(2):对爬取数据进行清洗包括停用词筛选、网页标签及超链接去除等,同时融入了智能家居行业垂直领域知识,通过引入智能家居行业词表对模型输入文本的领域关键词位置进行特征加强,针对智能家居行业中企业与旗下产品的关系知识库,利用远程监督的方式,在进行实体识别时,提前确定语义角色,为后续数据抽取提供先验知识;

步骤(3):使用训练好的词性标注模型BiGRU-CRF结合智能家居行业关键词和企业对应产品的三元组对关系文章针对性进行词性标注和命名实体识别;

步骤(4):通过提取的实体以及对文章进行的词性标注,根据中文的词性句法结合知识库中的先验关系,提取包括时间、销量、金额、增长、产品、机构、企业等多元结构化的数据组合。

步骤(5):通过使用历史产业研报作为模板,利用历史产业研究报告中的各个板块的文章作为训练数据,训练DPCNN文本分类模型,确定文章是否属于智能家居行业动态新闻,并确定属于哪一个行业需求分析子版块;

步骤(6):根据文章段落的位置、长度、数词量、关键词频进行打分,选取重要段落作为研报中的文章摘要;

步骤(7):根据历史模板,通过加入上述抽取的结构化数据与各个板块动态消息文章,构建定期的行业研究报告。

在另一示例性实施例中,智能提取家居行业动态信息的方法步骤包括:

步骤(1):通过网络爬虫对智能家居行业门户网站、新闻资讯网站、微信公众号等多渠道文章进行爬取,记录文章的标题、内容、发布时间等一系列信息并存储在数据库中;

步骤(2):原始的爬虫文本数据中存在大量无效的图片地址和网页标签,需要先进行数据预处理,具体的预处理方式是通过编写正则表达式对文本进行过滤,识别出指定字段的内容,再对字段内容进行清洗,去除标点符号、语气词等内容,得到有效数据;

融入智能家居行业垂直领域知识,通过引入智能家居行业词表对模型输入文本的领域关键词位置进行特征加强,针对智能家居行业中企业与旗下产品的关系知识库,利用远程监督的方式,在进行实体识别时,提前确定语义角色,为后续数据抽取提供先验知识;

步骤(3):使用训练好的词性标注模型BiGRU-CRF结合智能家居行业关键词和企业对应产品的三元组对关系文章针对性进行词性标注和命名实体识别;

步骤(4):通过提取的实体以及对文章进行的词性标注,根据中文的词性句法结合知识库中的先验关系,提取包括时间、销量、金额、增长、产品、机构、企业等多元结构化的数据组合。

步骤(5):通过使用历史产业研报作为模板,利用历史产业研究报告中的各个板块的文章作为训练数据,训练DPCNN文本分类模型,确定文章是否属于智能家居行业动态新闻,并确定属于哪一个行业需求分析子版块;

由于各个板块的文本数据与非智能家居文本数据之间存在样本不均衡问题,非智能家居文章数量通常高于智能家居行业文章,对比通常在分类任务中使用的交叉熵损失,在训练中采用Focal Loss能让模型更多关注样本较少的板块种类,提高对小比例种类的预测准确度。

多分类情况下目标函数:

其中

负样本远比正样本多的话,模型会倾向于数目多的负类(全部样本都判为负类),这时候,负类的

步骤(6):根据文章段落的位置、长度、数词量、关键词频进行打分,选取重要段落作为研报中的文章摘要;

步骤(7):根据历史模板,通过加入上述抽取的结构化数据与各个板块动态消息文章与摘要,构建定期的行业研究报告;

根据上述记载,本发明基于智能家居领域,在行业动态数据捕捉提取任务上,提出构建一套自动化行业动态趋势捕捉并自动生成报告的方法。在文章结构化信息抽取上,基于智能家居行业背景提出一种结合行业先验知识和自然语言处理序列标注的智能化行业动态数据提取方式,同时结合基于深度学习的文本分类模型和多类指标的段落摘要提取,自动生成行业研究报告。而且本发明还具有以下优点:

(1)通常文本数据挖掘处理一般为停用词筛选、网页标签及超链接去除等。本发明在此基础上,融入了智能家居行业垂直领域知识,通过引入智能家居行业词表对模型输入文本的领域关键词位置进行特征加强,同时针对智能家居行业中企业与旗下产品的关系知识库,利用远程监督的方式,在进行实体识别时,提前确定语义角色,为后续数据抽取提供先验知识。通过两种特殊处理方式增加行业信息融入到机器学习模型,将机器学习模型鲁棒性的准确率较一般算法提供了15%以上。

(2)传统深度学习文本分类采用的卷积神经网络,网络模型较浅,特征抽取和表示能力不强,对于语言学知识与上下文模式学习不足。本专利使用深层叠加的DPCNN网络结构,通过残差连接的方式加强信息在深层网络中的流通,语义特征提取能力和上下文模式学习能力较传统模式提高了20%以上。

(3)在信息产生和流通速度急剧上升,语义分析和自然语言处理技术日益完善的今天,再依靠人工手动翻阅和查找媒体资讯,编辑行业报告的行为已然过时,本方法以行业分析的实际需求为出发点,着力于提高行业研究和分析的覆盖面和效率,不仅为智汇家庭行业的研究报告提供了高效的解决方案,也可通过修改行业词表为其他行业提供实际应用场景的定制解决方案。

本发明还提供一种提取智能家居行业动态信息的系统,包括有:

采集模块,用于通过网络爬虫自动获取与智能家居行业关联的资讯文章,并存储至数据库中;

清洗模块,用于对获取的资讯文章进行清洗,并对清洗后的资讯文章进行词性标注和命名实体识别;

结构化数据模块,用于在完成实体识别以及对资讯文章进行的词性标注后,根据中文的词性句法和知识库中的先验关系,从资讯文章中提取出结构化数据组合;

分类模块,用于将历史时刻智能家居行业研究报告中各个板块的文章作为训练数据,训练深度卷积神经网络文本分类模型,并利用训练后的深度卷积神经网络文本分类模型确定清洗后的资讯文章是否属于智能家居行业动态信息,以及确定清洗后的资讯文章属于智能家居行业中哪个子板块;

摘要提取模块,用于对清洗后的资讯文章进行打分,并从清洗后的资讯文章中选取目标段落作为智能家居行业研究报告中的文章摘要;

报告构建模块,用于使用历史时刻智能家居行业研究报告作为模板,根据所述结构化数据组合、各个子板块动态资讯文章和文章摘要定期构建智能家居行业研究报告。

在本发明中,该系统执行上述方法,具体功能和技术效果参照上述实施例即可,此处不再赘述。

上述实施例仅例示性说明本发明的原理及其功效,而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下,对上述实施例进行修饰或改变。因此,举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变,仍应由本发明的权利要求所涵盖。

相关技术
  • 一种提取智能家居行业动态信息的方法和系统
  • 一种基于多模态信息融合的智能家居控制方法及其系统
技术分类

06120112436454