掌桥专利:专业的专利平台
掌桥专利
首页

一种基于采购信息的精准个性化推荐方法

文献发布时间:2023-06-19 09:57:26


一种基于采购信息的精准个性化推荐方法

技术领域

本发明涉及计算机技术领域,特别涉及一种基于采购信息的精准个性化推荐方法。

背景技术

近年来,互联网信息指数级增长,推荐系统能够帮助用户发现感兴趣的物品,目前被广泛应用于电子商务、搜索引擎、视频音乐网站、社交网络等。想上网购物,推荐系统会帮你挑选满意的商品;想了解资讯,推荐系统会为你准备感兴趣的新闻;想学习充电,推荐系统会为你提供适合你的课程;想消遣放松,推荐系统会为你奉上让你欲罢不能的短视频;想闭目养神,推荐系统会给你播放应景的音乐,可以说,推荐系统从来没有像现在这样影响着人们的生活。

随着互联网技术的发展,各供应商可以在网上查询到的采购信息的种类越来越多、数据量也越来越大,如全国招标采购信息平台、政府采购信息网等,每天发布数以万计的采购信息。如何在如此海量的数据中,需解决将信息繁杂、给每条采购信息准确匹配到精准的供应商的技术问题。

发明内容

本发明提供了一种基于采购信息的精准个性化推荐方法,其目的是为了解决背景技术中在海量的数据中,将信息繁杂、给采购信息准确匹配到精准的供应商的技术问题。

为了达到上述目的,本发明提供的一种基于采购信息的精准个性化推荐方法,步骤S1、获取供应商、采购商的信息,并将数据存储;

步骤S2、对获取的信息进行数据预处理,采集满足指定词性的词,并基于采集的词采集候选标签;

步骤S3、从基于协同过滤推荐、基于内容推荐、组合推荐的方法中选取最符合要求的推荐算法,循环遍历采购的候选标签,对候选标签进行标签抽取,得出标签集,挑选出排名居前位的供应商;

步骤S4、循环步骤S3,直到所有采购的候选标签都推荐给与之匹配的采购商。

优选地,所述步骤S1中获取供应商、采购商的信息包括:步骤S11、从网上采集信息;具体为:根据给定的初始URL种子集合、系统设定的参数爬取深度、每层下载的URL数量,遵循广度优先遍历循环完成网页抓取任务直到符合爬虫结束任务条件。

优选地,所述步骤S1中获取供应商、采购商的信息还包括:步骤S12、从现有系统数据中获得供应商、采购商的信息,具体包括如下步骤:

步骤S121、供应商、采购商进行注册成为系统用户;

步骤S122、已注册供应商、采购商,对其对应的基本信息进行补充,包括采购商发布的采购信息,供应商的产品信息,采购商及供应商的特性数据、偏好、分类的信息。

优选地,所述步骤S11、从网上采集信息具体包括如下步骤:

步骤S111、编写具有绕过反爬虫能力的爬虫程序;

步骤S112、通过爬虫程序从网上采集供应商信息、采购信息数据。

优选地,所述步骤S112具体包括如下步骤:

步骤S1121、在种子集合中选择要搜索的种子文件,分布式网络爬虫从种子文件中选择URL并且开始爬行工作;

步骤S1122、网络爬虫程序获得URL后,根据URL与相关的WEB服务器建立Http链接,如果链接成功则进入步骤S1123,不成功就标记该链接;

步骤S1123、使用Http协议完成页面的抓取;

步骤S1124、对抓取下来的页面进行全面的解析,提取出有效的关键信息;

步骤S1125、若解析的网页中包含重复URL链接,则将这些重复的URL进行过滤处理;

步骤S1126、将过滤后的URL链接继续保存到URL链接库,为下一阶段的网络爬虫,爬取网页做好准备;

步骤S1127、根据更新后的URL进行爬取,判断是否达到用户设定的停止爬取条件,若达到就停止,没有达到就一直循环执行爬取。

优选地,所述步骤S2中数据预处理为采用数据清洗、中文分词、词性标注、停用词过滤,具体包括如下步骤:

步骤S21、数据清洗:初步过滤获取的信息中的无用信息,保留有用信息,最终留下的是只包含特征词的文本集合;

步骤S22、进行分词和词性标注:将满足指定词性的词作为候选词;

步骤S23、分别计算每个词的TF-IDF值;

步骤S24、根据每个词的TF-IDF值降序排列,采集候选标签,输出指定个数的可能的关键词。

优选地,所述步骤S3中标签抽取具体为通过包括基于词频、基于支持向量机的方法进行标签抽取,包括如下步骤:

步骤S31、获得用户属性数据库及候选物品集合;

步骤S32、通过特征向量对用户属性数据库进行特征提取,从候选物品集合中获得初始特征物品相关推荐;

步骤S33、结合候选物品集合过滤、排名及推荐解释选择的特征,确定最终推荐结果。

优选地,所述步骤S3中基于协同过滤推荐包括基于供应商的协同过滤算法推荐及基于采购信息的协同过滤算法推荐,其中:

所述基于供应商的协同过滤算法推荐具体为:当新增一个供应商时,将步骤S1中数据存储中与它同行业、并且经营范围相似的供应商感兴趣的数据,同时推荐给该供应商;

基于采购信息的协同过滤算法推荐具体为:根据供应商以前感兴趣的采购数据,将步骤S1中数据存储中与其以前感兴趣的采购数据有着相同标签的数据,同时推荐给该供应商。

优选地,所述步骤S3中基于内容推荐具体为根据供应商历史信息构成供应商偏好文档,计算推荐采购信息与供应商偏好文档的相似度,将最相似的采购信息推荐给该供应商。

优选地,所述步骤S3中选取最符合要求的推荐算法具体为:

当步骤S1中数据存储中数据量不大时,可使用单一的算法,可得到对应的供应商数据匹配;

当步骤S1中数据存储中数据量比较大时,则先基于供应商的协同过滤算法产生一种粗糙的推荐结果,再使用基于采购信息的协同过滤算法剔除进一步完善,最后使用基于内容的协同过滤算法在前面推荐结果的基础上进一步做出更精确的推荐。

采用本发明能达到的技术效果为:本发明通过数字运算技术为供应商匹配相关的采购信息,并将采购信息快速准确的推荐给供应商。

附图说明

图1为本发明的一种基于采购信息的精准个性化推荐方法的总体流程图;

图2为本发明的一种基于采购信息的精准个性化推荐方法的从网上采集数据的流程图;

图3为本发明的一种基于采购信息的精准个性化推荐方法的词性标注流程图;

图4为本发明的一种基于采购信息的精准个性化推荐方法的标签抽取的数据推荐流程图;

图5为本发明的一种基于采购信息的精准个性化推荐方法的基于供应商的协同过滤算法图;

图6为本发明的一种基于采购信息的精准个性化推荐方法的基于采购信息的协同过滤算法图;

图7为本发明的一种基于采购信息的精准个性化推荐方法的基于内容的协同过滤算法图。

具体实施方式

为使本发明要解决的技术问题、技术方案和优点更加清楚,下面将结合附图及具体实施例进行详细描述。

本发明针对现有的问题,提供了一种基于采购信息的精准个性化推荐方法。

如图1所示,为本发明所述方法的流程图,一种基于采购信息的精准个性化推荐方法,步骤S1、获取供应商、采购商的信息,并将数据存储;

步骤S2、对获取的信息进行数据预处理,采集满足指定词性的词,并基于采集的词采集候选标签;

步骤S3、从基于协同过滤推荐、基于内容推荐、组合推荐的方法中选取最符合要求的推荐算法,循环遍历采购的候选标签,对候选标签进行标签抽取,得出标签集,挑选出排在前五的供应商;

步骤S4、循环步骤S3,直到所有采购的候选标签都推荐给与之匹配的采购商。

所述步骤S1中获取供应商、采购商的信息包括:

步骤S11、从网上采集信息;具体为:根据给定的初始URL种子集合、系统设定的参数爬取深度、每层下载的URL数量,遵循广度优先遍历循环完成网页抓取任务直到符合爬虫结束任务条件。

步骤S12、从现有系统数据中获得供应商、采购商的信息;具体包括如下步骤:

步骤S121、供应商、采购商进行注册成为系统用户;

步骤S122、已注册供应商、采购商,对其对应的基本信息进行补充,包括采购商发布的采购信息,供应商的产品信息,采购商及供应商的特性数据、偏好、分类的信息。

所述步骤S11、从网上采集信息具体包括如下步骤:

步骤S111、编写具有绕过反爬虫能力的爬虫程序;所述爬虫程序具体为采用关闭Robots协议、伪造请求头、基于IP代理、基于Cookies、限速访问的方式有效地获取网站数据的程序。即使Robots被称为双方的“君子协定”,然而很多情况下如果开启这个协议会让爬虫一无所获。伪造请求头为:服务器通过User-Agent字段知道访问网站的谁,每个浏览器都有正规的固定的User-Agent,爬虫只要伪装成正规的浏览器,服务器是分辨不出来的。基于IP代理为:使用IP代理轮流访问网站,使访问服务器的时间延迟加大,频率减小,服务器难以检测。基于Cookies为:研究目标网站的Cookies过期事件,可以模拟浏览器,定时生成Cookies访问网站而不被封。限速访问为:如果爬虫循环无休眠地暴力爬取数据,那IP随时被封,爬虫的限速访问实现容易,抓取时间长,效率也高,结合IP代理可以很快地实现爬取目标内容。

步骤S112、通过爬虫程序从网上采集供应商信息、采购信息数据。

如图2所示,所述步骤S112具体包括如下步骤:

步骤S1121、在种子集合中选择要搜索的种子文件,分布式网络爬虫从种子文件中选择URL并且开始爬行工作;

步骤S1122、网络爬虫程序获得URL后,根据URL与相关的WEB服务器建立Http链接,如果链接成功则进入步骤S1123,不成功就标记该链接;

步骤S1123、使用Http协议完成页面的抓取;

步骤S1124、对抓取下来的页面进行全面的解析,提取出有效的关键信息;

步骤S1125、若解析的网页中包含重复URL链接,则将这些重复的URL进行过滤处理;

步骤S1126、将过滤后的URL链接继续保存到URL链接库,为下一阶段的网络爬虫,爬取网页做好准备;

步骤S1127、根据更新后的URL进行爬取,判断是否达到用户设定的停止爬取条件,若达到就停止,没有达到就一直循环执行爬取。

所述步骤S2中数据预处理为采用数据清洗、中文分词、词性标注、停用词过滤,具体包括如下步骤:

步骤S21、数据清洗:初步过滤获取的信息中的无用信息,如一些无关的符号,日期等,保留有用信息,最终留下的是只包含特征词的文本集合;

步骤S22、进行分词和词性标注:将满足指定词性的词作为候选词;

其中,中文分词为:从无分隔的中文句子中识别出各个单词;

如图3所示,词性标注为:为文本中经分词得到的每一个词都标记上一个合适的标记,即确定每个词是名词、动词、形容词或其他词性。

步骤S23、分别计算每个词的TF-IDF(termfrequency–inversedocumentfrequency,词频-逆文本频率指数)值;

步骤S24、根据每个词的TF-IDF值降序排列,采集候选标签,输出指定个数的可能的关键词。

如图4所示,所述步骤S3中标签抽取具体为通过包括基于词频、基于支持向量机的方法进行标签抽取,包括如下步骤:

步骤S31、获得用户属性数据库及候选物品集合;

步骤S32、通过特征向量对用户属性数据库进行特征提取,从候选物品集合中获得初始特征物品相关推荐;

步骤S33、结合候选物品集合过滤、排名及推荐解释选择的特征,确定最终推荐结果。

其中推荐解释具体为:通过对采购商发布的相关采购信息、供应商行业和各供应商的经营范围交互来预测供应商感兴趣的采购信息,从而向特定供应商推荐最适合的采购信息。

所述步骤S3中基于协同过滤推荐包括基于供应商的协同过滤算法推荐及基于采购信息的协同过滤算法推荐,其中:

如图5所示,所述基于供应商的协同过滤算法推荐具体为:当新增一个供应商时,将步骤S1中数据存储中与它同行业、并且经营范围相似的供应商感兴趣的数据,同时推荐给该供应商;

如图6所示,基于采购信息的协同过滤算法推荐具体为:根据供应商以前感兴趣的采购数据,将步骤S1中数据存储中与其以前感兴趣的采购数据有着相同标签的数据,同时推荐给该供应商。

如图7所示,所述步骤S3中基于内容推荐具体为根据供应商历史信息构成供应商偏好文档,计算推荐采购信息与供应商偏好文档的相似度,将最相似的采购信息推荐给该供应商。

所述步骤S3中选取最符合要求的推荐算法具体为:

当步骤S1中数据存储中数据量不大时,可使用单一的算法,可得到对应的供应商数据匹配;

当步骤S1中数据存储中数据量比较大时,则先基于供应商的协同过滤算法产生一种粗糙的推荐结果,再使用基于采购信息的协同过滤算法剔除进一步完善,最后使用基于内容的协同过滤算法在前面推荐结果的基础上进一步做出更精确的推荐。

在本发明的另一较佳实施例中,利用爬虫程序抓取“计算机设备”这一品目的采购信息及供应商,通过供应商标签与采购信息的关联分析以探测供应商标签与其发布的采购信息的主题相关性,从而为基于供应商标签的采购信息识别提供可能性。具体包括如下步骤:

步骤1:供应商数据采集。采集带有“科技、研究”行业的供应商为研究对象,通过爬虫程序抓取245家供应商数据,其中供应商涉及供应商名称、供应商类型、所属行业、地址、供应商概况、经营范围、成立时间等。

步骤2:采购信息数据采集。采集带有“计算机设备”、“软件设备”的采购信息,通过爬虫程序抓取15377条采购信息,其中采购信息涉及采购信息名称、采购编码、采购信息描述、对合作方要求、截止时间、交货时间、交货地点等。

步骤3:数据预处理、标签匹配。

1)数据清洗:在数据准备过程中,利用爬虫程序获取用户自定义的标签,此次获取245家供应商,去掉标签量为0的用户,最后得到207位供应商以及14399条采购信息。

2)分词处理:在上述数据基础上,对供应商、采购信息进行分词,通过结巴分词系统对供应商信息分词,得到结果中的词都带有词性标记,比如名词/n、动词/v、形容词/a。而标签基本以名词为主,将其他词性的数据排除。最终得到:一台、一个、。将一些没有意义的描述词去掉,最终供应商对应的标签:计算机设备、硬件设备、网络硬件、北京。

3)供应商标签与采购信息标签匹配。

步骤4:根据基于采购信息的协同过滤算法,将采购商和采购信息一一匹配起来。

本发明通过数字运算技术为供应商匹配相关的采购信息,并将采购信息快速准确的推荐给供应商。具体针对供应商在海量的采购信息中找到贴合自己的采购信息从而解决信息过载问题,一种基于采购信息的精准个性化推荐方法最重要的功能是通过分析供应商的行为和其他供应商的行为来生成个性化的推荐,从而“猜测”供应商的偏好和兴趣。一种基于采购信息个性化推荐服务不仅可以提高采购信息利用率,而且能让供应商快速地匹配到符合要求的采购信息。本发明主要基于个性化算法、信息搜寻行为、供应商偏好进行。以采购信息对应的标签、供应商行业、经营范围为中间变量,探讨个性化推荐特征如何影响采购信息推荐给供应商。

以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明所述原理的前提下,还可以作出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

相关技术
  • 一种基于采购信息的精准个性化推荐方法
  • 一种基于订单的物料采购信息智能分发及收集方法和系统
技术分类

06120112362911