掌桥专利:专业的专利平台
掌桥专利
首页

一种基于大数据自动推荐的搜索系统

文献发布时间:2024-04-18 19:58:30


一种基于大数据自动推荐的搜索系统

技术领域

本发明涉及搜索系统技术领域,具体为一种基于大数据自动推荐的搜索系统。

背景技术

搜索系统是根据对信息资源中不同对象和层次揭示上的需要,文献目录、索引、机读数据库、网络搜索引擎等信息资源搜索工具构成的以不同检索需要为目标的、形式多样的、完备的系统,其能够分类出需要的信息,然而,正由于计算机网络中数据量非常庞大,通过搜索引擎搜索获得的满足条件的搜索结果通常也是非常多,有时甚至多达数百万,经检索,发现现有技术中的搜索系统典型的如公开号CN108604241A一种搜索系统配备有在线社交网络系统。当所述在线社交网络系统的用户请求搜索时,所述搜索系统检查表示所述在线社交网络系统中的所述用户的成员简档,并从所述成员简档导出待连同用户供应的搜索项一起包含到所述搜索请求中的额外项。其主要特点是通过将“与”算子应用于用户供应的项并将经加权“或”算子应用于从所述成员简档导出的所述额外项来处理所得查询。使通过执行所述查询获得的搜索结果对进行请求的用户可用。

综上所述,现有的基于大数据的搜索系统在使用时通过会根据使用者的习惯向其推荐其感兴趣的内容,从而使得搜索内容相关的内容相对减少,进而则需要进行二次检索,进而使得检索效率较低,针对上述问题,需要对现有设备进行改进。

发明内容

本发明的目的在于提供一种基于大数据自动推荐的搜索系统,以解决上述背景技术中提出的现有的基于大数据的搜索系统在使用时通过会根据使用者的习惯向其推荐其感兴趣的内容,从而使得搜索内容相关的内容相对减少,进而则需要进行二次检索,进而使得检索效率较低的问题。

为实现上述目的,本发明提供如下技术方案:一种基于大数据自动推荐的搜索系统,包括:

输入模块,所述输入模块以输入并接收限制搜索请求,并将接收到的搜索请求通过搜索模块进行搜索,同时输入模块接收的搜索请求包括语音、文字以及图片;

处理模块,所述处理模块用于对搜索模块搜索到的信息进行处理分离以及归纳整合,同时处理模块可根据系统设定有选择的选用提取模块输入的相关信息;

采集模块,所述采集模块接入互联网,且采集模块用于对使用者在大数据中留下的浏览痕迹以及爱好进行采集,并将采集的信息存储至数据库的内部,同时数据库内部存储的信息作为提取模块的提取源。

优选的,所述输入模块具有语音识别功能以及图片识别功能,即将语音转化为文字作为搜索目的,同时识别图片得到的内容与采集模块采集的信息不存在互通关系。

优选的,所述处理模块的分类整合公式为:

其中,其中P(Y|X)是事件Y的概率,假设X已经发生,P(X)是事件X的概率,P(Y)是事件Y的概率,P(X|Y)是给定Y的固定值时事件X的可能性,同时X代表一个特征变量,Y代表一个目标变量。

优选的,所述处理模块的即

优选的,所述处理模块中若存在特征变量时,处理模块的分类整合公式可变形为:

其中,X1与X2相互独立。

优选的,所述采集模块的采集方式是利用爬虫对使用者在各大论坛、百度贴吧、微博等留下的浏览信息以及互动信息进行爬取,并将爬取的信息存储至数据库的内部。

优选的,所述数据库内存储的信息将结合与搜索内容的关联度、产生时间以及使用者参与度进行加权,从而采用权重优先展示的方式。

优选的,所述提取模块采用关键词提取算法对数据库内存储的信息进行提取,并将提取的关键内容输入至处理模块处。

优选的,所述提取模块的提取算法公式为;

其中,In(Vi)是指向Vi的节点,|Out(Vj)|是节点j的出度,d为阻尼系数,d代表着用户在某一页面继续点击浏览的概率,1-d就是随机跳到新URL的概率,同时有些网页不存在跳出的链接,那么d就是0,使用1-d作为平滑项可以保证马尔科夫链的平稳分布。

一种基于大数据自动推荐的搜索系统的使用方法包括以下步骤:

S1:通过输入模块键入搜索内容,内容输入之后搜索模块将对相关内容进行检索,同时接入互联网的采集模块将对使用者在各大论坛、百度贴吧、微博等留下的浏览信息以及互动信息进行爬取,并将爬取的信息存储至数据库的内部;

S2:数据库内部的分类模块将对其进行分类存储,同时数据库内部的更新模块将根据时间实时对各类相关数据更新覆盖,同时数据库内部的生成模块将基于分类模块和更新模块生成偏好数据;

S3:提取模块将对数据库内部的生成偏好数据中的关键词进行提取,接着处理模块将提取的信息和搜索模块搜索的相关的信息一同通过输出模块输出至显示模块,使用者通过显示模块展示的内容对搜索的结果进行获取;

S4:当需要搜索的内容是为达到非娱乐的目的时可勾选输入模块一侧的专业版选项,从而即可使处理模块忽略提取模块输入的与检索内容无关的数据,使得显示模块展示的内容更为全面。

与现有技术相比,本发明的有益效果是:该基于大数据自动推荐的搜索系统,

本发明通过处理模块、采集模块和显示模块的配合使用可有效解决现有的基于大数据的搜索系统在使用时通过会根据使用者的习惯向其推荐其感兴趣的内容,从而使得搜索内容相关的内容相对减少,进而则需要进行二次检索,进而使得检索效率较低的问题,工作人员可在搜索时有选择性的设置处理模块的处理范围,即当其需要搜索的内容是为达到非娱乐的目的时可勾选输入模块一侧的专业版选项,此选项可使得处理模块在处理检测所内容时去除采集模块基于大数据采集得使用者的习惯向其推荐其感兴趣的内容,进而使得显示模块展示的均是关于搜索内容相关的专业性内容,并以此提高检索效率,反之当在通过输入模块输入检索内容时未勾选相关选项时处理模块将会把与检索内容相关的数据以及采集模块基于大数据采集得使用者的偏好内容综合展出,并以此丰富系统的内容,同时提高经济效益。

附图说明

图1为本发明输入模块与提取模块之间的控制关系工作流程示意图;

图2为本发明数据库和提取模块之间的控制关系工作流程示意图;

图3为本发明显示模块内部构成结构示意图。

图中:1、输入模块;2、搜索模块;3、处理模块;4、输出模块;5、显示模块;6、采集模块;7、数据库;8、提取模块。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

请参阅图1-3,本发明提供一种技术方案:一种基于大数据自动推荐的搜索系统包括:

输入模块1,输入模块1以输入并接收限制搜索请求,并将接收到的搜索请求通过搜索模块2进行搜索,同时输入模块1接收的搜索请求包括语音、文字以及图片;

输入模块1具有语音识别功能以及图片识别功能,即将语音转化为文字作为搜索目的,同时识别图片得到的内容与采集模块6采集的信息不存在互通关系。

处理模块3,处理模块3用于对搜索模块2搜索到的信息进行处理分离以及归纳整合,同时处理模块3可根据系统设定有选择的选用提取模块8输入的相关信息;

处理模块3的分类整合公式为:

其中,其中P(Y|X)是事件Y的概率,假设X已经发生,P(X)是事件X的概率,P(Y)是事件Y的概率,P(X|Y)是给定Y的固定值时事件X的可能性,同时X代表一个特征变量,Y代表一个目标变量。

处理模块3的即

处理模块3中若存在特征变量时,处理模块3的分类整合公式可变形为:

其中,X1与X2相互独立。

采集模块6,采集模块6接入互联网,且采集模块6用于对使用者在大数据中留下的浏览痕迹以及爱好进行采集,并将采集的信息存储至数据库7的内部,同时数据库7内部存储的信息作为提取模块8的提取源。

采集模块6的采集方式是利用爬虫对使用者在各大论坛、百度贴吧、微博等留下的浏览信息以及互动信息进行爬取,并将爬取的信息存储至数据库7的内部。

数据库7内存储的信息将结合与搜索内容的关联度、产生时间以及使用者参与度进行加权,从而采用权重优先展示的方式。

提取模块8采用关键词提取算法对数据库7内存储的信息进行提取,并将提取的关键内容输入至处理模块3处。

提取模块8的提取算法公式为;

其中,In(Vi)是指向Vi的节点,|Out(Vj)|是节点j的出度,d为阻尼系数,d代表着用户在某一页面继续点击浏览的概率,1-d就是随机跳到新URL的概率,同时有些网页不存在跳出的链接,那么d就是0,使用1-d作为平滑项可以保证马尔科夫链的平稳分布。

在实际工作过程中,通过输入模块1输入需要搜索的内容,内容输入之后搜索模块2将对相关内容进行检索,同时提取模块8将对数据库7内部的生成偏好数据中的关键词进行提取,接着处理模块3将提取的信息和搜索模块2搜索的相关的信息一同通过输出模块4输出至显示模块5,使用者通过显示模块5展示的内容对搜索的结果进行获取若要搜索的内容是为达到非娱乐的目的时可选择输入模块1一侧的专业版选项,从而即可使处理模块3忽略提取模块8输入的与检索内容无关的数据,使得显示模块5展示的内容更为全面;

而数据库7内部的的偏好数据的产生过程为,首先是由接入互联网的采集模块6将对使用者在各大论坛、百度贴吧、微博等留下的浏览信息以及互动信息进行爬取,并将爬取的信息存储至数据库7的内部,数据库7内部的分类模块将对其进行分类存储,数据库7内部的更新模块将根据时间实时对各类相关数据更新覆盖,同时数据库7内部的生成模块将基于分类模块和更新模块生成偏好数据。

尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

相关技术
  • 一种基于大数据的教育机构推荐方法及其系统
  • 一种基于大数据的向量搜索数据智能推荐系统
  • 一种基于大数据的向量搜索数据智能推荐系统
技术分类

06120116498730