掌桥专利:专业的专利平台
掌桥专利
首页

房源描述文本生成方法、装置、设备及计算机存储介质

文献发布时间:2023-06-19 11:02:01


房源描述文本生成方法、装置、设备及计算机存储介质

技术领域

本发明实施例涉及计算机处理技术领域,具体涉及一种房源描述文本生成方法、装置、设备及计算机存储介质。

背景技术

目前在针对房源进行描述文本生成时,一般采用的是预设模板,将房源信息与预设模板进行匹配,生成房源描述文本。这样做的问题在于:预设模板中的描述话语较为单一和固定,与房源数据的适配度不好,不能很好地突出房源的特点,从而导致房源描述文本对于房源的推广效果不好。

发明内容

鉴于上述问题,本发明实施例提供了一种房源描述文本生成方法,用于解决现有技术中存在的房源描述文本的推广效果不佳的问题。

根据本发明实施例的一个方面,提供了一种房源描述文本生成方法,所述方法包括:

获取原始房源数据;

对所述原始房源数据进行文本处理,得到待描述房源对应的目标描述词集合,所述目标描述词集合中包括至少一个目标描述词;

对所述目标描述词集合进行分析,得到所述待描述房源对应的多个目标功能模块的目标描述权重,所述目标功能模块为预设功能模块中的任一个,每一个所述目标功能模块对应至少一个所述目标描述词;

将所述目标描述权重输入预设的模板生成模型,得到多个可选描述模板;每一个所述可选描述模板中包括至少一个所述预设功能模块,所述模板生成模型以带有样本描述权重的房源描述文本样本为输入,以所述房源描述文本样本对应的描述模板为输出训练得到;所述样本描述权重为所述房源描述文本样本对应的各个预设功能模块的权重;

将所述目标功能模块对应的目标描述词匹配到所述多个可选描述模板中,得到所述待描述房源对应的多个可选描述文本。

在一种可选的方式中,所述方法还包括:

对所述原始房源数据进行数据清洗;

将数据清洗后的原始房源数据进行聚合,得到至少一个待描述房源对应的待处理数据;

对所述待处理数据进行自然语言处理,得到所述至少一个待描述房源对应的原始描述词信息;

根据所述原始描述词信息在预设的房源描述词库中进行匹配,根据匹配结果分别确定各个所述待描述房源对应的目标描述词集合。

在一种可选的方式中,所述方法还包括:

对所述目标描述词集合中的各个目标描述词分别进行语义分析,确定各个所述目标描述词对应的房源参数属性;

根据所述房源参数属性确定所述目标描述词对应的目标功能模块;

确定各个目标功能模块对应的目标描述词的数量占所述目标描述词集合中包含的词总数的比例;

根据所述比例确定所述描述权重。

在一种可选的方式中,所述方法还包括:

分别将各个所述目标描述词在预设的房源标签库中进行匹配,所述房源标签库中包括多个房源标签和各个所述房源标签对应的热度权重;

根据各个所述目标描述词匹配到的房源标签对应的热度权重确定各个目标功能模块对应的总热度权重;

根据所述总热度权重对所述描述权重进行调整。

在一种可选的方式中,所述方法还包括:

获取房源描述文本样本集,所述房源描述文本样本集中包括多个所述带有样本描述权重的房源描述文本样本;

将所述房源描述文本样本集输入所述文本聚类模型,得到至少一个房源描述文本类和每一个所述房源描述文本类对应的模型描述模板,每一个所述房源描述文本类对应至少一个房源描述文本样本;

计算所述模型描述模板与房源描述文本类对应的各个房源描述文本的语义相似度;

根据所述语义相似度计算所述文本聚类模型的损失函数;

当所述损失函数小于预设值时,将所述文本聚类模型作为所述训练完成的模板生成模型。

在一种可选的方式中,所述方法还包括:

获取所述可填充字段对应的房源参数属性,根据所述房源参数属性将所述目标描述词与所述可填充字段进行匹配;

将目标描述词填充到所匹配到的可填充字段对应的位置,得到一个所述可选描述文本。

在一种可选的方式中,所述方法还包括:

通过预设的N-gram模型计算所述可选描述文本的语义通顺度;

当所述语义通顺度小于预设通顺度阈值时,将所述语义通顺度小于所述通顺度阈值的可选描述文本从所述多个可选描述文本中删除。

根据本发明实施例的另一方面,提供了一种房源描述文本生成装置,所述装置包括:

获取模块,用于获取原始房源数据;

处理模块,用于对所述原始房源数据进行文本处理,得到待描述房源对应的目标描述词集合,所述目标描述词集合中包括至少一个目标描述词;

分析模块,用于对所述目标描述词集合进行分析,得到所述待描述房源对应的多个目标功能模块的目标描述权重,所述目标功能模块为预设功能模块中的任一个,每一个所述目标功能模块对应至少一个所述目标描述词;

输出模块,用于将所述目标描述权重输入预设的模板生成模型,得到多个可选描述模板;每一个所述可选描述模板中包括至少一个所述预设功能模块,所述模板生成模型以带有样本描述权重的房源描述文本样本为输入,以所述房源描述文本样本对应的描述模板为输出训练得到;所述样本描述权重为所述房源描述文本样本对应的各个预设功能模块的权重;

匹配模块,用于将所述目标功能模块对应的目标描述词匹配到所述多个可选描述模板中,得到所述待描述房源对应的多个可选描述文本。

根据本发明实施例的另一方面,提供了一种房源描述文本生成设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;

所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行前述任意一项实施例所述的房源描述文本生成方法的操作。

根据本发明实施例的另一方面,提供了一种计算机存储介质,所述计算机存储介质中存储有至少一可执行指令,所述可执行指令在房源描述文本生成设备上运行时,使得房源描述文本生成设备执行如前述任意一项实施例所述的房源描述文本生成方法的操作。

本发明实施例中首先获取原始房源数据;对原始房源数据进行文本处理,得到待描述房源对应的目标描述词集合,每一个目标描述词集合中包括至少一个目标描述词。然后对目标描述词集合进行文本分析,得到待描述房源对应的多个目标功能模块的目标描述权重,其中,目标功能模块是预设功能模块中的任意一个,每一个目标功能模块对应至少一个前述目标描述词。再将目标描述权重输入预设的模板生成模型,得到多个可选描述模板,其中,模板生成模型是以带有样本描述权重的房源描述文本样本为输入,以房源描述文本样本对应的描述模板为输出训练得到,上述样本描述权重为房源描述文本样本对应的各个预设功能模块的权重;最后将目标功能模块对应的目标描述词匹配到多个可选描述模板中,得到待描述房源对应的多个可选描述文本。

区别于现有技术中采取的按照预设的固定模板进行房源信息匹配,生成房源描述文本的方案,本发明实施例克服了现有技术中存在的房源描述文本阅读性较差并且无法突出房源特点的问题,通过模板生成模型根据待处理房源在各个目标功能模块对应的目标描述权重确定对应的描述模板,而目标描述权重是根据房源数据进行文本处理后得到的,从而本发明实施例生成的描述文本能更加突出房源数据的特点,提高了房源描述文本的推广效果。

上述说明仅是本发明实施例技术方案的概述,为了能够更清楚了解本发明实施例的技术手段,而可依照说明书的内容予以实施,并且为了让本发明实施例的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。

附图说明

附图仅用于示出实施方式,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:

图1示出了本发明实施例提供的房源描述文本生成方法的流程示意图;

图2示出了本发明实施例提供的房源描述文本生成装置的结构示意图;

图3示出了本发明实施例提供的房源描述文本生成设备的结构示意图。

具体实施方式

下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例,然而应当理解,可以以各种形式实现本发明而不应被这里阐述的实施例所限制。

图1示出了本发明实施例提供的房源描述文本生成方法的流程图,该方法由计算机处理设备执行。计算机处理设备包括笔记本电脑等。

如图1所示,该方法包括以下步骤:

步骤101:获取原始房源数据。

原始房源数据可以是预设的爬虫程序自动爬取的,也可以是房产经纪人等用户通过预设的房源数据输入界面上传的。原始房源数据中可以包括全网各个房源对应的导购文章、新闻报道以及政府网站统计数据等。

步骤102:对所述原始房源数据进行文本处理,得到待描述房源对应的目标描述词集合,所述目标描述词集合中包括至少一个目标描述词。

进行文本处理的过程可以包括:首先对获取到的原始房源数据进行过滤和去冗余等预处理,筛除掉原始房源数据中重复的、错误的、时效性低或置信度低的数据,以此保证最终生成的导购文本中的数据是准确且及时的。

再对预处理后的数据进行数据聚合,即生成各个待描述房源所对应的待处理数据,该待处理数据中包含了各个待描述房源的房源参数信息、对应的现有描述信息、卖点标签信息等。

再根据待处理数据进行语义分析和关键词提取,确定出待描述房源对应的目标描述词集合。目标描述词可以包括房源参数描述词,如“A小区”、“40000元/平方米”、“容积率4.16”等,在本发明的再一个实施例中,目标描述词还可以包括房源卖点描述词,如“交通便利”、“景观罕有”以及“优惠力度大”等。

因此,步骤102还包括以下步骤:

首先,对所述原始房源数据进行数据清洗。

数据清洗包括去除原始房源数据中的错误数据、冗余数据等。错误数据可以包括格式错误、数值错误的数据等,可以将原始房源数据与预设取值区间以及预设格式进行匹配,将格式或取值不匹配的数据进行清除。重复数据可以包括

另外,在本发明的再一个实施例中,可以针对数据的来源进行数据置信度评估,根据数据的发布或更新时间进行时效性评估,将时效性和/或置信度作为数据清洗的依据。如当同一个房源的同一项参数在多个数据中对应于不同取值时,可以将置信度小于预设置信度阈值的数据和/或时效性小于预设时效性阈值的数据去除,取置信度最高或者时效性最强的数据中所记载的参数。

然后将数据清洗后的原始房源数据进行聚合,得到至少一个待描述房源对应的待处理数据。

对原始房源数据进行数据聚合,可以是先在原始房源数据中进行字符串匹配,提取出各个待描述房源的标识性信息,如在房源字典中对应的全网唯一房源标识,然后将与该全网唯一房源标识关联的原始房源数据进行整合,得到待处理房源对应的待处理数据。

如存在2份数据清洗后的原始房源数据D1、D2,其中D1中包含字段“全网唯一房源标识”,该字段值为“0001”,并且D1中还出现了房源名称为“A小区”,房源地址位于“北京市朝阳区B大街1号”等参数信息,而文档D2中描述了“A小区”的其他关联信息,如房源均价为“40000元/平方米”、容积率为“4.16”,因此,可以将房源均价为“40000元/平方米”、容积率为“4.16”等聚合到“全网唯一房源标识”为“0001”的房源下。在本发明的再一个实施例中,还可以是根据房源的地址信息进行聚合。

对所述待处理数据进行自然语言处理,得到所述至少一个待描述房源对应的原始描述词信息。

对待处理数据进行自然语言处理的过程可以包括如下:首先对待处理数据进行切分,得多个描述小文档,对各个描述小文档进行语义分析,去除各个描述小文档中的停用词等信息,然后提取各个描述小文档对应的关键词信息作为原始描述词。

在本发明的再一个实施例中,也可以是基于TF-IDF(Term Frequency-InverseDocument Frequency,词频-逆向文件频率)、基于TextRank或Word2Vec词聚类等算法进行关键词的提取。

在本发明的一个实施例中,原始描述词可以包括两部分,一部分是待描述房源的参数描述词,如楼盘名称、住宅类型、楼盘均价、开发商、容积率、楼盘地址等。另一部分可以是待描述房源的特点描述词,如该房源的标签信息、卖点信息、经纪人标注信息等。

举例说明,参数描述词可以是“A小区”、“40000元/平方米”、“北京市朝阳区B大街1号”等,用于表征待描述房源的房源特征参数,特点描述词可以是如“交通便利”、“景观罕有”以及“优惠力度大”等,用于表征对房源特征参数进行描述的标签信息。

然后对原始描述词进行标准化处理得到目标描述词。标准化处理的过程可以是根据原始描述词在预设的房源描述词库进行匹配,将匹配到的房源描述词作为目标描述词,如原始描述词“A小区”和“A楼盘”都对应于房源描述词库中的目标描述词“A小区”。

步骤103:对所述目标描述词集合进行分析,得到所述待描述房源对应的多个目标功能模块的目标描述权重,所述目标功能模块为预设功能模块中的任一个,每一个所述目标功能模块对应至少一个所述目标描述词。

预设功能模块是描述文本的组成单位,用于表征待描述房源的某一方面的相关特征信息,在本发明的一个实施例中,预设功能模块可以包括地理位置、整体配置以及周边配套等模块。

待描述房源在不同预设功能模块下对应的目标描述词的数量是不同的,在某一预设功能模块下的描述词数量越丰富则一方面表示待描述房源在该预设功能模块下的可描述信息较多并且其他现有的描述文本包含该功能模块对应的方面内容的也较多,因此可以针对该功能模块对房源着重进行描述,即该预设功能模块对应的描述权重更大。

因此,确定目标描述权重的过程可以包括:对所述目标描述词集合中的各个目标描述词分别进行语义分析,确定各个所述目标描述词对应的房源参数属性。

如目标描述词集合包括如下“A小区”、“1号线”、“人民广场站1”、“师范大学附属中学”、“第一人民医院”、“交通便利”、“黄金地段”,其确定对应的房源参数属性分别为“房源名称”、“地铁线路”、“公交站点”、“学校名称”、“医院名称”、“周边描述”以及“位置描述”。

根据所述房源参数属性确定所述目标描述词对应的目标功能模块。

预设功能模块对应于一或多个房源参数属性,如在“周边配置”这一功能模块下对应的房源参数属性可以包括“房源名称”、“学校名称”、“医院名称”以及“周边描述”,而“地理位置”这一功能模块下对应的房源参数属性可以包括“房源名称”、“地铁线路”、“公交站点”、“位置描述”等。

确定各个目标功能模块对应的目标描述词的数量占所述目标描述词集合中包含的词总数的比例,根据所述比例确定所述描述权重。

如当目标描述词集合中一共有50个目标描述词,其中25个目标描述词对应的目标功能模块为“周边配置”,15个目标描述词对应的目标功能模块为“地理位置”,10个目标描述词对应的目标功能模块为“价格信息”。因此,“周边配置”、“地理位置”以及“价格信息”对应的描述权重分别为0.5、0.3以及0.2。

在本发明的再一个实施例中,除了根据目标描述词的房源参数属性确定其对应的预设功能模块,还可以根据目标描述词集合中目标描述词进行词聚类分析,得到至少一个描述词类和该描述词类对应的目标描述词,再将描述词类与预设功能模块关联起来,从而该描述类对应的目标描述词与该预设功能模块对应。

目标描述词集合中的目标描述词进行词聚类分析可以先进行词向量分析,然后采用K-means等聚类算法计算各个词向量之间的距离,得到聚类结果。将描述词类与预设功能模块进行关联可以是通过对描述词类的聚类中心词进行语义分析得到的。

考虑到各个待描述房源的目标描述词可能附带一些反映其展示权重的属性,如某个地理位置为核心位置或热门位置等,或者经纪人或其他房源描述方对该目标描述词进行了标注,因此需要对上述这种目标描述词着重进行描述。

在本发明的一个实施例中,确定描述权重的过程还可以包括:

分别将各个所述目标描述词在预设的房源标签库中进行匹配,所述房源标签库中包括多个房源标签和各个所述房源标签对应的热度权重。

举例说明,房源标签可以包括“一号线”、“临海”、“核心办公区”“风景优美”以及“大学城”等。

将目标描述词与房源标签进行匹配的过程可以是计算语义关联度,如“莲花山公园”与“风景优美”的语义关联度较大。语义关联度可以是根据同时出现在现有的描述文本中的概率确定。

根据各个所述目标描述词匹配到的房源标签对应的热度权重确定各个目标功能模块对应的总热度权重。根据所述总热度权重对所述描述权重进行调整。

在本发明的一个实施例中,还可以提供一个模板配置界面,用于接收用户输入的配置参数,其中配置参数可以包括模板权重、配置描述语句。

根据模块权重对进行描述权重调整,根据配置描述语句提取出目标描述词,使得用户可以自定义描述模板,对描述权重进行调整和适配,使得描述文本更加贴合房源。

步骤104:将所述目标描述权重输入预设的模板生成模型,得到多个可选描述模板;每一个所述可选描述模板中包括至少一个所述预设功能模块,所述模板生成模型以带有样本描述权重的房源描述文本样本为输入,以所述房源描述文本样本对应的描述模板为输出训练得到;所述样本描述权重为所述房源描述文本样本对应的各个预设功能模块的权重。

模型的训练过程可以包括如下:获取房源描述文本样本集,所述房源描述文本样本集中包括多个所述带有样本描述权重的房源描述文本样本。

样本描述权重指的是房源描述文本样本与各个预设功能模块对应的描述权重。房源描述文本样本可以是获取的现有的各大平台的房源描述文本。

将所述房源描述文本样本集输入所述文本聚类模型,得到至少一个房源描述文本类和每一个所述房源描述文本类对应的模型描述模板,每一个所述房源描述文本类对应至少一个房源描述文本样本。

在本发明的一个实施例中,文本聚类模型可以包括至少两个子模型,分别为文本分析模型以及聚类模型。

其中,文本分析模型可以包括词袋模型、词向量模型,其中词向量模型可以替换为隐马尔可夫模型、神经网络语言模型等,聚类模型可以包括K-means模型。

文本分析模型用于提取出房源描述文本样本的文本特征,将该文本特征输入聚类模型。文本特征可以包括关键词信息、文本主题信息等。

聚类模型用于根据文本特征以及各个房源描述文本样本对应的描述权重进行聚类,从而得到文本特征相似度和描述权重相似度高的房源描述文本样本作为一个房源描述文本类,聚类模型将聚类结果再输入文本分析模型。

然后文本分析模型再根据每一个房源描述文本类对应的房源描述文本样本进行共同文本特征提取和融合,从而得到各个房源描述文本类对应的描述模板。

在本发明的再一个实施例中,考虑到不同的房源描述文本样本在生成模板时的可参照性是不同的,即其对应的聚类权重是不同的。聚类权重的确定可以根据各个的推广反馈信息以及数据来源信息确定,其中,推广反馈信息可以包括该房源描述文本样本对应的点击量、收藏量、转发量以及评论量等,数据来源信息可以包括该房源描述文本样本的发布时间、来源权威性等。也就是说,输入文本聚类模型的房源描述文本样本还带有聚类权重标签。

计算所述模型描述模板与房源描述文本类对应的各个房源描述文本的语义相似度。

根据所述语义相似度计算所述文本聚类模型的损失函数。

当所述损失函数小于预设值时,将所述文本聚类模型作为所述训练完成的模板生成模型。

步骤105:将所述目标功能模块对应的目标描述词匹配到所述多个可选描述模板中,得到所述待描述房源对应的多个可选描述文本。

每一个所述目标功能模块包含至少一个可填充字段,具体的得到可选描述文本的过程可以包括:获取所述可填充字段对应的房源参数属性,根据所述房源参数属性将所述目标描述词与所述可填充字段进行匹配。

举例说明,可选描述文本中的“周边配置”这一目标功能模块对应的模板内容如下:“(可填充字段1)的周边配置有丰富的医疗、教育和生活娱乐资源,其(可填充字段2)范围内分布有(可填充字段3)等学校,(可填充字段4)等医院。在需要休闲娱乐时,您还可以方便地去(可填充字段5)等购物、以及去(可填充字段6)观看演出或展览。”

其中,可填充字段1对应的房源参数属性为“房源名称”,可填充字段3对应的房源参数属性为“学校名称”。将目标描述词填充到所匹配到的可填充字段对应的位置,即可得到一个所述可选描述文本。

考虑在实际填充中,可能会存在填充错位或者由于房源参数属性较为固定导致的填充文本不顺畅的问题,因此,为了进一步保证描述文本的阅读效果,在本发明的再一个实施例中,在将目标描述词填充到所匹配到的可填充字段对应的段落之后,还可以包括:

通过预设的N-gram模型计算所述可选描述文本的语义通顺度。

N-gram(N元)模型利用词序列中相邻词的内在联系信息,计算出具有最大概率的词序列分布,即组成的最合理的句子。在本发明的一个实施例中,可以是基于N-gram模型来进行语义通顺度的评估,具体是通过N-gram模型来计算可描述文本中的词性分布概率是否为最大概率的情况。基于词性进行统计是因为某些词性的词语在连续出现的情况下,会影响句子的通顺度,导致句子难以阅读。本发明实施例中的预设的N-gram模型的输入包括进行了分词和进行词性标注的训练样本,其输出为各个训练样本的语义通顺度。

当所述语义通顺度小于预设通顺度阈值时,将所述语义通顺度小于所述通顺度阈值的可选描述文本从所述多个可选描述文本中删除。

从而实现了可选描述文本的阅读效果较好,提高用户的阅读体验,可以间接提高房源描述文本的推广效果。

在本发明的再一个实施例中,该方法可以是基于Spark引擎进行分布式处理的。在处理完成后,可以将生成的所有待描述房源对应的可选描述文本推送到MongoDB中进行存储,从而使得应用层可以根据需求从MongoDB中提取出对应房源的可选描述文本进行展示或处理等。

图2示出了本发明实施例提供的房源描述文本生成装置的结构示意图。如图2所示,该装置200包括:获取模块210、处理模块220、分析模块230、输出模块240和匹配模块250。

获取模块210,用于获取原始房源数据;

处理模块220,用于对所述原始房源数据进行文本处理,得到待描述房源对应的目标描述词集合,所述目标描述词集合中包括至少一个目标描述词;

分析模块230,用于对所述目标描述词集合进行分析,得到所述待描述房源对应的多个目标功能模块的目标描述权重,所述目标功能模块为预设功能模块中的任一个,每一个所述目标功能模块对应至少一个所述目标描述词;

输出模块240,用于将所述目标描述权重输入预设的模板生成模型,得到多个可选描述模板;每一个所述可选描述模板中包括至少一个所述预设功能模块,所述模板生成模型以带有样本描述权重的房源描述文本样本为输入,以所述房源描述文本样本对应的描述模板为输出训练得到;所述样本描述权重为所述房源描述文本样本对应的各个预设功能模块的权重;

匹配模块250,用于将所述目标功能模块对应的目标描述词匹配到所述多个可选描述模板中,得到所述待描述房源对应的多个可选描述文本。

在一种可选的方式中,处理模块220还用于,对所述原始房源数据进行数据清洗;

将数据清洗后的原始房源数据进行聚合,得到至少一个待描述房源对应的待处理数据;

对所述待处理数据进行自然语言处理,得到所述至少一个待描述房源对应的原始描述词信息;

根据所述原始描述词信息在预设的房源描述词库中进行匹配,根据匹配结果分别确定各个所述待描述房源对应的目标描述词集合。

在一种可选的方式中,分析模块230还用于,对所述目标描述词集合中的各个目标描述词分别进行语义分析,确定各个所述目标描述词对应的房源参数属性;

根据所述房源参数属性确定所述目标描述词对应的目标功能模块;

确定各个目标功能模块对应的目标描述词的数量占所述目标描述词集合中包含的词总数的比例;

根据所述比例确定所述描述权重。

在一种可选的方式中,分析模块230还用于,

分别将各个所述目标描述词在预设的房源标签库中进行匹配,所述房源标签库中包括多个房源标签和各个所述房源标签对应的热度权重;

根据各个所述目标描述词匹配到的房源标签对应的热度权重确定各个目标功能模块对应的总热度权重;

根据所述总热度权重对所述描述权重进行调整。

输出模块240,还用于获取房源描述文本样本集,所述房源描述文本样本集中包括多个所述带有样本描述权重的房源描述文本样本;

将所述房源描述文本样本集输入所述文本聚类模型,得到至少一个房源描述文本类和每一个所述房源描述文本类对应的模型描述模板,每一个所述房源描述文本类对应至少一个房源描述文本样本;

计算所述模型描述模板与房源描述文本类对应的各个房源描述文本的语义相似度;

根据所述语义相似度计算所述文本聚类模型的损失函数;

当所述损失函数小于预设值时,将所述文本聚类模型作为所述训练完成的模板生成模型。

匹配模块250,还用于获取所述可填充字段对应的房源参数属性,根据所述房源参数属性将所述目标描述词与所述可填充字段进行匹配;

将目标描述词填充到所匹配到的可填充字段对应的位置,得到一个所述可选描述文本。

匹配模块250,还用于通过预设的N-gram模型计算所述可选描述文本的语义通顺度。

当所述语义通顺度小于预设通顺度阈值时,将所述语义通顺度小于所述通顺度阈值的可选描述文本从所述多个可选描述文本中删除。

本发明实施例提供的房源描述文本生成装置的具体实施过程与前述任一实施例所述的房源描述文本生成方法的实施过程相同,不再赘述。本发明房源描述文本生成装置首先对房源数据进行文本处理,确定待描述房源在预设功能模块下的描述权重,并且通过模板生成模型确定该描述权重对应的描述模板,最后根据该描述模板生成房源对应的描述文本,从而使得房源描述文本更加贴合房源特征,提高了房源描述文本的推广效果。

图3示出了本发明实施例提供的房源描述文本生成设备的结构示意图,本发明具体实施例并不对房源描述文本生成设备的具体实现做限定。

如图3所示,该房源描述文本生成设备可以包括:处理器(processor)302、通信接口(Communications Interface)304、存储器(memory)306、以及通信总线308。

其中:处理器302、通信接口304、以及存储器306通过通信总线308完成相互间的通信。通信接口304,用于与其它设备比如客户端或其它服务器等的网元通信。处理器302,用于执行程序310,具体可以执行上述用于房源描述文本生成方法实施例中的相关步骤。

具体地,程序310可以包括程序代码,该程序代码包括计算机可执行指令。

处理器302可能是中央处理器CPU,或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit),或者是被配置成实施本发明实施例的一个或多个集成电路。房源描述文本生成设备包括的一个或多个处理器,可以是同一类型的处理器,如一个或多个CPU;也可以是不同类型的处理器,如一个或多个CPU以及一个或多个ASIC。

存储器306,用于存放程序310。存储器306可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。

程序310具体可以被处理器302调用使房源描述文本生成设备执行以下操作:

获取原始房源数据;

对所述原始房源数据进行文本处理,得到待描述房源对应的目标描述词集合,所述目标描述词集合中包括至少一个目标描述词;

对所述目标描述词集合进行分析,得到所述待描述房源对应的多个目标功能模块的目标描述权重,所述目标功能模块为预设功能模块中的任一个,每一个所述目标功能模块对应至少一个所述目标描述词;

将所述目标描述权重输入预设的模板生成模型,得到多个可选描述模板;每一个所述可选描述模板中包括至少一个所述预设功能模块,所述模板生成模型以带有样本描述权重的房源描述文本样本为输入,以所述房源描述文本样本对应的描述模板为输出训练得到;所述样本描述权重为所述房源描述文本样本对应的各个预设功能模块的权重;

将所述目标功能模块对应的目标描述词匹配到所述多个可选描述模板中,得到所述待描述房源对应的多个可选描述文本。

在一种可选的方式中,所述程序310被处理器302调用使房源描述文本生成设备执行以下操作:

对所述原始房源数据进行数据清洗;

将数据清洗后的原始房源数据进行聚合,得到至少一个待描述房源对应的待处理数据;

对所述待处理数据进行自然语言处理,得到所述至少一个待描述房源对应的原始描述词信息;

根据所述原始描述词信息在预设的房源描述词库中进行匹配,根据匹配结果分别确定各个所述待描述房源对应的目标描述词集合。

在一种可选的方式中,所述程序310被处理器302调用使房源描述文本生成设备执行以下操作:

对所述目标描述词集合中的各个目标描述词分别进行语义分析,确定各个所述目标描述词对应的房源参数属性;

根据所述房源参数属性确定所述目标描述词对应的目标功能模块;

确定各个目标功能模块对应的目标描述词的数量占所述目标描述词集合中包含的词总数的比例;

根据所述比例确定所述描述权重。

在一种可选的方式中,所述程序310被处理器302调用使房源描述文本生成设备执行以下操作:

分别将各个所述目标描述词在预设的房源标签库中进行匹配,所述房源标签库中包括多个房源标签和各个所述房源标签对应的热度权重;

根据各个所述目标描述词匹配到的房源标签对应的热度权重确定各个目标功能模块对应的总热度权重;

根据所述总热度权重对所述描述权重进行调整。

在一种可选的方式中,所述程序310被处理器302调用使房源描述文本生成设备执行以下操作:

获取房源描述文本样本集,所述房源描述文本样本集中包括多个所述带有样本描述权重的房源描述文本样本;

将所述房源描述文本样本集输入所述文本聚类模型,得到至少一个房源描述文本类和每一个所述房源描述文本类对应的模型描述模板,每一个所述房源描述文本类对应至少一个房源描述文本样本;

计算所述模型描述模板与房源描述文本类对应的各个房源描述文本的语义相似度;

根据所述语义相似度计算所述文本聚类模型的损失函数;

当所述损失函数小于预设值时,将所述文本聚类模型作为所述训练完成的模板生成模型。

在一种可选的方式中,所述程序310被处理器302调用使房源描述文本生成设备执行以下操作:

获取所述可填充字段对应的房源参数属性,根据所述房源参数属性将所述目标描述词与所述可填充字段进行匹配;

将目标描述词填充到所匹配到的可填充字段对应的位置,得到一个所述可选描述文本。

在一种可选的方式中,所述程序310被处理器302调用使房源描述文本生成设备执行以下操作:

通过预设的N-gram模型计算所述可选描述文本的语义通顺度;

当所述语义通顺度小于预设通顺度阈值时,将所述语义通顺度小于所述通顺度阈值的可选描述文本从所述多个可选描述文本中删除。

本发明实施例提供的房源描述文本生成设备的具体实施过程与前述任一实施例所述的房源描述文本生成方法的实施过程相同,不再赘述。本发明房源描述文本生成设备首先对房源数据进行文本处理,确定待描述房源在预设功能模块下的描述权重,并且通过模板生成模型确定该描述权重对应的描述模板,最后根据该描述模板生成房源对应的描述文本,从而使得房源描述文本更加贴合房源特征,提高了房源描述文本的推广效果。

本发明实施例提供了一种计算机可读存储介质,所述存储介质存储有至少一可执行指令,该可执行指令在房源描述文本生成设备上运行时,使得所述房源描述文本生成设备执行上述任意方法实施例中的房源描述文本生成方法。

可执行指令具体可以用于使得房源描述文本生成设备执行以下操作:

获取原始房源数据;

对所述原始房源数据进行文本处理,得到待描述房源对应的目标描述词集合,所述目标描述词集合中包括至少一个目标描述词;

对所述目标描述词集合进行分析,得到所述待描述房源对应的多个目标功能模块的目标描述权重,所述目标功能模块为预设功能模块中的任一个,每一个所述目标功能模块对应至少一个所述目标描述词;

将所述目标描述权重输入预设的模板生成模型,得到多个可选描述模板;每一个所述可选描述模板中包括至少一个所述预设功能模块,所述模板生成模型以带有样本描述权重的房源描述文本样本为输入,以所述房源描述文本样本对应的描述模板为输出训练得到;所述样本描述权重为所述房源描述文本样本对应的各个预设功能模块的权重;

将所述目标功能模块对应的目标描述词匹配到所述多个可选描述模板中,得到所述待描述房源对应的多个可选描述文本。

在一种可选的方式中,所述可执行指令使所述房源描述文本生成设备执行以下操作:

对所述原始房源数据进行数据清洗;

将数据清洗后的原始房源数据进行聚合,得到至少一个待描述房源对应的待处理数据;

对所述待处理数据进行自然语言处理,得到所述至少一个待描述房源对应的原始描述词信息;

根据所述原始描述词信息在预设的房源描述词库中进行匹配,根据匹配结果分别确定各个所述待描述房源对应的目标描述词集合。

在一种可选的方式中,所述可执行指令使所述房源描述文本生成设备执行以下操作:

对所述目标描述词集合中的各个目标描述词分别进行语义分析,确定各个所述目标描述词对应的房源参数属性;

根据所述房源参数属性确定所述目标描述词对应的目标功能模块;

确定各个目标功能模块对应的目标描述词的数量占所述目标描述词集合中包含的词总数的比例;

根据所述比例确定所述描述权重。

在一种可选的方式中,所述可执行指令使所述房源描述文本生成设备执行以下操作:

分别将各个所述目标描述词在预设的房源标签库中进行匹配,所述房源标签库中包括多个房源标签和各个所述房源标签对应的热度权重;

根据各个所述目标描述词匹配到的房源标签对应的热度权重确定各个目标功能模块对应的总热度权重;

根据所述总热度权重对所述描述权重进行调整。

在一种可选的方式中,所述可执行指令使所述房源描述文本生成设备执行以下操作:

获取房源描述文本样本集,所述房源描述文本样本集中包括多个所述带有样本描述权重的房源描述文本样本;

将所述房源描述文本样本集输入所述文本聚类模型,得到至少一个房源描述文本类和每一个所述房源描述文本类对应的模型描述模板,每一个所述房源描述文本类对应至少一个房源描述文本样本;

计算所述模型描述模板与房源描述文本类对应的各个房源描述文本的语义相似度;

根据所述语义相似度计算所述文本聚类模型的损失函数;

当所述损失函数小于预设值时,将所述文本聚类模型作为所述训练完成的模板生成模型。

在一种可选的方式中,所述可执行指令使所述房源描述文本生成设备执行以下操作:

获取所述可填充字段对应的房源参数属性,根据所述房源参数属性将所述目标描述词与所述可填充字段进行匹配;

将目标描述词填充到所匹配到的可填充字段对应的位置,得到一个所述可选描述文本。

在一种可选的方式中,所述可执行指令使所述房源描述文本生成设备执行以下操作:

通过预设的N-gram模型计算所述可选描述文本的语义通顺度;

当所述语义通顺度小于预设通顺度阈值时,将所述语义通顺度小于所述通顺度阈值的可选描述文本从所述多个可选描述文本中删除。

本发明实施例提供的计算机可读介质的具体实施过程与前述任一实施例所述的房源描述文本生成方法的实施过程相同,不再赘述。本发明的计算机可读介质通过首先对房源数据进行文本处理,确定待描述房源在预设功能模块下的描述权重,并且通过模板生成模型确定该描述权重对应的描述模板,最后根据该描述模板生成房源对应的描述文本,从而使得房源描述文本更加贴合房源特征,提高了房源描述文本的推广效果。

本发明实施例提供一种房源描述文本生成装置,用于执行上述房源描述文本生成方法。

本发明实施例提供了一种计算机程序,所述计算机程序可被处理器调用使房源描述文本生成设备执行上述任意方法实施例中的房源描述文本生成方法。

本发明实施例提供了一种计算机程序产品,计算机程序产品包括存储在计算机可读存储介质上的计算机程序,计算机程序包括程序指令,当程序指令在计算机上运行时,使得所述计算机执行上述任意方法实施例中的房源描述文本生成方法。

在此提供的算法或显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本发明实施例也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。

在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。

类似地,应当理解,为了精简本发明并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明实施例的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。

本领域技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。上述实施例中的步骤,除有特殊说明外,不应理解为对执行顺序的限定。

相关技术
  • 房源描述文本生成方法、装置、设备及计算机存储介质
  • 图像描述文本生成方法、装置、计算机设备及存储介质
技术分类

06120112773645