内容识别方法、装置及存储介质

文献发布时间：2023-06-19 10:27:30

技术领域

本公开涉及计算机通信领域，尤其涉及一种内容识别方法、装置及存储介质。

背景技术

相关技术中，在使用传送门的功能时，只能基于预先设置的函数对应用程序内的文字进行抓取。例如，可以通过content catcher类方法在应用程序内进行文字抓取。但是，如果仅对应用程序内的文字进行抓取，并不是所有内容都能抓取到，会导致抓取场景受局限，且存在抓取的文字不准确或者无法抓取到文字内容的情况。基于上述问题，会导致传送门的功能不佳，进而降低用户体验感。

发明内容

本公开提供一种内容识别方法、装置及存储介质。

根据本公开实施例的第一方面，提供一种内容识别方法，应用于电子设备，包括：

在检测到针对当前界面上的显示内容的第一触发操作时，在所述当前界面上显示文本识别浮窗和/或图片识别浮窗；

在显示有所述文本识别浮窗时，基于所述文本识别浮窗所接收到的第二触发操作，对所述显示内容进行文本识别；

在文本识别失败或者没有显示所述文本识别浮窗的情况下，基于所述图片识别浮窗接收到的第三触发操作，对所述显示内容进行图片识别。

可选的，所述方法还包括：

在所述文本识别浮窗接收到所述第二触发操作时，在所述当前界面上显示文本识别控件，并将图片识别控件显示在所述文本识别控件的第一设定范围内；

在所述图片识别浮窗接收到所述第三触发操作时，在所述当前界面上显示所述图片识别控件，并将所述文本识别控件显示在所述图片识别控件的第二设定范围内；

其中，所述文本识别控件和所述图片识别控件用于对所述显示内容的识别模式进行切换。

可选的，所述基于所述图片识别浮窗接收到的第三触发操作，对所述显示内容进行图片识别，包括：

在所述图片识别浮窗接收到所述第三触发操作时，将所述显示内容以图片的形式显示在所述当前界面上，并检测作用于所述文本识别控件的第四触发操作；

在检测到所述第四触发操作时，利用光学字符识别技术从所述显示内容中识别出文本内容。

可选的，所述方法还包括：

将从所述显示内容中识别到的文本内容发送至服务器，其中，所述服务器用于对所述文本内容进行分词处理和意图分析；

接收所述服务器返回的分词结果和意图识别结果，并将所述分词结果和所述意图识别结果显示在所述当前界面上。

可选的，所述分词结果包括至少一个字符，所述方法还包括：

将至少一个所述字符显示在所述当前界面上；

根据检测到的针对于至少一个所述字符的选中操作，更新所述意图识别结果。

可选的，所述在检测到针对当前界面上的显示内容的第一触发操作时，在所述当前界面上显示文本识别浮窗和/或图片识别浮窗，包括：

在检测到所述第一触发操作时，对所述显示内容所在的区域进行内容抓取，并根据抓取结果将文本识别浮窗和/或图片识别浮窗显示在所述当前界面上。

可选的，所述根据抓取结果将文本识别浮窗和/或图片识别浮窗显示在所述当前界面上，包括：

如果抓取到文本内容，则将所述文本识别浮窗显示在所述当前界面上；

如果抓取到图片内容，则将所述图片识别浮窗显示在所述当前界面上；

如果未抓取到所述文本内容和所述图片内容，则将所述文本识别浮窗和所述图片识别浮窗均显示在所述当前界面上。

可选的，所述方法还包括：

在检测到针对所述当前界面的第五触发操作时，在所述当前界面上显示截屏框；

对位于所述截屏框内的截屏内容进行文本识别。

可选的，所述方法还包括：

基于检测到的调整操作，调整所述截屏框的尺寸和/或位置；

所述对位于所述截屏框内的截屏内容进行文本识别，包括：

对调整后的截屏框内的截屏内容进行文本识别。

根据本公开实施例的第二方面，提供一种内容识别装置，应用于电子设备，包括：

第一显示模块，配置为在检测到针对当前界面上的显示内容的第一触发操作时，在所述当前界面上显示文本识别浮窗和/或图片识别浮窗；

第一识别模块，配置为在显示有所述文本识别浮窗时，基于所述文本识别浮窗所接收到的第二触发操作，对所述显示内容进行文本识别；

第二识别模块，配置为在文本识别失败或者没有显示所述文本识别浮窗的情况下，基于所述图片识别浮窗接收到的第三触发操作，对所述显示内容进行图片识别。

可选的，所述装置还包括：

第二显示模块，配置为在所述文本识别浮窗接收到所述第二触发操作时，在所述当前界面上显示文本识别控件，并将图片识别控件显示在所述文本识别控件的第一设定范围内；

第三显示模块，配置为在所述图片识别浮窗接收到所述第三触发操作时，在所述当前界面上显示所述图片识别控件，并将所述文本识别控件显示在所述图片识别控件的第二设定范围内；

其中，所述文本识别控件和所述图片识别控件用于对所述显示内容的识别模式进行切换。

可选的，所述第二识别模块，还配置为：

在检测到所述第四触发操作时，利用光学字符识别技术从所述显示内容中识别出文本内容。

可选的，所述装置还包括：

发送模块，配置为将从所述显示内容中识别到的文本内容发送至服务器，其中，所述服务器用于对所述文本内容进行分词处理和意图分析；

接收模块，配置为接收所述服务器返回的分词结果和意图识别结果，并将所述分词结果和所述意图识别结果显示在所述当前界面上。

可选的，所述分词结果包括至少一个字符，所述装置还包括：

第三显示模块，配置为将至少一个所述字符显示在所述当前界面上；

更新模块，配置为根据检测到的针对于至少一个所述字符的选中操作，更新所述意图识别结果。

可选的，所述第一显示模块，还配置为：

在检测到所述第一触发操作时，对所述显示内容所在的区域进行内容抓取，并根据抓取结果将文本识别浮窗和/或图片识别浮窗显示在所述当前界面上。

可选的，所述第一显示模块，还配置为：

如果抓取到文本内容，则将所述文本识别浮窗显示在所述当前界面上；

如果抓取到图片内容，则将所述图片识别浮窗显示在所述当前界面上；

如果未抓取到所述文本内容和所述图片内容，则将所述文本识别浮窗和所述图片识别浮窗均显示在所述当前界面上。

可选的，所述装置还包括：

第四显示模块，配置为在检测到针对所述当前界面的第五触发操作时，在所述当前界面上显示截屏框；

第三识别模块，配置为对位于所述截屏框内的截屏内容进行文本识别。

可选的，所述装置还包括：

调整模块，配置为基于检测到的调整操作，调整所述截屏框的尺寸和/或位置；

所述第三识别模块，还配置为：

对调整后的截屏框内的截屏内容进行文本识别。

根据本公开实施例的第三方面，提供一种内容识别装置，包括：

处理器；

配置为存储处理器可执行指令的存储器；

其中，所述处理器配置为：执行时实现上述第一方面中任一种方法中的步骤。

根据本公开实施例的第四方面，提供一种非临时性计算机可读存储介质，当所述存储介质中的指令由内容识别装置的处理器执行时，使得所述内容识别装置能够执行上述第一方面中任一种方法中的步骤。

本公开的实施例提供的技术方案可以包括以下有益效果：

由上述实施例可知，本公开在检测到针对当前界面上的显示内容的第一触发操作时，在当前界面上显示文本识别浮窗和/或图片识别浮窗，在显示有文本识别浮窗时，基于文本识别浮窗所接收到的第二触发操作，对显示内容进行文本识别，在文本识别失败或者没有显示文本识别浮窗的情况下，基于图片识别浮窗接收到的第三触发操作，对显示内容进行图片识别。

这样，第一方面，能够基于第一触发操作，将文本识别浮窗和/或图片识别浮窗显示在当前界面上，能够提供多种不同的用于识别显示内容的入口，在将该内容识别方法应用于传送门时，能够实现传送门功能的全场景识别。第二方面，首先使用文本识别，而非直接对所有的内容均使用图片识别，能够节省网络流量和减少内容识别所产生的功耗。第三方面，在文本识别失败或者没有显示文本识别浮窗的情况下，再进行图片识别，将图片识别作为兜底方案，能够提高内容识别的稳定性。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。

图1是根据一示例性实施例示出的一种内容识别方法的流程示意图。

图2是根据一示例性实施例示出的显示界面示意图一。

图3是根据一示例性实施例示出的显示界面示意图二。

图4是根据一示例性实施例示出的显示界面示意图三。

图5是根据一示例性实施例示出的显示界面示意图四。

图6是根据一示例性实施例示出的另一种内容识别方法的流程示意图。

图7是根据一示例性实施例示出的一种内容识别装置框图。

图8是根据一示例性实施例示出的内容识别装置700的框图一。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

本公开实施例中提供了一种内容识别方法，图1是根据一示例性实施例示出的一种内容识别方法的流程示意图，如图1所示，该方法可以应用于电子设备，该方法主要包括以下步骤：

在步骤101中，在检测到针对当前界面上的显示内容的第一触发操作时，在所述当前界面上显示文本识别浮窗和/或图片识别浮窗；

在步骤102中，在显示有所述文本识别浮窗时，基于所述文本识别浮窗所接收到的第二触发操作，对所述显示内容进行文本识别；

在步骤103中，在文本识别失败或者没有显示所述文本识别浮窗的情况下，基于所述图片识别浮窗接收到的第三触发操作，对所述显示内容进行图片识别。

这里，电子设备包括移动终端和固定终端，其中，移动终端包括：手机、平板电脑、笔记本电脑等；固定终端包括：个人计算机等。

其中，第一触发操作可以是作用于电子设备的当前界面上的显示内容的操作，例如，可以是选中操作、点击操作、长按操作等。本公开实施例中，在检测到针对该显示内容的第一触发操作时，可以在当前界面上显示文本识别浮窗和/或图片识别浮窗。

以显示内容是文本文档为例，则第一触发操作则可以是针对该文本文档的某个页面的长按操作，或者使针对该文本文档中某段文字的长按操作，当然，这里的文本文档是一种示例，在一些可选的实施例中，也可以是其它形式的显示内容。

图2是根据一示例性实施例示出的显示界面示意图一，如图2所示，在仅显示有文本识别浮窗201时，可以将文本识别浮窗201显示在当前界面的边缘侧，例如，可以将文本识别浮窗显示在当前界面的最右侧，这样，能够为输入第二触发操作提供便利性。在另一些实施例中，也可以将文本识别浮窗显示在当前界面的其它位置，例如，显示在当前界面的最下方，只要是便于输入第二触发操作的位置即可，在此不作具体限定。

本公开实施例中，在显示有文本识别浮窗时，可以基于文本识别浮窗接收第二触发操作，并在检测到该第二触发操作时，对显示内容进行文本识别。其中，第二触发操作可以是作用于文本识别浮窗的操作，例如，可以是点击操作、长按操作等。

例如，在检测到该第二触发操作时，就对该显示内容进行文本识别，得到文本内容，在得到文本内容之后，可以将该文本内容发送至服务器，以使服务器对该文本内容进行分析，得到分析结果，并将分析结果返回给电子设备。其中，分析结果包括：分词结果和意图分析结果。

本公开实施例中，在文本识别失败或者没有显示文本识别浮窗的情况下，可以基于图片识别浮窗接收到的第三触发操作，对显示内容进行图片识别。由于在文本识别失败或者没有显示文本识别浮窗的情况下，表征电子设备无法识别到显示内容中的文本内容，这时，可以基于图片识别浮窗接收第三触发操作，并基于该第三触发操作对显示内容进行图片识别。其中，对显示内容进行图片识别包括：基于光学字符识别(Optical CharacterRecognition，OCR)对图片形式的显示内容进行识别，获取显示内容中的文本内容。

本公开实施例中，在检测到针对当前界面上的显示内容的第一触发操作时，在当前界面上显示文本识别浮窗和/或图片识别浮窗，在显示有文本识别浮窗时，基于文本识别浮窗所接收到的第二触发操作，对显示内容进行文本识别，在文本识别失败或者没有显示文本识别浮窗的情况下，基于图片识别浮窗接收到的第三触发操作，对显示内容进行图片识别。

在一些实施例中，所述基于所述图片识别浮窗接收到的第三触发操作，对所述显示内容进行图片识别，包括：

在检测到所述第四触发操作时，利用光学字符识别技术从所述显示内容中识别出文本内容。

本公开实施例中，由于在文本识别失败或者没有显示文本识别浮窗的情况下，表征电子设备无法识别到显示内容中的文本内容，这时，可以基于图片识别浮窗接收第三触发操作，并基于该第三触发操作对显示内容进行图片识别。为了使得用户清楚了解所要识别的内容，可以将待识别的显示内容以图片的形式展示在当前界面上，以减少所识别的内容出现错误的可能性。

由于待识别的内容为图片形式，所以自动选中的是图片识别控件，在实现的过程中，需要自行触发文本识别控件，即基于文本识别控件输入第四触发操作，以从图片识别切换至文本识别，进而获取显示内容中的文本内容。

本公开实施例中，优先使用文本识别，而非直接对所有的内容均使用图片识别，能够节省网络流量和减少内容识别所产生的功耗，且在文本识别失败或者没有显示文本识别浮窗的情况下，再进行图片识别，将图片识别作为兜底方案，能够提高内容识别的稳定性。

在一些实施例中，所述方法还包括：

其中，所述文本识别控件和所述图片识别控件用于对所述显示内容的识别模式进行切换。

本公开实施例中，在文本识别浮窗接收到所述第二触发操作时，在当前界面上显示文本识别控件，并将图片识别控件显示在文本识别控件的第一设定范围内。其中，第一设定范围可以是距离文本识别控件第一距离的范围，可以根据需要设定，只要能够使得文本识别控件与图片识别控件能够同时显示，并便于切换即可。

在图片识别浮窗接收到所述第三触发操作时，在当前界面上显示文本识别控件，并将文本识别控件显示在图片识别控件的第二设定范围内。其中，第二设定范围可以是距离图片识别控件第二距离的范围，可以根据需要设定，只要能够使得文本识别控件与图片识别控件能够同时显示，并便于切换即可。

在一些实施例中，第一设定范围可以与第二设定范围相同，当然，第一设定范围与第二设定范围也可以不同，只要能够实现各自的功能即可。

在一些实施例中，文本识别控件和图片识别控件可以是标签类型的控件，通过将文本识别控件和图片识别控件设置为标签类型，能够便于用户使用和查找，进而提高内容识别的便利性。

图3是根据一示例性实施例示出的显示界面示意图二，如图3所示，可以将图片识别控件302显示在文本识别控件301的右侧。在另一些实施例中，也可以将图片识别控件显示在文本识别控件的左侧，在此不作具体限定。

本公开实施例中，能够同时将文本识别控件和图片识别控件均显示在当前界面上，在用户需要进行识别模式的切换的时候，仅需要通过文本识别控件或者图片识别控件输入对应的触发操作，通过该方式，能够实现文本识别和图片识别的快速切换。

在一些实施例中，所述方法还包括：

将从所述显示内容中识别到的文本内容发送至服务器，其中，所述服务器用于对所述文本内容进行分词处理和意图分析；

接收所述服务器返回的分词结果和意图识别结果，并将所述分词结果和所述意图识别结果显示在所述当前界面上。

本公开实施例中，在识别出显示内容中的文本内容之后，可以将该文本内容发送至服务器，服务器在接收到该文本内容之后，可以对该文本内容进行分词处理和意图分析，进而得到分词结果和意图识别结果。例如，可以利用分词器，根据文本内容的语义对文本内容进行分词。

在一些实施例中，可以根据文本内容中各个词语的语义确定出该意图识别结果。例如，如果文本内容中包含有人名，则得到的意图识别结果则可以是该人名所对应的人物介绍。如果文本内容中包含有地名，则得到的意图识别结果则可以是该地名所对应的地点在地图中的位置。

本公开实施例中，通过对文本内容进行分词处理和意图分析，能够精确确定出对应的分词结果和意图识别结果，通过将分词结果和意图识别结果显示在电子设备的当前界面上，能够便于查看和操作。

在一些实施例中，所述分词结果包括至少一个字符，所述方法还包括：

将至少一个所述字符显示在所述当前界面上；

根据检测到的针对于至少一个所述字符的选中操作，更新所述意图识别结果。

图4是根据一示例性实施例示出的显示界面示意图三，如图4所示，可以将分词结果401显示在当前界面的下方，且将意图识别结果402显示在分词结果的上方。本公开实施例中，由于分词包括多个字符，且每个字符均独立显示，在实现的过程中，可以分别对各个字符输入选中操作，并根据选中操作对意图识别结果进行更新。

例如，如果是分别对“The”、“New”、“New”以及“Thing”输入了选中操作，则对应显示的意图识别结果则是对“The New New Thing”进行翻译。再例如，如果是对“迈克尔·刘易斯”输入了选中操作，则对应显示的意图识别结果则是对迈克尔·刘易斯的人物介绍。也就是说，选中操作所作用的分词对象不同，则对应的意图识别结果也会有所不同。

本公开实施例中，能够对分词结果中的各个字符分别进行选中操作，并根据选中结果对意图识别结果进行更新，能够节省用户点击搜索跳转搜索页面的步骤，节省用户使用成本，提高使用效率。

在一些实施例中，所述在检测到针对当前界面上的显示内容的第一触发操作时，在所述当前界面上显示文本识别浮窗和/或图片识别浮窗，包括：

在检测到所述第一触发操作时，对所述显示内容所在的区域进行内容抓取，并根据抓取结果将文本识别浮窗和/或图片识别浮窗显示在所述当前界面上。

本公开实施例中，在检测到第一触发操作时，可以对显示内容所在的区域进行内容抓取，并根据抓取结果将文本识别浮窗和/或图片识别浮窗显示在所述当前界面上。例如，可以基于预设的函数对显示内容所在的区域进行内容抓取，其中，预设函数可以是content catcher类方法。

由于在实现的过程中，并不是总能抓取到内容的，本公开实施例中，能够基于抓取结果确定将哪种类型的浮窗显示在当前界面上，能够为用户输入对应的触发操作提供便利性。

在一些实施例中，所述根据抓取结果将文本识别浮窗和/或图片识别浮窗显示在所述当前界面上，包括：

如果抓取到文本内容，则将所述文本识别浮窗显示在所述当前界面上；

如果抓取到图片内容，则将所述图片识别浮窗显示在所述当前界面上；

如果未抓取到所述文本内容和所述图片内容，则将所述文本识别浮窗和所述图片识别浮窗均显示在所述当前界面上。

本公开实施例中，在抓取到文本内容时，则可以将文本识别浮窗显示在当前界面上。，如图2所示，在仅显示有文本识别浮窗时，可以将文本识别浮窗显示在当前界面的边缘侧，例如，可以将文本识别浮窗显示在当前界面的右侧，这样，能够为输入第二触发操作提供便利性。在另一些实施例中，也可以将文本识别浮窗显示在当前界面的其它位置，例如，显示在当前界面的最下方，只要是便于输入第二触发操作的位置即可，在此不作具体限定。

这里，在抓取到文本内容时，表示当前显示内容中有电子设备能够识别的文本内容，本公开在有文本内容时，优先使用文本识别，而非直接对所有的内容均使用图片识别，能够节省网络流量和减少内容识别所产生的功耗。

这里，在抓取到图片内容时，则将图片识别悬浮窗显示在当前界面上。在文本识别失败或者没有显示文本识别浮窗的情况下，再进行图片识别，将图片识别作为兜底方案，能够提高内容识别的稳定性。

这里，在既没有抓取到文本内容又没抓取到图片内容时，则将文本识别浮窗和图片识别浮窗均显示在当前界面上。

图5是根据一示例性实施例示出的显示界面示意图四，如图5所示，可以将文本识别浮窗501和图片识别浮窗502以纵向排列的方式显示在当前界面上，且可以将文本识别浮窗501和图片识别浮窗502均显示在当前界面的最右侧，这样，能够为输入触发操作提供便利性。

本公开实施例中，能够根据不同的抓取结果，将不同的浮窗显示在当前界面上，为用户提供不同的输入接口，用户能够根据不同的需要进入不同的识别模式，进而提高内容识别的灵活性。

在一些实施例中，所述方法还包括：

在检测到针对所述当前界面的第五触发操作时，在所述当前界面上显示截屏框；

对位于所述截屏框内的截屏内容进行文本识别。

在一些实施例中，在当前界面上显示有分词结果和意图识别结果时，所述方法还包括：检测除分词结果和意图识别结果所在区域之外的周围区域是否接收到所述第五触发操作。

本公开实施例中，由于基于电子设备自动抓取的内容所得到的识别结果不一定是用户需要的，这时，可以检测是否有针对当前界面的第五触发操作，在检测到有该第五触发操作时，能够在当前界面上显示截屏框，并获取该截屏框内的截屏内容，进而进行文本识别。本公开中，在文本识别和图片识别均不成功或者识别结果不佳的时候，可以通过截屏的方式获取显示内容，进而对显示内容进行识别，能够使得本公开中的内容识别方案更加稳定可靠。

在一些实施例中，所述方法还包括：

基于检测到的调整操作，调整所述截屏框的尺寸和/或位置；

所述对位于所述截屏框内的截屏内容进行文本识别，包括：

对调整后的截屏框内的截屏内容进行文本识别。

这里，在截屏框内的内容不准确或者不是用户需要的时，用户可以对该截屏框输入调整操作，并基于该调整操作调整截屏框的尺寸和/或位置。其中，调整操作包括：拖动操作等。例如，可以通过拉取截屏框的边框以增加或者减小截屏框的尺寸，通过拖动截屏框以调整截屏框所在的位置等。

本公开实施例中，在文本识别和图片识别均不成功或者识别结果不佳的时候，可以通过截屏的方式获取显示内容，进而对显示内容进行识别，能够使得本公开中的内容识别方案更加稳定可靠。在截屏框不满足用户需求时，可以基于调整操作对截屏框进行调整，以使得最终结果更加满足用户需求，能够提高用户体验感。

图6是根据一示例性实施例示出的另一种内容识别方法的流程示意图，如图6所示，该方法主要包括以下步骤：

在步骤601中，电子设备触发传送门。

这里，在检测到针对应用程序的当前界面上的显示内容的长按操作时(第一触发操作)，触发传送门。

在步骤602中，电子设备进行文本识别。

这里，当该显示内容为电子设备可识别的文本内容时，对该显示内容进行文本识别。

在步骤603中，显示“加载数据”浮窗。

这里，当该显示内容为文本内容，并且电子设备可以识别时，则在当前界面的侧边展示“加载数据”浮窗。其中，“加载数据”浮窗可以包括：文本识别浮窗。

在步骤604中，服务器请求分词接口。

这里，电子设备在展示“加载数据”浮窗时，可以把识别到的文本内容上传到服务器，，服务器则可以调用分词接口，对该文本内容进行分词处理，得到分词结果，并将分词结果返回给电子设备。

在步骤605中，电子设备展示文本识别浮窗。

在步骤606中，电子设备展示分词结果。

这里，电子设备在接收到服务器返回的分词结果之后，可以将分词结果显示在当前界面上。

在步骤607中，检测针对分词结果的选中操作。

这里，在检测到针对分词结果的选中操作时，会实时根据选中操作所作用的字符调用意图识别接口，并在分词结果所在的分词框上方实时切换选中的分词所对应的意图识别结果，进而实现单个字符、多个字符或整段语句的意图识别。

在步骤608中，服务器请求意图识别接口。

这里，电子设备在展示“加载数据”浮窗时，可以把识别到的文本内容上传到服务器，，服务器则可以调用意图识别接口，对该文本内容进行意图分析，得到意图识别结果，并将意图识别结果返回给电子设备。

在步骤609中，电子设备展示意图识别结果。

这里，电子设备在接收到服务器返回的意图识别结果之后，可以将意图识别结果显示在当前界面上。这里，当前界面的侧边可以展示三条意图识别结果，如：人物百科、植物百科、地点定位等。在另一些实施例中，也可以展示两条意图识别结果、四条意图识别结果等，在此，不限定意图识别结果的条数。

在一些实施例中，在点击文本识别浮窗之后，当前界面的下方会出现分词结果，分词结果的上方有多条意图识别结果。在一些实施例中，可以对每个意图识别结果添加下划线。

在一些实施例中，还可以将文本识别控件和图片识别控件均显示在当前界面上，以实现文本识别和图片识别之间的切换。

在步骤610中，在不进行文字识别时，则进入图片识别。

在步骤611中，电子设备展示图片识别浮窗。

在步骤612中，电子设备展示屏幕截图。

在步骤613中，电子设备展示显示内容的截图。

在步骤614中，电子设备检测针对文本识别控件的点击操作。

在步骤615中，电子设备调用光学字符识别接口。

在步骤616中，电子设备展示分词结果和意图识别结果。

在步骤617中，电子设备展示图片识别浮窗和文本识别浮窗。

这里，在电子设备既没有识别出文本内容又没有识别出图片内容时，可以在当前界面的侧边同时弹出文本识别浮窗和图片识别浮窗，以让用户自己选择基于文本识别的方式获取文本内容，还是基于图片识别的方式获取文本内容。

在步骤618中，电子设备检测针对文本识别浮窗的点击操作。

在步骤619中，电子设备对显示内容进行文本识别。

在步骤620中，电子设备检测针对图片识别浮窗的点击操作。

在步骤621中，电子设备对显示内容进行图片识别。

在步骤622中，电子设备检测针对周边区域的点击操作，显示截屏框。

这里，周边区域可以是指除分词结果和意图识别结果以外的区域。

在步骤623中，文本识别窗口下拉到当前界面的底部。

这里，在检测到针对周边区域的点击操作时，分词结果下拉到屏幕底边，屏幕出现区域截屏框。

在步骤624中，调整截屏框。

在步骤625中，电子设备生成新的截屏内容。

在步骤626中，电子设备展示新的截屏内容。

在步骤627中，电子设备调用光学字符识别接口。

在步骤628中，电子设备展示分词结果和意图识别结果。

本公开实施例中的技术方案，通过设置图片识别控件和文本识别控件，可以快速在文本识别和图片识别之间切换；优先使用文本抓取的方式进行文本识别，比全部使用图片抓取能力节省网络流量；在分词页面可以通过点选分词结果的方式，快速识别点选内容，并展示与点选内容对应的意图识别结果，能够减少一步点击搜索的流程，更快的给到用户想要的结果；在文本识别不能抓取数据时改用图片抓取技术进行识别，将图片抓取作为兜底方案，能够让内容识别的方案更稳定。

图7是根据一示例性实施例示出的一种内容识别装置框图。如图7所示，该内容识别装置70应用于电子设备，主要包括：

第一显示模块71，配置为在检测到针对当前界面上的显示内容的第一触发操作时，在所述当前界面上显示文本识别浮窗和/或图片识别浮窗；

第一识别模块72，配置为在显示有所述文本识别浮窗时，基于所述文本识别浮窗所接收到的第二触发操作，对所述显示内容进行文本识别；

第二识别模块73，配置为在文本识别失败或者没有显示所述文本识别浮窗的情况下，基于所述图片识别浮窗接收到的第三触发操作，对所述显示内容进行图片识别。

在一些实施例中，所述装置70还包括：

其中，所述文本识别控件和所述图片识别控件用于对所述显示内容的识别模式进行切换。

在一些实施例中，所述第二识别模块73，还配置为：

在检测到所述第四触发操作时，利用光学字符识别技术从所述显示内容中识别出文本内容。

在一些实施例中，所述装置70还包括：

发送模块，配置为将从所述显示内容中识别到的文本内容发送至服务器，其中，所述服务器用于对所述文本内容进行分词处理和意图分析；

接收模块，配置为接收所述服务器返回的分词结果和意图识别结果，并将所述分词结果和所述意图识别结果显示在所述当前界面上。

在一些实施例中，所述分词结果包括至少一个字符，所述装置70还包括：

第三显示模块，配置为将至少一个所述字符显示在所述当前界面上；

更新模块，配置为根据检测到的针对于至少一个所述字符的选中操作，更新所述意图识别结果。

在一些实施例中，所述第一显示模块71，还配置为：

在检测到所述第一触发操作时，对所述显示内容所在的区域进行内容抓取，并根据抓取结果将文本识别浮窗和/或图片识别浮窗显示在所述当前界面上。

在一些实施例中，所述第一显示模块71，还配置为：

如果抓取到文本内容，则将所述文本识别浮窗显示在所述当前界面上；

如果抓取到图片内容，则将所述图片识别浮窗显示在所述当前界面上；

如果未抓取到所述文本内容和所述图片内容，则将所述文本识别浮窗和所述图片识别浮窗均显示在所述当前界面上。

在一些实施例中，所述装置70还包括：

第四显示模块，配置为在检测到针对所述当前界面的第五触发操作时，在所述当前界面上显示截屏框；

第三识别模块，配置为对位于所述截屏框内的截屏内容进行文本识别。

在一些实施例中，所述装置70还包括：

调整模块，配置为基于检测到的调整操作，调整所述截屏框的尺寸和/或位置；

所述第三识别模块，还配置为：

对调整后的截屏框内的截屏内容进行文本识别。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图8是根据一示例性实施例示出的内容识别装置700的框图一。例如，装置700可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等。

参照图8，装置700可以包括以下一个或多个组件：处理组件702，存储器704，电力组件706，多媒体组件708，音频组件710，输入/输出(I/O)接口712，传感器组件714，以及通信组件716。

处理组件702通常控制装置700的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理组件702可以包括一个或多个处理器720来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件702可以包括一个或多个模块，便于处理组件702和其他组件之间的交互。例如，处理组件702可以包括多媒体模块，以方便多媒体组件708和处理组件702之间的交互。

存储器704被配置为存储各种类型的数据以支持在装置700的操作。这些数据的示例包括用于在装置700上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器704可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电力组件706为装置700的各种组件提供电力。电力组件706可以包括电源管理系统，一个或多个电源，及其他与为装置700生成、管理和分配电力相关联的组件。

多媒体组件708包括在所述装置700和用户之间的提供一个输出接口的显示屏。在一些实施例中，显示屏可以包括液晶显示器(LCD)和触摸面板(TP)。如果显示屏包括触摸面板，显示屏可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件708包括一个前置摄像头和/或后置摄像头。当装置700处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件710被配置为输出和/或输入音频信号。例如，音频组件710包括一个麦克风(MIC)，当装置700处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器704或经由通信组件716发送。在一些实施例中，音频组件710还包括一个扬声器，用于输出音频信号。

I/O接口712为处理组件702和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件714包括一个或多个传感器，用于为装置700提供各个方面的状态评估。例如，传感器组件714可以检测到装置700的打开/关闭状态，组件的相对定位，例如所述组件为装置700的显示器和小键盘，传感器组件714还可以检测装置700或装置700一个组件的位置改变，用户与装置700接触的存在或不存在，装置700方位或加速/减速和装置700的温度变化。传感器组件714可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件714还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件714还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件716被配置为便于装置700和其他设备之间有线或无线方式的通信。装置700可以接入基于通信标准的无线网络，如Wi-Fi网络，2G或7G，或它们的组合。在一个示例性实施例中，通信组件716经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件716还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，装置700可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器704，上述指令可由装置700的处理器720执行以完成上述方法。例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

一种非临时性计算机可读存储介质，当所述存储介质中的指令由内容识别装置的处理器执行时，使得内容识别装置能够执行一种内容识别方法，所述方法应用于电子设备，包括：

在检测到针对当前界面上的显示内容的第一触发操作时，在所述当前界面上显示文本识别浮窗和/或图片识别浮窗；

在显示有所述文本识别浮窗时，基于所述文本识别浮窗所接收到的第二触发操作，对所述显示内容进行文本识别；

在文本识别失败或者没有显示所述文本识别浮窗的情况下，基于所述图片识别浮窗接收到的第三触发操作，对所述显示内容进行图片识别。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：莫志伟;朱英涛;刘曼烨;涂权蓉;蔡文;钱庄;潘琼;仲晨;王家星;范馨文;高贺;郑健鹏;罗泓婷;柳亦婷;
专利申请人：北京小米移动软件有限公司;