掌桥专利:专业的专利平台
掌桥专利
首页

一种中文拼音搜索的实现方法和系统

文献发布时间:2023-06-19 09:30:39


一种中文拼音搜索的实现方法和系统

技术领域

本发明涉及文字索引技术领域,具体涉及一种中文拼音搜索的实现方法和系统。

背景技术

目前在多数软件应用或检索类程序中,现有的中文搜索,尤其是汉字搜索,大多数缺少使用汉语拼音也能匹配的高级功能。少数即使支持拼音搜索汉字但缺少对繁体中文的拼音搜索支持,而且也不支持旧版本但仍有较高市场份额的Internet Explorer 8浏览器。

发明内容

本发明的技术任务是提供一种中文拼音搜索的实现方法和系统,能够支持汉字拼音搜索并且支持繁体中文的拼音搜索,提高搜索效率,提高适用性。

本发明解决其技术问题所采用的技术方案是:

一种中文拼音搜索的实现方法,通过构建汉字与拼音映射库,并构建简体中文与繁体中文映射表,将汉字与拼音映射、简体与繁体映射;

将输入的关键字进行格式转换,实现字符统一;

编写支持Internet Explorer 8的Polyfill;

对输入的字符进行判断,若为IE8,则进行兼容IE8的代码处理;若判断字符含有拼音,则启动拼音搜索引擎,调用所述汉字与拼音映射库及简体中文与繁体中文映射表进行字符处理及目标搜索,并展示搜索结果。

该方法能够支持拼音首字母或者完整拼音搜索,能显著提升检索目标功能菜单或者通用文本的便捷度与效率,并能适用于使用繁体中文的地区:香港特别行政区,澳门特别行政区,台湾省等,使软件系统的普遍适用性、可移植性显著增强,而无需更改相关源代码。同时,能够兼容Internet Explorer 8,适用性更强,应用范围广。

优选的,该方法中,对输入的字符进行分词处理,拆分词语,从而进行字符模式匹配。

优选的,该方法还包括多音字处理,构建多条汉字与拼音的映射行,在进行搜索时调用该映射行进行字符处理及目标搜索。某些汉字会有多个读音,通过构建多条汉字与拼音的映射行,以应对多音字的情况。

具体的,所述启动拼音搜索引擎包括以下操作:

处理繁体中文;

匹配字词首字母;

处理多音字;

拆分词语。

进一步的,通过高亮匹配字符颜色处理,将应用系统的搜索结果进行目标字符凸显处理。

优选的,该方法的具体实现过程如下:

1)、构建汉字与拼音映射库,

首先需要构建基础数据,将汉字与拼音准确地做好映射,形成基础映射库;

2)、编制简体中文与繁体中文映射表,

为了支持繁体中文的模式匹配,需要编制简体与繁体的对照映射表;

3)、转换字符大小写格式,将输入的关键字英文字符或者汉语拼音字符统一转成大写或者小写,便于字符的模式匹配;

4)、处理浏览器兼容性,编写支持Internet Explorer 8的Polyfill;

Polyfill是一块代码,通常是Web上的JavaScript代码块,用来为旧版本浏览器提供它没有原生支持的较新的功能。

5)、处理多音字;

某些汉字会有多个读音,这种情况下,需要通过构建多条汉字与拼音的映射行,以进行多音字处理;

6)、对中文和其他输入的字符进行分词处理,

拆分词语,为字符模式匹配做准备;

7)、字符模式匹配,

使用字符模式匹配API,执行搜索过程;

8)、将应用系统的搜索结果进行展示。

优选的,所述汉字与拼音映射库至少囊括GBK标准包含的汉字。GBK即汉子内码扩展规范CICES中的国家标准扩展。

优选的,所述简体中文与繁体中文映射表至少包含GBK字符集范围内的中文字符。

本发明还要求保护一种中文拼音搜索的实现系统,包括:至少一个存储器和至少一个处理器;

所述至少一个存储器,用于存储机器可读程序;

所述至少一个处理器,用于调用所述机器可读程序,执行上述的方法。

本发明还要求保护一种计算机可读介质,所述计算机可读介质上存储有计算机指令,所述计算机指令在被处理器执行时,使所述处理器执行上述的方法。

本发明的一种中文拼音搜索的实现方法和系统与现有技术相比,具有以下有益效果:

本方法及系统能够支持汉字拼音搜索并且支持繁体中文的拼音搜索;既可以支持词语的完整拼音匹配又可以支持词语的拼音首字母匹配;同时也支持多音字,包含6763个简体汉字及其对应的繁体汉字,适用性强;

高亮颜色匹配字符,突出搜索结果,使搜索更直观;

既可以支持现代浏览器Internet Explorer 9及以上版本、Chrome、Firefox、Safari、Opera等,也可以支持“古代”浏览器Internet Explorer 8,应用范围广。

附图说明

图1是本发明实施例提供个中文拼音搜索的实现方法流程图;

图2是本发明一个实施例提供的中文拼音搜索初始状态界面示例图;

图3是本发明一个实施例提供的中文拼音搜索的中文词汇搜索时界面显示示例图;

图4是本发明一个实施例提供的中文拼音搜索的拼音完整形式搜索时界面显示示例图;

图5是本发明一个实施例提供的中文拼音搜索的繁体中文搜索时界面显示示例图;

图6是本发明一个实施例提供的中文拼音搜索的部分拼音首字母搜索时界面显示示例图;

图7是本发明一个实施例提供的中文拼音搜索的完整拼音首字母搜索时界面显示示例图;

图8是本发明一个实施例提供的中文拼音搜索的非连续拼音首字母搜索时界面显示示例图。

具体实施方式

下面结合具体实施例对本发明作进一步说明。

一种中文拼音搜索的实现方法,通过构建汉字与拼音映射库,并构建简体中文与繁体中文映射表,将汉字与拼音映射、简体与繁体映射;

将输入的关键字进行格式转换,实现字符统一;

编写支持Internet Explorer 8的Polyfill;

对输入的字符进行判断,若为IE8,则进行兼容IE8的代码处理;若判断字符含有拼音,则启动拼音搜索引擎,调用所述汉字与拼音映射库及简体中文与繁体中文映射表进行字符处理及目标搜索,并展示搜索结果。

该方法还包括多音字处理,构建多条汉字与拼音的映射行,在进行搜索时调用该映射行进行字符处理及目标搜索。某些汉字会有多个读音,通过构建多条汉字与拼音的映射行,以应对多音字的情况。

该方法中,对输入的字符进行分词处理,拆分词语,从而进行字符模式匹配。

所述启动拼音搜索引擎包括以下操作:

处理繁体中文;

匹配字词首字母;

处理多音字;

拆分词语;

和高亮匹配字符颜色,通过高亮匹配字符颜色处理,将应用系统的搜索结果进行目标字符凸显处理。

该方法的具体实现过程如下:

1、构建汉字与拼音映射库:

首先需要构建基础数据,将汉字与拼音准确地做好映射,形成基础映射库,至少要囊括GBK标准所包含的汉字。

2、编制简体中文与繁体中文映射表:

为了支持繁体中文的模式匹配,需要编制简体与繁体的对照映射表,应至少包含GBK字符集范围内的中文字符。

3、转换字符大小写格式:

将输入的关键字英文字符或者汉语拼音字符统一转成大写或者小写,便于字符的模式匹配。

4、处理浏览器兼容性:

编写支持Internet Explorer 8的Polyfill。

Polyfill是一块代码,通常是Web上的JavaScript代码块,用来为旧版本浏览器提供它没有原生支持的较新的功能。

5、处理多音字:

某些汉字会有多个读音,这种情况下,需要构建多条汉字与拼音的映射行。

6、分词:

对中文和其他输入的字符进行分词处理。拆分词语,为字符模式匹配做准备。

7、字符模式匹配:

使用字符模式匹配API,执行搜索过程。

8、展示搜索结果:

将应用系统的搜索结果进行高亮、着色等处理,使用户能够更清楚地辨识目标字符。

如图1所示,为该中文拼音搜索的实现方法的流程图。

该方法支持拼音首字母或者完整拼音搜索,能显著提升检索目标功能菜单或者通用文本的便捷度与效率,并能适用于使用繁体中文的地区:香港特别行政区,澳门特别行政区,台湾省等,使软件系统的普遍适用性、可移植性显著增强,而无需更改相关源代码。

拼音搜索过程中,对多音字的处理是个难点。通过构建多条汉字与拼音的映射行,能够轻松解决这一搜索问题。例如:搜索时,算法根据录入的词语拼音首字符,先拆分字符,逐行匹配多音字,再新组合匹配项,将适配的结果按照原来出现的先后次序高亮着色列举展示。

本发明实施例还提供一种中文拼音搜索的实现方法,参考图2-图8所示,细致展示算法的应用效果。

(1)、初始状态,如图2所示;

(2)、中文词汇搜索,如图3所示;

(3)、拼音完整形式搜索,如图4所示;

(4)、繁体中文搜索,如图5所示;

(5)、部分拼音首字母搜索,如图6所示;

(6)、完整拼音首字母搜索,如图7所示;

(7)、非连续拼音首字母搜索,如图8所示。

本发明实施例还提供一种中文拼音搜索的实现系统,包括:至少一个存储器和至少一个处理器;

所述至少一个存储器,用于存储机器可读程序;

所述至少一个处理器,用于调用所述机器可读程序,执行上述实施例中的中文拼音搜索的实现方法。

本发明实施例还提供了一种计算机可读介质,所述计算机可读介质上存储有计算机指令,所述计算机指令在被处理器执行时,使所述处理器执行本发明上述实施例中的中文拼音搜索的实现方法。具体地,可以提供配有存储介质的系统或者装置,在该存储介质上存储着实现上述实施例中任一实施例的功能的软件程序代码,且使该系统或者装置的计算机(或CPU或MPU)读出并执行存储在存储介质中的程序代码。

在这种情况下,从存储介质读取的程序代码本身可实现上述实施例中任何一项实施例的功能,因此程序代码和存储程序代码的存储介质构成了本发明的一部分。

用于提供程序代码的存储介质实施例包括软盘、硬盘、磁光盘、光盘(如CD-ROM、CD-R、CD-RW、DVD-ROM、DVD-RAM、DVD-RW、DVD+RW)、磁带、非易失性存储卡和ROM。可选择地,可以由通信网络从服务器计算机上下载程序代码。

此外,应该清楚的是,不仅可以通过执行计算机所读出的程序代码,而且可以通过基于程序代码的指令使计算机上操作的操作系统等来完成部分或者全部的实际操作,从而实现上述实施例中任意一项实施例的功能。

此外,可以理解的是,将由存储介质读出的程序代码写到插入计算机内的扩展板中所设置的存储器中或者写到与计算机相连接的扩展单元中设置的存储器中,随后基于程序代码的指令使安装在扩展板或者扩展单元上的CPU等来执行部分和全部实际操作,从而实现上述实施例中任一实施例的功能。

上文通过附图和优选实施例对本发明进行了详细展示和说明,然而本发明不限于这些已揭示的实施例,基与上述多个实施例本领域技术人员可以知晓,可以组合上述不同实施例中的代码审核手段得到本发明更多的实施例,这些实施例也在本发明的保护范围之内。

相关技术
  • 一种中文拼音搜索的实现方法和系统
  • 利用声调标记搜索中文字符的方法和实现该方法的系统
技术分类

06120112192017