掌桥专利:专业的专利平台
掌桥专利
首页

新同声近位汉字码输入法

文献发布时间:2024-04-18 19:58:21


新同声近位汉字码输入法

技术领域

本发明属于计算机汉字编码输入法,本人在发明t型汉字码输入法后,又发明了同声近位技术,最多两次从左到右扫描技术,并意外发现笔画部首的选用取舍以及在键盘上的位置是可以定量化计算的,跟做数学一样,在键盘上只有唯一的排列,这是汉字输入法前所未有的创新,今年,在受到某输入法公司一分钟都不愿学的表态后,又做了进一步改进,缩短了几分钟的学习时间,并集成了新的简单的汉字输入法,所以称为新同声近位汉字码输入法,当然还涉及了为实现这一输入法的键盘。另外也可称为新同声近位汉字码拼音输入法。

背景技术

键盘输入法是目前汉字输入法中使用最广泛的输入法。键盘输入按编码划分,可分为音码、形码、音形码三类。

音码一般以汉语拼音为基础,利用汉字的读音进行编码。形码利用汉字的字形特征进行编码。音形码则利用汉字的语音特征和汉字的字形特征编码。音形码又可分为只利用声母的音形码和利用汉字的整个音码的音形码两类,完整地利用了汉字的声母和韵母并且在规定音码部分在先,辅助码在后的话,基本上不会影响思维,思维跟音码差不多,重码率又跟形码差不多,而且能与拼音兼容,越来越显示出其优越性。目前其他人发明的音形码往往汉字部件较多或重码率较高,而本人发明的汉字码则在创新编码规则的基础上,仅仅用了21个左右的部首和5种基本笔画,就能做到既简单又高速地输入汉字。26个笔画部首跟26个英文字母一一对应,也便于显示在手机等小屏幕键上。

但发明专利公开后,很多人反映不习惯横、竖、撇、点(捺)、折分别用a、o、e、i、u编码,还是分别用它们的拼音首字母H、S、P、D、Z编码,容易记忆,并且符合头脑反应,一时间我难以决定,后来我向某输入法公司推介本发明,某输入法事业部的经理称:任何需要用户学习的东西,哪怕只有一分钟,如果没有质变的突破,用户是不会接受的。另外进一步研究发现,横、竖、撇、点(捺)、折分别用H、S、P、D、Z编码在输入辅助码第一码时的确不利于字词重码,但当输入辅助码第二码时,由于是辅音字母,字词重码率却要比横、竖、撇、点(捺)、折分别用元音字母E、I、A、O、U编码少得多,这是重大发现。这使我下定决心将横、竖、撇、点(捺)、折分别用H、S、P、D、Z编码。只是这么一来,原有的键盘布局不得不做重大调整,因为有的基本笔画将与某些多笔画部件同声母或者同韵母,这就要采取新的方法排列多笔画部件即偏旁部首。另外,少数部首选取时只是简单地统计能减少多少重码,没有通过大数据技术进行统计发生重码的汉字的频数,进而优化决定多笔画部件的选取。多笔画部件确定后,如果在同音近位技术的基础上,巧妙地把优选的多笔画部件的韵母首字母作为E、I、A、O、U编码的话,将会更加容易记忆。对于其余少数几个偏旁部首即多笔画部件则也按同声近位和定量化计算加以定位。

为了满足不同需求,本人也在新汉字码基础上集成了只要几分钟左右学会的输入法,只是重码会增多,击键次数会增加,打字速度会变慢。这种输入法只是作为辅助的。

音码部分采用全拼是最简单的,但存在码长较长的问题,主要是全拼中的ng出现频率高,要击键两次。如果ng用一个键表示,就能缩短拼音码长。很多输入法都用g表示,但这容易和声母g重合。有必要用更方便的。

在本人早先的发明中,只注重单字编码,对词组重码重视不够,其他人的发明也存在着对词组重码重视不够的问题。然而本人在输入法编软件的过程中却发现汉语拼音方案词组重码率较高,本人以北京语言大学常用词库和现代汉语词典常用词库为基础,进行了统计,发现,全拼音节约57000个,有同音词的音节约7000个,也就是说竟然有8分之一左右的拼音全拼音节存在同音词,其中两个音节最多,约有4800个,三个音节及以上的只有2200个.如果按汉字的词组算,收录了68000个词组,同音词有18000多条,竟然仅四分之一的汉语词组存在同音词现象。随着词组的增多,同音词会更加凸显,如此多的同音词,势必严重影响输入速度,并且实际输入中经常出现很多同音词错误的情况。当词组数量扩大到68000个常用词组时,五笔等形码类输入法重码也很多,甚至比拼音多得多。一个解决的方法是智能输入,就像搜狗百度等智能输入法宣称的那样,提高词组自动首选率。但很多时候,仍存在着同音词选择麻烦问题。因此有必要发明出简便的区别同音词的方法。同时该方法最好基于单字编码的辅助码。

发明内容

这样,目前的汉字输入法要么汉字部件不规范或选取汉字部件数量不大合理;或者部首即汉字部件不没充分考虑常用汉字中的组字频率、实用频率和重码率;或者五种基本笔画在键盘中的位置不合理,容易造成字词同码;或者码长太长;或者重码过高,影响输入速度;或者只利用汉字的声母或拼音首字母;或者不够直观;或者取码规则不太合理,会影响头脑反应;或者取码时要不停区分是否为左右结构或一会儿横向取码,一会儿纵向取码;或者汉字部件在键盘上的排列规律性不强,甚至有点牵强;或者没有对多笔画部件进行定量化计算,选取舍弃以及在键盘上的排列凭借经验直觉性;或者对部首的使用频次没有用较为权威大数据统计资料,即实际频数频率考虑不够;或者单一一种辅助码,不能兼容多种输入法;或者没有良好的区分同音词(重码词)的方法。都没能很好解决简单的不快速,快速的不简单这一技术难题,输入汉字不甚方便快速。

本发明的目的是提供一种汉字笔画部件选取布局合理、规范直观、简单易学、取码规则合理、输入汉字简便快捷、兼顾单字和词组编码的计算机汉字编码输入方法,那就是新同声近位汉字码输入法。该输入法可以有两种及以上的辅助码编码组成,满足了不同需求。

为达到新同声近位汉字码输入法的目的,本发明规定新同声近位汉字码输入法的编码由音码和辅助码两个部分组成,辅助码可以在音码前,也可以在音码后,一般规定音码在先,辅助码在后,因为现在拼音已经越来越显示出其优越性,但拼音依然存在同音字选择麻烦问题,人工智能和搜索引擎技术也不能完全解决这个问题。本发明中的形部编码即属于辅助码,并且辅助码也有多种。为方便区分,本发明中采用21个左右的多笔画汉字部件和五种基本笔画进行输入的辅助码称为形部编码,只用五种基本笔画代码和汉字中各部首的拼音首字母读音编码的辅助码称为简辅助码。所说的辅助码可以是直接的,即直接连在音码的后面;也可以是间接的,即像某输入法那样输入拼音后,按tab健后再输入辅助码。本发明的形部编码精心设计,能最大限度地减少字词重码,用直接辅助码还有助于提高输入汉字的速度。

音码,可采用拼音或者注音。还可采用本人发明的音素字母声介韵输入法,该输入法类似于注音输入法,但韵母音素化表达,声母基本来自拉丁字母,与国际化接轨。当然音码支持全拼或双拼或注音字母或音素字母声介韵拼音或不完整拼音,还可采用并击速录等技术输入汉字的音码部分。

形部编码部分最多占二码。一般由两个字母代码组成,本发明优选了五种基本笔画和21个左右的多笔画汉字部件参与编码,由于国家语委将五种基本笔画也称为汉字部件,因此在本发明中称五种基本笔画称为单笔画部件,而其它21个优选的汉字部件由多个笔画组成,称为多笔画部件,这些多笔画部件都是偏旁部首,因此叫偏旁部首也行,或者直接叫部首。这五种基本笔画和21个多笔画部件被统称为基本部件,在形部编码时要优先按笔画多的基本部件编码,要优先按多笔画部件编码,否则选取多笔画部件的规定就变得无意义。形部编码的取码规则有三种:

第一种形部编码的取码规则是:独体字,按书写顺序取前二个基本部件的相应代码编码,或者按书写顺序取该汉字的第一个和最末一个基本部件的相应代码编码,当该汉字只有一个基本部件时,就只取这个基本部件的相应代码编码或者接连两次取这个基本部件的相应代码编码;合体字,按整体结构将合体字一分为二,先写部分为首部,后写部分为剩部,按书写顺序分别取首部的第一个基本部件和剩部的第一个基本部件的相应代码编码。

这一编码规则存在着一个弱点:那就是在形部编码时,取完每个汉字的第一个基本部件后必须考虑字型,即必须分清该字是独体字还是合体字,再根据两种不同字型采用两种不同的取码规则编码,这就会影响头脑反应,而且有的汉字很难判断是否为合体字,有时还难以将合体字一分为二,分成两部分。而按左右结构的汉字和非左右结构的汉字编码就容易得多,因为很容易分清一个汉字是否为左右结构,左右结构的汉字左边部分和右边部分有缝隙,很容易根据缝隙一分为二,分为左右两个部分。左中右结构的汉字,一般以第一个缝隙为准,把中间部分划入到右边部分,即左中右结构的汉字左边部分以外的部分算右边部分。

形部编码的第二种取码规则是:左右结构的汉字,分别按书写顺序取该汉字的第一个基本部件和该汉字右边部分的第一个基本部件的相应代码编码;非左右结构的汉字,按书写顺序取该汉字的第一个和最末一个基本部件的相应代码编码,只有一个基本部件就只取这个基本部件的相应代码编码或者接连二次取这个基本部件的代码编码。为防止绕过专利,或者规定:非左右结构的汉字,按书写顺序取该汉字的第一个和第二个基本部件的相应代码编码,但这样的规定容易增加大量重码。

要特别指出:之所以不规定所有的汉字都取前二个基本部件的代码或都取首末二个基本部件的代码编码,是因为这样规定的话表面上会使形部编码的取码规则显得简单易记,实际上却会造成大量的重码,或付出增加大量多笔画部件的代价。为什么“左右结构的汉字,分别取左边部分、右边部分的按书写顺序第一个基本部件的相应代码编码”能降低重码呢?因为汉字形声字占大多数,往往左边是偏旁部首,右边是声旁,声旁往往是一个表示声音的独体字。如果按一般的输入法那样按书写顺序取第一个和最末一个基本部件的话,会存在部首的第一笔与声旁的第一笔相同的情况,这会带来大量重码。为降低重码,势必要选较多的部首,造成难以记忆的情况。那为什么“非左右结构的汉字,按书写顺序取该汉字的第一个和最末一个基本部件的相应代码编码。”呢?答案是也是为了减少部首,因为声旁的首笔和末笔往往不同,对于某个相同的声旁,左右结构的汉字,第二码取声旁的首笔,非左右结构的汉字,第二码取声旁的末笔,这样两个第二码的编码就不同,一般能较好地避免重码。另外如果非左右结构的汉字按书写顺序取前二个基本部件编码的话,就容易造成较多的重码,因为很多上下、包围结构的汉字前二个基本部件相同,而最末一个汉字基本部件却不同,所以第二码按笔顺取最后一个汉字部件能有效地降低重码。可见这个取码规则能非常有效降低重码,使得本发明与其他人发明的输入法相比,所用到的部首大大减少,并且不要用到什么双笔画或三笔画,是千锤百炼的结果,不仅在常用3775个汉字中重码率很低,在国标6763个汉字中、在新华字典中的重码率也很低。

但是这一编码规则同样在编码时要不断区分是否为左右结构,虽然一个汉字是否为左右结构一目了然,但实际输入长篇文字时要不停区分是否为左右结构,思维仍然麻烦。这样实际取码时,就要用到本人历时二十多年才在前几天梦里突发灵感想出的方法即形部编码取码的第三种规则:形部编码的第一码是:先不管三七二十一,按书写顺序取该汉字的第一个基本部件的代码编码。形部编码的第二码,则采用了我冥思苦想,半醒半睡时突发灵感的取码规则:从该汉字的第一个基本部件的右侧开始,左到右边扫描或者说从左边到右边看一下,如果能用一条竖线在不割断该汉字的笔画的情况下,如果能将该汉字一分为二的,则该汉字为左右结构,竖线的右边的部分为该汉字的右边部分,再按书写顺序取该汉字右边部分的第一个基本部件的代码编码,如果不能用一条竖线在不割断笔画的情况下将该汉字一分为二,就从左到右扫描该汉字的下半层或者说下半部分,顺势找到这个汉字的按书写顺序的最末一个基本部件的代码编码或者取该汉字右下角所在基本部件的相应代码进行编码。之所以规定扫描该汉字的下半层是因为这样容易发现该汉字的最末一个基本部件。之所以规定从左到右扫描该汉字的下半层(或者说下层)是因为这样就和左右结构的汉字的扫描方向相同,都是从左到右,并且于汉字的行文方向一致,要比以前像T形汉字码一样从上到下去汉字的右下角找,更便于思维,不会发生一会儿从左到右取码,一会儿从上到下取码的情况。两次从左到右扫描该汉字,或者说左右两次扫描该汉字的下半层或者说下半部分的方法在汉字各种输入法中闻所未闻,是个重大创新。

左右结构的汉字往往具有明显的间隙,很容易分清楚,所以不用竖线去分割也可以,第二码只要从该汉字的第一个基本部件的右侧开始,从左到右扫描,找到整个汉字的左右部分的间隙,间隙的右边的部分就是该汉字的右边部分,再按书写顺序取该汉字的右边部分的第一个基本部件的代码编码,如果该汉字左右没有间隙,就从左到右扫描或者说看一下该汉字的下半层(或者说下半部分或者说下层部分),顺势找到这个汉字的按书写顺序的最末一个基本部件的代码编码。

简单地说,形部编码的第一码是:按书写顺序取该汉字的第一个基本部件的代码编码,即取首。形部编码的第二码取码时先从左到右扫描一下该汉字,如果该汉字为左右结构的,能找得到汉字的右边部分的,按书写顺序取该汉字的右边部分的第一个基本部件的代码编码。如果找不到汉字的右边部分的,就从左边到右边扫描一下该汉字的下半层,顺势找到该汉字的按书写顺序的最末一个基本部件的代码编码。不必像以前那样直接去汉字的右下角查找,那样思维上容易混乱。简单地说,形部编码第二码的方法是:从左到右扫描一下,书写顺序取该汉字的右边部分的第一个基本部件的代码编码,简记为取右。如果找不到右边部分的,再从左边到右边扫描一下该汉字,顺势找到该汉字的按书写顺序的最末一个基本部件的代码编码,即简记为无右则取末。总的来说形部编码第二码可以简记为左右扫描,有右取右;左右扫描,无右取末;即无右才取末。整个形部编码的取码规则可以简记为首右、无右则取首末;或者简记为第一码取首、第二码无右才取末。

注意遇到某些汉字如部首为“门”或者汉字的下半部分为“心、灬”、“师”的前二笔、“顺”的前三笔等部件时可以视为整体部件,不必用竖线分割。汉字绝大部分的末笔在汉字的下层或者说下部,遇到有的汉字中按书写顺序最末一个汉字部件为“甫、犬、戈、弋”等汉字部件时,按笔顺,最末一个基本部件并不在该汉字的下半层,这时第二码可以按笔顺取最后一笔点的代码编码,也可以把最后一笔点去掉后编码,两者都可以,反正几乎不影响重码,这就是本发明的容错码的高明之处。

从形部编码的取码规则可以看出非左右结构的汉字相当于左右结构的汉字略显不便,因为左右结构的汉字只要从左到右扫描一次,而非左右结构的汉字要再次从汉字的下半部分从左到右扫描一次。所以本发明又作了创新。那就是非左右结构的汉字优先取简码,即便常用频率大大不如左右结构的汉字,也如此。即遇到非左右结构的汉字的形部编码第一码与左右结构的汉字的形部编码的第一个编码相同时,非左右结构的汉字优先取简码,只要输入该汉字的音码后,再输入形部编码第一码,敲击空格键,就可以输入该左右结构的汉字,当然遇到两个及以上个非左右结构的汉字的形部编码第一码相同时,就指定其中一个非左右结构的汉字有简码,一般取比较常见的非左右结构的汉字的做简码。这一规定有个好处,那就是非左右结构的汉字由于是简码,不必再次从汉字的下半层从左边到右边扫描一次了。

顺便指出按书写顺序取这个汉字的最末一个基本部件的相应代码编码或者取该汉字右下角所在基本部件的相应代码进行编码时,绝大部分汉字的编码相同,但少数汉字的最末一个基本部件并不是在右下角,而是在其他位置,从查找的角度看,还是取右下角所在的基本部件比较方便,但有些汉字的右下角不明显,这时还是按书写顺序取该汉字的最末一个基本部件的相应代码编码比较好,本人处理的办法是给出容错码,即无论是书写顺序取这个汉字的最末一个基本部件编码或者取该汉字右下角所在基本部件的相应代码都可以。

本人研究还发现,将合体字一分为二后,同音同偏旁部首的合体字除偏旁部首以外的部分的第一笔为同类基本笔画的情况出乎意外的少,只有一二百对,也就是说重码率将会很低,这一发现和创造性的取码规则是只选用5种基本笔画和21个左右的基本部件参与编码的原因所在。偏旁和部首严格说来有差异,但因为本发明采用的偏旁部首都很常见,所以就简称部首。

在本人最早发明的汉字码输入法,最早时称为正左上方输入法中选用了28个基本部件,为便于记忆很多基本部件都采用拼音首字母编码,但遇到拼音首字母相同的几个部首,哪一个按声母,哪一个不按声母也没有明确的标准,其中同音的部首主要集中在“s、h、r、y、z、c”上,拼音首字母同为s的部首有“氵、扌、山、石、纟”,拼音首字母同为h的部首有“火、禾”,拼音首字母同为r的部首有“亻、日”,拼音首字母同为y的有“月、讠、鱼”,拼音首字母同为z的部首有“竹、足、辶”,拼音首字母同为c的部首或者说多笔画部件有“艹、虫”。当时为便于记忆,原先汉字码输入法中排列多笔画部件时不按笔画数和横、竖、撇、点、折的次序排列,而按拼音或象形排列。对基本部件的拼音首字母排列时,为避免重码。对其余几个拼音首字母或声母相同的基本部件改按象形的方式排列。可汉字的方块笔画部件与西文字母毕竟有所区别,难以做到很相像,有点牵强误会。为了避免同音字,氵按点的读音编码,扌按形似F编码,其他同音的部首也有类似的牵强之处。本人在原先发明的汉字码中就意识到这个问题,但苦无良策,经过近十年的苦苦摸索和突发灵感,终于发明出全新的排列同音部首的方法,那就是键盘上同声近位法。即遇到几个声母或者拼音首字母读音相同的多笔画部件,选其中一个容易记忆的多笔画部件按声母或拼音首字母编码,不妨称这个多笔画部件为队长,其余的多笔画部件,就称为队员好了,根据键盘布局,队员排在队长所在的的键位上的旁边的位置,一般排在该键位的左边或右边的位置,通常是相邻的键位。即同声母或同拼音首字母的汉字基本部件一般并列排在键盘上的同一行,呈左右排列,当然遇到笔画或别的多笔画部件时,被笔画或别的多笔画部件所隔开也是应该的,但就在键位的左边或者右边处。这样就牢牢定位住了,显然十分容易查找和记忆,要比形似、笔画、口诀等排列方式更容易记忆,为全球重大首创。但何为队长,何为队员,在键盘上如何排列却没有定量化计算,当时的输入法也没有定量化计算的先例。所谓的同声是指拼音声母或者拼音首字母相同,所谓的近位是指在键盘上的位置比较接近,很多是键位直接相邻。

在原先的汉字码发明中因撇和折很常用,用拼音首字母编码却存在击键不便,因此用五种基本笔画即丿、丶、一、丨、乚分别来表示A、O、E、I、U,但在深入考虑后,横、竖、撇、点、折分别用拼音首字母编码确实更好,因为更简单,更符合思维习惯,更重要的是,原先的发明认为横、竖、撇、点(捺)、折分别用H、S、P、D、Z编码在输入形部编码第一码时的确不利于字词重码,但当输入形部编码第二码时,只要巧妙处理,字词重码率却要比横、竖、撇、点(捺)、折分别用元音字母E、I、A、O、U编码少的多。原因是,原先的汉字码,由于横、竖、撇、点(捺)、折分别用韵母E、I、A、O、U编码,结果由于横、竖、撇、点(捺)、折在形部编码第二码出现的频率很高,造成大量字词重码,而在新改进发明的汉字码里,在同音近位法排列的基础上,特意将惯常出现在汉字的形部编码第一码,而很少出现在形部编码第二码的部首如“亻、纟、氵、扌、月”分别用它们的韵母字母E、I、A、O、U编码,这样就有力地避免了字词重码,从而极大地改进完善了本发明。

定量化分析是新同声近位汉字码输入法相对于原音素同声近位汉字码输入法的显著进步之处,通过定量化计算,优选了21个汉字多笔画部件,并在键盘上精确定位。下面做具体解说:在GB6763个汉字中,氵、艹、口、木、扌、亻、土、钅在偏旁字首的组字频率非常高,能组成三百多个汉字,如果按笔画编码将会造成大量重码,所以应当选出来排在键上,分别用一个字母编码。多笔画部件或者说部首“虫、女、月”也能组成250个左右的汉字,“虫”的开头几笔是“口”,为了避免把“虫”和“足”当“口”编码,造成大量重码,“虫”和“足”应选出来,用某个字母编码。“女”、“月”如果按笔画编码,也会带来四五十对重码,也要选出,分别用别的一个字母编码。部首忄、火、讠、纟、石等组字能力还要略少些,约200来对,如果它们按笔画编码的话,其中多笔画部件忄能带来近40对重码;火能带来近40对重码;讠能带来约36对重码;纟能带来41对重码;“石”、“王”能带来35对重码;部首“日”、“足”分别能带来40对、36对重码;部首“辶”分别能带来近30对,重码疒能带来20多对重码。按避免重码能力大小,部首辶、忄、纟、日、火、讠、足、石、王、疒也分别用别的一个字母编码,其中宀和疒的避免重码能力接近,宀含穴部时,避免重码能力略高于疒,并且部首为宀的汉字的使用频率要高于部首为疒的汉字的使用频率,这时可将宀用一个字母编码,疒则按笔画编码。这样21个部首均已经选出来,分别用一个字母编码。部首“鱼”能带来24对重码,避免重码能力比“宀”、“疒”差不多,由于部首“鱼”组成的汉字往往以“某鱼”的词组方式出现,比如“鲤鱼”、“鲢鱼”等,所以单字的实际使用频率很低,所以只选21个部首的话,就略弃了。其它偏旁部首如、宀(穴)、山的重码数量也很多,当汉字的数量扩充到新华字典时,能产生30来对重码,宀连同“穴”能产生30来对重码,山能产生近30对重码。这时如果按重码数量,确定选取的部首的话,由于部首、宀(穴)、山的重码数量与足、石、疒比较接近,取舍就成了难题,而阝、禾、鸟等部首产生重码的数量要少些,阝能产生15对重码,“禾”能产生16对重码,“鸟”能产生24对重码,一般可以舍去。

为了解决重码数量在30来对的部首、宀(穴)、山、足、石、疒比较接近,难以取舍的难题,本人又花了一年时间潜心研究,最后决定以北大字频表和北京语言大学词频总汇和豆丁6763字频表(10亿基)为基础,统计、宀(穴)、山、足、石、辶、疒、纟、忄、女、王、日、人(亻)、土、讠、月、氵、扌、火、金、艹、虫、木等部首出现在汉字编码中,发生重码时,记录该汉字的频率频数,以及与该汉字重码的其它的一个或者多个汉字的频数频率,并按部首分类进行统计相加,得到频数和,频数和高的多笔画部件尽量入选,这样能减少同音字选择,提高速度,以字词分别统计的北京语言大学词频总汇为例,经测算发现,日、人(亻)、土、讠、月、氵、扌、火、金、艹、虫、木等多笔画部件参与编码的汉字,若按笔画编码,则发生重码的汉字的频数和,及与它发生重码的别的汉字的频数和都很高,所以要入选,而宀(穴部按宀编码)、辶、竹、火、石、山等部首,则发生重码的部首的宀(穴部按宀编码)、辶、竹、火、石、山为汉字的频数和分别是888、767、191、177、128、59,而与它发生重码的其它的汉字的频数和分别是1209、1916、523、563、363、229。这样宀(穴部按宀编码)、辶频数和较高,建议入选,竹、火次之,也建议入选,而部首山较低,不大建议入选,至于石,则要根据足的情况来判断,足按第一笔“竖”编码,本身的重码的频数约为236千,把与含“足”的汉字重码的汉字算进去的话,频数为316千,而足若按“口”编码,则“足”参与形部编码的汉字的统计进去的话,频数和为502千,总的来看还是部首足的频数和较高,建议选部件“足”,而石落选,当然考虑到足部的汉字重码时频数差距悬殊,比如“路”和“噜”和“卢”的频数频率就差得很大,因此也可以选部件石,而不选部件足。当然也可石和足同时选,只是这样一个键上就有两个部首了,不在一个字母对应一个部首了,不方便显示在手机屏上。

为便于记忆,五种基本笔画和王、土、钅、口、忄、疒、女、木等多笔画部件都按拼音首字母编码,其余的多笔画部件则按同声近位法排列编码,特别是为了便于记忆,在不对字词重码造成较大影响的的基础上,引入了韵母首字母的概念,即“人、月、纟、扌”按它们的韵母首字母E、U、I、O编码,而氵虽然音为“氵”,常读做三点水,就取“三”的拼音san的韵母首字母A。这样便于记忆,但这也是建立在定量化计算的基础上的。下面作具体解说:

按同声近位的方法排列声母相同或者说拼音首字母相同的部首时也同样进行了定量化分析计算排列映射。所选用的都是新华字典app里出现的汉字。有些部首组字能力很强,使用频率高,但在各个26个字母所在的声母或韵母的音节中分布并不均匀,在某些声母和韵母所在的拼音音节中,这些部首所在的汉字的数量却很少,如果将这些部首用某个特定的字母编码,则能有效地避免字词重码。这一原理是定量化计算的理论依据。

所说的近位是有次序的:即键盘上的Q到P,到A到L,到Z到M,再返回到Q。键盘上排从左到右,从Q到P,然后再到键盘中排,又是从左到右,从A到L。再到键盘下排,又是从左到右,从Z到M,再返到Q键。由于横、竖、撇、点、折和王、土、钅、口、忄、疒、女、木等拼音首字母唯一的多笔画部件都规定用拼音首字母编码,所以按同声近位法排列的只有剩下十三个笔画部首了。这些部件组字频率高,却拼音首字母相同,造成大量重码,这是某输入法等输入法的辅助码难以提高速度,造成失败的原因。其中亻和日、讠和月、横和火、虫和艹、折和辶和足、竖和氵和扌和石和纟的拼音首字母相同,分别为r、y、h、c、z、s。亻和日、讠和月,横和火、虫和艹均为两个部首的拼音首字母相同,为便于记忆,就按左右相邻位置一起排在键盘上,以便于记忆。下面对拼音首字母相同的多笔画部件按拼音首字母的音序c、h、r、s、y、z进行讲解。

艹和虫的拼音首字母都是c,按同声近位法,只能排在c、v两个相邻的键上,由于v是韵母,罕见,所以只要考虑它们在拼音首字母c中在汉字字首时出现的汉字的个数即可,虫出现了3个,频数和比较低,艹出现了11个,频数和高得多,由于v作为

笔画横和部首“火”的拼音首字母为H,由于J已经排列部首钅,因此“火”只能用H键左边相邻的G编码。

日和亻的拼音首字母的r,按同声近位方法排列只能排在e和r这两个左右相邻的键上。从避免字词重码的角度看,要统计韵母为ue、ie的汉字中,基本部件日和亻的个数和频数和,由于基本部件“日”出现的汉字个数和亻出现的汉字个数都只有较少,频数和也很低很接近,所以需要考虑基本部件亻和日在形部编码第二码中的组字频率,由于E是韵母,要求频率和或者说频数和较低。经统计,基本部件“日”出现的汉字个数是218个,频数和较高,而亻含人出现的汉字只有5个,频数和较低。从常用汉字中出现在形部编码第二码的汉字的个数、频数和考虑,也是多笔画部件“日”较高,而多笔画部件“亻含人”较低,当亻不含人时,出现在韵母第二码的频率更低。所以只能将形部编码第二码中频数和较低的基本部件亻用E编码,而形部编码第二码中频数和较高的基本部件“日”用拼音首字母r编码。而亻的拼音为REN,韵母首字母恰好是E,记忆方便。

竖、纟、扌、氵的拼音首字母都是s,很多输入法之类的输入法都用s编码,造成大量重码,因而编码失败。从键盘布局看,基本笔画竖非常常见,竖当然用s键编码,I键、O键、A键可以视为与S键相邻。纟、扌、氵可排列到I、O、A键上。为此本人用运筹学进行了定量计算。在拼音首字母为a的汉字中,含部件氵的汉字为1个,频数为5920个,含部件扌的汉字为2个,频数和为64779个,所以氵用a编码较好,而拼音首字母为o的汉字中,含氵的汉字为1个,含有扌的汉字则没有,所以扌用o编码比较合适。而拼音首字母i、o、a开头的汉字中,都没有纟,而o、a都已经分别用扌、氵编码,综合考虑,纟就用剩下的i编码。从韵母i、o、a的频率看,i最高,a次之,o最低,而从部首的使用频率看,纟最低,氵次之,扌最高,从编码字词重码的角度看,频率高的韵母适合搭配使用频率低的多笔画部件或者说部首,频率低的韵母适合搭配使用频率高的多笔画部件或者说部首,因此纟用i编码合适,扌用o编码合适,氵恰好用a编码合适。而纟、扌、氵恰好分别用韵母首字母i、o、a编码,容易记忆。

另外也可以记忆为:纟的拼音为si,为两个字母,扌的拼音为shou,为四个字母,氵的拼音为shui,所以可以从键盘的上排从左到右,再到键盘的中排,分别按拼音字母的个数,拼音字母个数相同的时候按音序排列。将纟、扌、氵分别排在i、o、a键上,分别用相应的字母编码。

月和讠的拼音首字母都是y,按同声近位方法排列只能排在y和u两个相邻的键上。从避免字词重码的角度看,需要考虑基本部件“月”和讠出现在韵母为iu或者ou的汉字的频率或者说频数和。基本部件“月”出现在字首的汉字的个数为2个,而讠出现在字首的汉字为8个。这些汉字的频数和(使用频率之和)也是月部的汉字比较低,所以基本部件月用u编码,讠用y编码比较合适。这时输入形部编码几乎不会发生重码。又比较声母为y的汉字中,字首为“月”和讠的汉字的个数,字首为“月”的汉字为10个,字首为讠的汉字个数为15个,频数和即使用频率之和也是讠部较高,所以基本部件讠用y编码,基本部件“月”用u编码,而u恰好是“月”的韵母首字母,非常容易记忆。另外从音序角度看,讠的拼音为yan,月的拼音为yue,按音序从左到右排列的话,也应该是基本部件讠用y编码,基本部件“月”用u编码。

折、辶和足和竹的拼音首字母都是z,笔画折很常见,当然用z表示。按同声近位法,辶和足和竹只能排在剩下的l、Q、F键上,其中l、z分别位于键盘第二排的最右边和第三排的最左边,可以认为是近位的,而键盘下排z之右边的字母都已经排列了部首,因此按同声近位规则,键盘上排的Q键和F键也勉强算近位的。由于汉语中声母L的频率要比声母F和Q常见得多,因此先排拼音首字母L。辶只能出现在汉字的字尾,频数和为0。拼音首字母为L时,足在字首的汉字有7个,频数和为109352个,竹在字首的汉字有12个,频数和达到16734个。可见足和竹都不大适合用L编码。从避免字词重码的角度,辶用L编码,就能使得字词重码为0。这是很巧妙的排列。字首为足、拼音首字母为F的汉字有3个,频数和为293;字首为竹、拼音首字母为F的汉字也有3个,频数和为16022个。字首为足,拼音首字母为Q的汉字有5个,频数和为7626个;字首为竹,拼音首字母为Q的汉字有5个,频数和为9664个。从个数看,足和竹都在拼音首字母为F和Q键上都较少且接近,从频数和看,在拼音首字母为Q和F的汉字中,都是竹部首较多,所以足和竹,可以在F和Q中各自任挑一个,从击键方便的角度看,竹用F编码,足用Q编码比较合适。当然,竹用Q编码,足用F编码也行。从记忆角度看,拼音首字母都是z,只能改按笔画排列,足的首笔是竖,竹的首笔是撇,辶的首笔是点,按次序排列是竖、撇、点,在键盘上从左到右的次序是Q、F、L,所以就将足、竹、辶分别按其首笔画竖、撇、点依次从左到右Q、F、L键上,分别用Q、F、L编码。从形似的角度看,足的首尾形似Q,足的开头部分也形似小写q,竹的左半部分或者右半部分形似F,辶也形似L,容易记忆。当然还可以从字母个数和音序的角度排序,足的拼音为zu,只有二个字母组成,所以排在键盘最左边的q上,而竹的拼音为zhu,辶的拼音为辶,都是三个字母,按音序将竹、辶分别从左到右排列在f、l键上,分别用相应的字母编码。

亻用E编码的话,由于亻几乎只出现在字首,很少出现在形部编码第二码,只有区区5个亻出现在形部编码第二码,能极大地避免字词重码,并且恰好亻的韵母是e,容易记忆。讠用y编码的话,由于讠几乎只出现在字首,很少出现在形部编码第二码,只有讠的繁体言有19个出现在形部编码第二码,数量也是不多,所以也能较好地避免字词重码。艹也几乎只出现在字首,很少出现在形部编码第二码,并且韵母v(ü)的汉字很少,低频率,所以能极大地避免字词重码。

当然如果改为亻用r编码,日用e编码也是符合同声近位排列的。如果改为讠用u编码,月用y编码,也是符合同声近位的。艹用v编码,虫用c编码也是符合同声近位的。同理纟、扌、氵也可以互换在i、o、a键位上的映射。但从编码字词重码的角度看,不大合适。

也可在同音近位的基础上,统一按部首的拼音的个数的多少从左到右排序,拼音个数相同时按音序排列,这样人含亻改用r编码,日改用E编码,其余不变,只是不利于降低字词重码,并且亻不用拼音韵母首字母编码了。

如果在同声近位的基础上,不考虑部首的个数,只按音序排列也行,这时,亻含亻用e编码,日用r编码,扌用i编码,氵用o编码,a用纟编码,火用g编码,艹用c编码,v用虫编码,竹用q编码,辶用f编码,足用l编码。

可以看出在本输入法中,5个笔画和王、土、钅、口、忄、疒、女、木这8个多笔画部件都按拼音首字母编码,日、讠、虫也是按拼音首字母编码,这样总共有16个笔画部首都按拼音首字母编码,实际需要记忆的仅为10个多笔画部首,又是按同声(拼音首字母)近位(键盘上的位置在邻近)的方法排列的,并且基本是按部首的拼音的字母个数,字母个数相同的,还按音序排列,有的还兼顾了笔画和形似,十分容易记忆。其中五个多笔画部件亻、月、纟、扌、氵又是按韵母首字母编码,又是按同声近位排列,实际按同音近位排列的只有5个,这5个也是在同声近位的基础上,按字母个数和英文音序排列的,非常容易记忆。为进一步缩短记忆时间,本人还编了口诀,即基本笔画是队长,优先用拼音首字母编码,在两个拼音首字母相同的音节中,日、讠、艹、横是队长,人、月、虫、火是队友,也排列在队长的左右相邻的键位上,艹虫谐音草虫,左右隔壁排列在c和v键上,更利于记忆。折、辶、足、竹成一个队,队长是折,辶、足、竹是队友。竖、纟、扌、氵成一个队,竖是队长,纟、扌、氵。形部编码的编码规则简记为“首、无右才末”,十分容易记忆。这样一般人三五分钟就可以记住。

通过优选21个左右的多笔画部件和五种基本笔画,创造性地规定形部编码的第二码的取码规则,创造性地采用同音近位法排列多笔画部件和基本笔画并创造性地进行定量计算,精确定位,就做到了形部编码既简单易记,又能有效地区分同音字,在3500个常用汉字和国标6763个常用的汉字中重码率很低,输入速度可以与五笔字型等输入法相比。这就解决了其他任何输入法都未能解决的难题,真正做到了简单直观、重码率很低、输入速度高,采用人工智能和搜索引擎等技术,几乎无重码,又能与最普及的拼音输入法或者注音输入法兼容,是一种唯一的理想的完善的能普及到中小学生的汉字输入法。

有的部首很常见常用,却因重码较低,只能降低10多对重码,以及只有26个键位,而没有选取。但如果选取这些部件的话,将有利于一些追求打字速度的人。在新的发明中对选取的几个部件进行双重编码,即既可以按笔画编码,也可以按部件部首编码,并且不便显示在手机等小屏幕键盘上。这几个部件称为双重部件或虚拟部件,也可称为双重部首或虚拟部首。之所以称虚拟部件是因为并不出现在手机等小屏幕的字母键上,却可以用标点符号键编码。即规定为双重部件既可以用笔画编码,也可以标点符号键编码。“鱼”的组字能力强,并且能避免24对重码,排在“;”键上,用“;”编码。再按偏旁部首的使用频率分,山、阝、禾分别排在“,”、“。”、“/”键上,分别用“,”、“。”、“/”编码,见附图2。“。”和“.”是同一个键、同一个编码,只不过为了清楚点,用“。”。

作为本发明的变形,也可以将足或者竹,用石代替,或者将部件石排在L键上,因为L键上的辶只出现在字尾。但这样L键就有两个不见了,有的部首很常见,却因重码较低,只能降低10多对重码,以及只有26个键位没有选取,但如果选取这些部件,将有利于追求打字速度的人,在新的发明者中,若干部件进行双重编码,即既可以按笔画编码,也可以按部件部首编码,并且不显示在手机等小屏幕键盘上,这几个部件成为双重部件或者虚拟部件,之所以成为虚拟部件,是因为不出现在手机等小屏幕的字母件上,却可以用标点符号键编码。比如可以在附图1上添加5个多笔画部件,这添加的多笔画部件不出现在手机屏幕上,高手记住即可。一种可行的排列方案是“石”用“l”编码,“鱼”用“;”编码,山、阝、禾分别用“,”、“。”、“/”编码。附图5、附图6、附图7、附图8列出了其它一些部件笔画在键盘上的排列映射方式。这些附图的特点是个别相对不很常用,频率接近的多笔画部件可以替换。需要指出的是,附图3、附图4、附图5、附图6、附图7、附图8仅是枚举,是本发明的变形。

形部编码作为一种辅助码,在发明之处就充分考虑了字词兼容问题,并且采用了人工智能和搜索引擎技术,用作直接辅助码,可以不需要按tab等键,这样就能减少击键次数,当然作为间接辅助码也可以。间接辅助码建议按tab键,因为字词重码多,单字重码率也搞。

某输入法经理认为一分钟也不愿学,其实拼音也是要学习的,

音码部分采用拼音输入时,会遇到不认识的汉字,为此本发明提供了基于形部编码键盘排列图的快速的输入方法,即形部编码键盘排列图可以在附图1、附图2、附图3、附图4、附图5、附图6、附图7、附图8中任选一个,一经选定就不得改变。一般选附图1。以选附图1为例,在输入时,对该汉字按笔顺,结合附图1中的基本笔画和多笔画部件,按取大优先的原则,依次输入该汉字的基本笔画和多笔画部件分别对应的代码,并根据提示行选择所需的汉字。当然也可以前头加个u,再该汉字按笔顺,结合附图1中的基本笔画和多笔画部件,依次输入,并根据提示行选择所需的汉字。

由于音码部分采用全拼的话,码长较长,而韵母韵尾ng存在改进的余地,因此本发明创造性地将ng用v表示,因为不会影响韵母

由于词组输入时,基本按音码输入,为了解决音码输入时,同音词严重的问题,本发明在新同声近位汉字码输入法的基础上,借鉴辅助码,只要在某个同音词的编码后,输入该同音词的第一个字及第二个字的辅助码或者说形部编码的第一码,就能基本免去同音字选择麻烦问题,一般只要输入该同音字的第一个字的辅助码的第一码就能大致免去同音字选择麻烦,几个同音词中,最常用的一个同音词可以只按拼音编码,其余几个同音词取第一个字的辅助码的第一码,这样更能有效区分同音词,如果仍有重码的话,可以取同音词的第二个字的辅助码的第一码。当然有时,几个同音词中,有时加了辅助码,会变成不同的拼音,比如某几个同音词的拼音为zhidu,如果某个同音词的辅助码的第一码为i或者o,再输入i或者o的话,就会变成zhiduo或者zhidui。为了避免音节冲突,也可以选某个不大常用的同音词,该被选的同音词可以不加它的第一个字的辅助码的第一码。所说的同音词,一般为全拼,全拼后输入该同音词的第一个字及第二个字的辅助码的第一码,能较好地免去同音词选择,当然在简拼的条件下,也可以再输入该同音词的第一个字及第二个字甚至第三个的辅助码的第一码,也能有效地免去同音词的选择麻烦问题,但效果相对弱点。

附图说明

附图1为形部编码键盘排列图之一

附图2为形部编码键盘排列图之二

附图3为形部编码键盘排列图之三

附图4为形部编码键盘排列图之四

附图5为形部编码键盘排列图之五

附图6为形部编码键盘排列图之六

附图7为形部编码键盘排列图之七

附图8为形部编码键盘排列图之八

附图9为音素字母韵母在键盘上的映射关系图之一

附图10为音素字母韵母在键盘上的映射关系图之二

具体实施方式

新同声近位汉字码输入法由两部分组成,一部分是音码,即读音,或称拼音码,另一部分是形部编码,所说的形部编码就是一般输入法中所说的辅助码。这两部分组成编码时可以是音码在先,形部编码在后;也可以是形部编码在先,音码在后。但一经选定,就不能改变。为便于想打,与思维一致,为了与拼音输入法完全兼容、建议拼音在先,形部编码在后,在编码实例中就采用这种方法。拼音可采用全拼或双拼或简拼或不完整拼音,全拼即采用一个汉字的标准拼音,还可采用注音输入法,注意要把注音输入法中的表示声调的部分去掉,因为本发明的形部编码比声调区别重码能力高得多。双拼由于韵母多达35个,排列和记忆不便,始终无法普及。因此在新的发明,非专业打字员的话,不赞成用双拼。要么采用大陆拼音,要么采用注音,注音的码长较短,不算声调的话,一般只有二、三码,而大陆拼音码长最多的达6码,因此输入速度理论上讲比大陆拼音要快一点,可注音声母没有拉丁化表示,韵母没有音素化表示。而本人发明的音素字母则做到了编码长度和表达音节的方式与注音相同,但又将声母拉丁化表示,韵母音素化表示,并且书写简单,便于显示在手机等小屏幕上,码长又比拼音短,输入速度比拼音快,音素字母和注音字母的缺点是如果一键一个音素字母的话,要用到标点符号键或数字键,有几个标点符号键或数字键的击键略微不便。音素字母单个字母的声母和拼音相同,拼音里面的翘舌音,可排在v、u、i键上,由于本发明能有效避免重码,不分翘舌音的话,照样重码很低,在本发明中可以按不做翘舌音看待,即不分翘舌音,即zh用z编码,ch用c编码,sh用s编码。音素字母的韵母也很简单,本音素化韵母可以与汉语拼音方案中的韵母方便地相互转换,只要记住一、丨、丿、丶、

英文键盘上各字母标点符号数字键与拼音韵母和音素字母韵母的一种映射关系图,见附图9所示:

附图中的“。”就是“.”所在的键,即“>”所在的键。

下面再对形部编码作详细说明。

将汉字的各种笔画按国家语委的规定归类为横、竖、撇、点、折五种基本笔画。笔画是书写汉字时不间断地一次写成的一个线条,可将笔画归类为横、竖、撇、点、折五种基本笔画,其中提并入横,竖钩并入竖,捺并入点,其余各种带转折的笔画并入折,在本发明中将横、竖、撇、点、折五种基本笔画称为单笔画部件。为降低重码,还优选21个左右的组字频率或实用频率高的由二个或二个以上的笔画组成的汉字部件排到字母键上,参与编码,因为笔画数在二个及以上,在本发明中称为多笔画部件,或称字根,或称部首,以区别于单笔画部件,或称基本笔画。多笔画部件和单笔画部件统称基本部件,有时也简称部件。

第一种形部编码的取码规则是:独体字,按书写顺序取前二个基本部件的相应代码编码:或者规定按书写顺序取第一个或者最末一个基本部件的相应代码编码,当只有一个基本部件时,就只取这个基本部件的相应代码编码;合体字,按整体结构将合体字一分为二,先写部分为首部,后写部分为剩部,按书写顺序分别取首部的第一个基本部件和剩部的第一个基本部件的相应代码编码。

本人在长期的编码研究中早就认识到一个汉字是否为左右结构是一目了然的,左右结构的汉字很容易在空隙处将它一分为二,而上下、包围结构的汉字有时不易一分为二,甚至有时难以分清一个字是独体字还是上下结构或包围结构。根据一个汉字是否为左右结构划分是最简单易学。遇到左中右结构的汉字,中间和右边部分算为右边部分或者说右部。当然严格说来,还是按划分后,右边是否成字来划分比较好。

若将所有的汉字分为左右结构和非左右结构的话也可编码,仍可用附图1、附图9编码,也就是说所选用的拼音、基本部件以及代码仍不变。编码也由拼音和形部编码组成。第二种形部编码的取码规则是:左右结构的汉字,分别取左边部分、右边部分的书写顺序的第一个基本部件的相应代码编码;非左右结构的汉字,按书写顺序取取该汉字的第一个和最末一个基本部件的相应代码编码,只有一个基本部件就只取这个基本部件的相应代码编码或者连取二次这个基本部件的编码。这时非左右结构的汉字,不能按书写顺序取前二个基本部件的相应代码编码,因为会造成重码,而应按书写顺序取该汉字的第一个和最末一个基本部件的相应代码编码。由于一个汉字是否为左右结构是很清楚的,不会产生歧义,除了“顺、川、州、儿”等少数汉字外,左右结构的汉字很容易左右部分产生间隙,只要根据间隙用一条竖线将该汉字一分为二就可。左右结构的汉字有时会遇到个别“川”“顺”“州”之类的汉字,“川”是由离散笔画组成的,作为独体字看待,“顺”的特点是由离散笔画再加一个汉字部件,组成一个汉字,一般建议整个离散笔画算左部,另一个汉字部件算右边部分,比如“顺”字,“川”为左边部分,“页”为右边部分。当然本输入法具有很大的容错性,“顺”字丿作为左边部分,其余部分作为右边部分也行。另外“灬”也不能用竖线去一分为二。

为减少不必要的重码,对于少数重心字,还可规定形部编码的第二码可按重心所在的第一个或最末一个基本部件的代码编码,建议按重心所在的按笔顺的第一个基本部件的代码编码。所谓的重心字是指表示字义的部首在汉字的中间或尾部的特定形体汉字,如“嬴”“载”“颖”“竟”等字,形部编码的第二码可按重心所在的基本部件“女”的相应代码编码。又如“荧”等字,形部编码的第二码可按重心所在的基本部件“火”的相应代码编码,因为“荧”字中不包括“火”的部分实际上是表音的。左中右结构并且左边部分与右边部分相同的汉字的重心在中间部分,于是形部编码第二码可取中间部分的最末一个基本部件的代码编码。如“辨”字,形部编码二码可取中间部分的最末一个基本部件“撇”编码。左中右结构的“鸟”部的汉字,形部编码或者说辅助码的重心往往在“鸟”部,第二码按重心所在编码。.

由于汉字的最末一个基本部件基本上都在汉字的下层,一般在右下角,除了“甫、戈”等汉字部件按书写顺序规定右上角的点是最末一个部件。所以遇到含有甫、戈等汉字部件的汉字时,作为容错码,右上角的点可以忽略,即“甫、戈”分别以竖、撇做最末笔。

21个多笔画部件和五种基本笔画在键盘上的优选排列见附图1所示。21个多笔画部件、五种基本笔画与字母、标点符号的一种影射关系设定为:

根据设定关系将多笔画部件和基本笔画分别用相应的字母编码。

25个多笔画部件和五种基本笔画在键盘上的优选排列见附图2所示。25个多笔画部件、五种基本笔画与字母、标点符号的一种影射关系设定为:

21个多笔画部件和五种基本笔画在键盘上的优选排列见附图3所示。21个多笔画部件、五种基本笔画与字母、标点符号的一种影射关系设定为:

/>

21个多笔画部件和五种基本笔画在键盘上的优选排列见附图4所示。21个多笔画部件、五种基本笔画与字母、标点符号的一种影射关系设定为:

21个多笔画部件和五种基本笔画在键盘上的优选排列见附图5所示。21个多笔画部件、五种基本笔画与字母、标点符号的一种影射关系设定为:

21个多笔画部件和五种基本笔画在键盘上的优选排列见附图6所示。21个多笔画部件、五种基本笔画与字母、标点符号的一种影射关系设定为:

21个多笔画部件和五种基本笔画在键盘上的优选排列见附图7所示。21个多笔画部件、五种基本笔画与字母、标点符号的一种影射关系设定为:

个人认为附图7也是可行的,原因是多笔画部件山和火的重码率都比较高,有35对左右,而多笔画竹和宀的重码率为25对左右,而多笔画部件禾与阝的重码率只有15对左右,因此舍弃了多笔画禾与阝,疒也有25对,所以选了多笔画部件“山”和“火”,但疒部和竹部的汉字的使用频率远不如宀部的汉字,因此选了“宀”。这时按同声(同拼音首字母)近位法,多笔画部件山排在G键上,用G编码,而多笔画部件火排在L键山,用L编码,宀用B编码。

25个多笔画部件和五种基本笔画在键盘上的优选排列见附图8所示。25个多笔画部件、五种基本笔画与字母、标点符号的一种影射关系设定为:

有些偏旁会在组词后,形体会略有所变,繁简体的形体也会有所改变,必须视为同类基本部件,用同一字母编码,这类基本部件如亻和人,讠和言,钅和金,氵和水、氺,扌和手,忄和心,纟和糹,火和灬等,特点是同源。艹和升则近似。原来的输入法有些部件如亻含人,忄含心、氵含水,扌含手,虽然同源易记,但因为形体不同,有些人表示记忆不便,相反对于仅仅有繁简体区别的如讠和言,钅和金等,在汉字中位置不变的,表示容易记忆。所以推出了二种容错码,一种容错码是:易记是第一位的,在新的发明中,采用只有繁简体区别的基本部件,如“亻”和“人”优先采用“亻”,氵和水、氺优先采用氵,扌和手优先采用扌;忄和心优先采用忄,火和灬优先采用火,而与亻同源的“人”,与氵同源的水、氺,与扌同源的手、与火同源的灬等将以容错码的形式兼容,即“人”可以用“亻”的代码编码,但算属于容错码。类似的其他所谓的同源的多笔画部件都将以容错码的形式出现。另一种方法是把同源的作为对的码,把“人”的笔画作为“亻”的容错码,依次类推。基本部件也可包含个别与它形似的部件,用同一字母编码。如部件“土”可包含“士”,由于这两个部件仅有笔画长短之分,作为同一个部件编码可能更符合头脑反应习惯。纟与幺也十分形似,也可规定纟包含幺,当然也可不这么排列。

由于按第二种形部编码取码时也存在着要不停区分是否为左右结构的汉字的问题。因此按第三种形部编码的取码规则编码较为简单易记,在编码实例中就采用这种取码规则,并采用附图1编码。音码则列出了拼音和音素字母,供选择。

编码实例:如“汉”的编码,声母是h,韵母为an,音码部分就为han,形部编码第一码按书写顺序第一个基本部件为多笔画部件氵的a,第二码按书写顺序取该汉字右边部分第一个笔画“折”,“折”的编码为z,于是“汉”的编码为“hanaz”。采用音素字母的话,为“h勹”,对应键盘上的位置为“h,”。于是“汉”的编码就为“h,az”。又如“字”的编码,音码部分为zi,形部编码时,按笔顺“字”的第一个基本部件为宀,编码为b,该汉字为非左右结构汉字,就再按书写顺序取“字”的最末一个基本部件“横”的代码h,于是“字”的编码为“zibh”,采用的音素字母的话,音码部分仍为“zi”,这样“字”的编码为“zibh”。如“这”字,全拼为zhe,形部编码时,按书写顺序取该汉字的第一个基本部件为“点”,代码为“d”,非左右结构汉字按书写顺序取最末一个基本部件辶的代码“l”,“这”的形部编码就为“dl”,编码就为“zhedl”,由于本发明是否为翘舌音,意义不大,翘舌音南方人也不大读得准,所以翘舌音可以去掉,编码为“zedl”也可以。又如“木”的编码,双拼为mu,该汉字只有一个基本部件“木”,代码为m,“木”的形部编码就为“m”,于是木的编码就为mum。为了追求码长整齐划一,也可规定只有一个基本部件的汉字也可取第一笔或者最末笔的代码或者重复该基本部件的代码作为形部编码的第二码。本编码实例不作这样的规定。

附图9中用到了数字键,要跨排击键,有点不便,因此,由于w键和y键空置着,p在汉语中的频率非常低,韵母排在p键上几乎不会发生编码时字词重码,n键和r键也如此,因此将ei、en、eng、ou、ong排在w、r、y、n、p键上,这时英文键盘上各字母标点符号数字键与拼音韵母和音素字母韵母的一种映射关系图,见附图10所示:

附图10中声母k和r的频率差不多,可将图中的r键替换为k键。

附图10的排列比较有规律性,即按拼音首字母分为a区、o区、e区,每区又按a、o、e、i、u、n、ng的次序排列。a区有ao、ai、an、ang,分别排在四个标点符号键上,O区有ou、ong、排在n或p键上,或者排在k、p键上。e区有ei、en、eng,分别排在w、r、y键上。符合击键规律,击键比较方便。频率比较高的韵母排在方便击键的键上,例如汉语中频率较高的en、ou排在击键比较方便食指所在的r、n键上,其他频率低点的e开头的和o开头的韵母排在其它键上。

对于少数懒得发抖的人,形部编码也可采用纯笔画,输入一个汉字的拼音后,再按书写顺序输入该汉字的前二个基本笔画的代码。这时形部编码的码长可以为2码,也可以为不定码长,即取该汉字的所有笔画编码。

为提高输入速度,对于使用频繁的字,设计了简码。简码就是对常用的汉字只是取其完整编码的前编1个、2个或3个编码,再按1个空格键就能输入该汉字。由于规定音码在先,形部编码在后,许多汉要输入该汉字的简码,所以单字的编码实际上是音码为主,辅以形部编码,形部编码起到了辅助码的作用,一般的常用字只要输入形部编码第一码就够了。

由于汉字的拼音只有四百来个,汉字的二级简码也就只有四百来个,而本发明的编码空间有729个,因此,对于其余三百来个编码空间,还可设立简码词,以进一步提高打字速度。如汉字的拼音无kian的形式,双拼编码也就无ky的形式,而“k”、“y”却分别为“可”、“以”的声母,因此ky可以作为“可以”的编码。由于本输入法设有三百多个简码词,从理论上说词组输入速度要比单字更快,因此这会明显提高汉字的输入速度。在计算机上敲击完某个汉字或词组的简码所在的键后,再敲击空格键,就可输入相应的汉字或词组。

词语输入是提高汉字输入速度的最常用方法,由于规定音码在先,形部编码在后,词语输入就全部利用音码输入,音码在词语输入时,可采用全拼或双拼,以采用汉语拼音为例子,采用全拼的话,只要输入每个字的汉语拼音即可,还可以采用简拼,方法是:

a、二字词语,取第一个字的声母和第二个字的声母韵母的拼音代码依次输入;如“编码”简拼为bma。

b、三字词语,取每个字的声母或者拼音首字母的代码依次输入,再补空格输入;如“计算机”的代简拼码为“jsj”。当然也可规定取第一字、第二字的前一码即声母的代码,再取第三字的前二码。还可规定再第一字的前二码,再取第二字、第三字的前一码即声母的代码。

c、四字及以上词语,取前三个字及最后一个字的声母的代码依次输入;如“科学技术”为四字词,取每个字的声母的简拼代码为“kxjs”。当然也可以规定四字及以上词语,取词组中每个字的拼音首字母或者说声母进行编码。

利用新同声近位汉字码输入法软件,在计算机键盘上敲击某个汉字或词组的相应的编码所在的键,就可完成输入。一般规定无重码且达到规定码长的汉字或词组自动上屏,不足规定码长的要按空格键,有重码的单字或词组根据提示行选择。音码采用双拼的话,码长最多四键,音码采用全拼的话,码长不定,本发明字词兼容。

拼音只适合常用字,对于文化程度较低的人或者不认识的汉字本发明规定,在附图中形部编码键盘排列图的基础上,规定只要按书写顺序输入该汉字的基本笔画和多笔画部件即可。比如“蒿”,只要输入艹、点、横、口、竖、折、口的编码c、d、h、k、s、z、k即可。即“蒿”的全码是cdhkszk,注意要多笔画部件优先于基本笔画编码。实际上只要输入前几码,就可根据提示行选择了。不独立作为一种输入法时还可以前头加个引导符号比如u等再输入形部编码,比如输入ucdhkszk就是“蒿”的全码。再提示行选择汉字。

现在很多人用语音输入或者用拼音输入汉字,由于汉字同音字多,容易发生同音字错误,本输入法软件提供了强大的同音字修改功能,即进入同音修改功能,将光标移动到该错误的同音字前面或者后面,注意要么统一规定将光标移到该汉字的前面,要么统一规定将光标移到该汉字的后面。这时软件自动识别该汉字的读音,不需要再输入本发明的音码部分,只要输入形部编码,就相当于输入了该汉字的完整编码,没有重码的自动顶替原来的汉字,有个别重码的,根据提示行选择一下,所选择的汉字就会自动顶替原来输入错误的汉字。

能基本免去同音词选择麻烦的编码实例:当出现词组拼音相同时,只要在拼音后面输入词组中的第一个字及第二个字的形部编码的第一码。比如拼音dili有五个同音词,地理是最常用的,可以不加第一个汉字的辅助码的第一码,这样地理的编码仍为dili,而地利就要在拼音后加第一个汉字“地”的辅助码的第一码,为t,这样编码就为dilit。而地力,则在拼音后加第一个汉字“地”的辅助码的第一码t后还要与“地利”发生重码,则要加上第二个汉字“力”的辅助码的第一码z,编码为dilitz。砥砺,只要在拼音dili后加上第一个汉字的辅助码的第一码h,就可以了,编码为dilih。dilia滴沥,只要在拼音dili后加上第一个汉字的辅助码的第一码a,就可以了,编码为dilia。

为缩短编码长度,提高输入速度,将拼音部分的ng或者用v表示,比如幢的音码为zhuang,可以表示为zhuav。

本发明由于音码在先,与拼音输入法和注音输入法完全兼容,为更普及兼容,本发明还创造性地采用了双色候选字技术,即在候选窗中,输入字母后,会出现字词供选择,没采用形部编码的字词为某种颜色,比如绿色,采用形部编码的汉字即采用汉字码的汉字为另一种颜色,比如黑色,当几次输入黑色后,系统就认为懂汉字码技术,优先按汉字码输入汉字,以提高速度。

还设置了容错码,对一些编码容易出错的汉字,在错误输入时也能出现所要输入的汉字。需要指出的是在本说明书、权利要求书和说明书附图中的字母均不分大小写,字母的大小写是等效的。

相关技术
  • 新音素同声近位汉字码输入法
  • 音素同声近位常用汉字码输入法
技术分类

06120116482617