掌桥专利:专业的专利平台
掌桥专利
首页

一种一体化文本管理维护方法及系统

文献发布时间:2024-04-18 20:01:23


一种一体化文本管理维护方法及系统

技术领域

本发明属于信息处理技术领域,特别是涉及一种一体化文本管理维护方法。

背景技术

现有的信息管理系统主要集中在数据的录入、存储和查询,但并未提供对文本中的缩略语进行提取和导出的功能。这就意味着,用户在处理大量的文献资料时,往往需要手动查找并记录下这些缩略语的含义,大大降低了工作效率。

为了解决这个问题,需要开发一种专门的文本管理方法和系统。这种系统和当前的信息管理系统不同,它不仅具备基本的文本存储和查询功能,还能自动识别和提取文本中的缩略语,并且可以生成相应的解释或导出列表。这样的系统将极大地提高技术人员在处理文献资料时的效率,节省时间和精力。

现有的部分文本管理系统中可以实现缩略语的自动导出,其具体工作流程为:用户上传文献资料到系统中。系统自动扫描并分析这些文献资料,识别出其中的缩略语。对于每个识别出的缩略语,系统会进行相应的处理,如搜索其含义,并将其导出到独立的列表中。用户可以随时查看或编辑这些导出的列表,也可以将其导出到其他应用中。

上述系统的实现将推动信息管理系统的进步,使其更符合实际使用需求,提高工作效率。但是上述文本管理系统识别和导出的效率较低,同时在用户使用过程中无法进行实时优化和更新,自动化程度和准确性不高。

发明内容

基于以上问题,本发明公开了一种一体化文本管理维护方法及系统。

为实现上述目的,本发明提供如下技术方案:

本发明提供了一种一体化文本管理维护方法,包括以下步骤:

用户登录,验证所述用户身份;基于用户信息确定所述用户的第一领域属性,并匹配对应的第一缩略语子库;

所述用户上传文本,并标记所述文本的第二领域属性,匹配对应的第二缩略语子库;其中所述第一缩略语子库与所述第二缩略语子库均术语缩略语库按照研究领域分类得到的缩略语子库;

识别所述文本中的技术术语,将所述技术术语与所述第一缩略语子库和所述第二缩略语子库进行匹配,获取所述技术术语的缩略语对照信息,并导出所述文本的缩略语文档;

总览所述缩略语文档及所述文本,获取所述缩略语文档中每一条所述缩略语对照信息所对应的所述技术术语在文本中第一次出现的位置处,若为中文文本,将其替换为“中文释义(英文释义、英文缩略语)”的撰写方式,若为英文文本,将其替换为“英文释义(英文缩略语)”的撰写方式;

统计所述缩略语库中的每一项缩略语词条在所有文本中的在不同研究领域内出现频次,并定期进行一致性检查。

优选地,所述缩略语库中收录了若干条缩略语词条,所述缩略语词条由中文释义、英文释义和英文缩略语组成;所述技术术语与所述第一缩略语子库和所述第二缩略语子库中收录的所述缩略语词条进行匹配。

优选地,若所述技术术语在所述第一缩略语子库和所述第二缩略语子库中匹配到唯一对应的缩略语词条,则将该缩略语词条作为该技术术语的缩略语对照信息,并导出至缩略语文档中;若所述技术术语在所述第一缩略语子库和所述第二缩略语子库中无法匹配到对应的缩略语词条,则将匹配范围扩大至所述缩略语库,进一步进行匹配并导出;若所述技术术语在所述第一缩略语子库和所述第二缩略语子库中匹配到对应的缩略语词条但不唯一,则在所述缩略语文档中,该技术术语的缩略语对照信息以下拉栏的方式呈现,所述用户从下拉栏中选择准确的缩略语词条,选定该技术术语的缩略语对照信息。

优选地,若匹配范围扩大至所述缩略语库后,仍未匹配到对应的缩略语词条,则进行联机查询,对查询结果进行解析和抽取,获取该技术术语对应的缩略语对照信息,导出至所述缩略语文档中,同时将该缩略语对照信息转化为缩略语词条,并补充至所述缩略语库中。

优选地,所述一致性检查的具体方法为:基于所述缩略语词条在研究领域内的出现频次,进行排序,将排序第一的研究领域认定为该缩略语词条的优先领域,并判断该缩略语词条所在的缩略语子库与所述优先领域是否一致,若一致,则继续维持,若不一致,则进行标注,并提醒是否进行更换。

优选地,在统计出现频次时,若存在至少两个所述技术术语对应同一条所述缩略语词条,则将其认定为同一技术术语,且出现频次叠加计算。

优选地,验证所述用户身份,所述用户为使用者和管理者中的一种。

优选地,所述管理者有权限监控所述使用者的访问信息,且可以调节所述使用者的使用权限。

优选地,所述访问信息至少包括使用者的身份信息、访问时间、退出时间及访问动作。

优选地,所述管理者有权限修改所述缩略语库中的信息,其中包括但不限于:增加、删除或修改所述缩略语库中的缩略语词条,设置或更改所述缩略语词条所在的缩略语子库。

本发明还提供一种一体化文本管理维护系统,所述系统包括:

登录模块,被用于用户的登录和验证;

工作模块,被用于用户上传文本,并至少提供缩略语导出功能、自动修订功能、手动修订功能和工作量统计功能;

缩略语库模块,设有缩略语库,所述缩略语库中收录了若干条缩略语词条,所述缩略语库划分为若干个缩略语子库;

数据库模块,被用于存储所述用户上传的所有文本及导出的缩略语文档;

后台模块,被用于管理者进行管理权限操作。

优选地,所述缩略语导出功能用于识别所述文本中的技术术语并导出缩略语文档;所述自动修订功能用于获取所述缩略语文档中每一条缩略语对照信息所对应的技术术语第一次出现在文本中的位置处,并进行替换;所述手动修订功能用于用户对文本进行修改;所述工作量统计功能用于统计所述用户上传的文本的数量、每一文本的当前处理字符数及所有文本的总处理字符数,并统计缩略语词条的出现频次,更新至所述缩略语库中。

与现有技术相比,本发明有以下优势:

本发明提出了一种一体化文本管理维护方法及系统,其中将缩略语库根据研究领域划分为缩略语子库,并在用户上传文本时,获取用户的第一领域属性和文本的第二领域属性,基于上述两种领域属性获取对应的缩略语子库,在文本识别匹配的过程中,有针对的结合用户所属的研究领域和文本自身所在的研究领域有针对的选择合适的缩略语子库进行识别匹配,减少了匹配量,提高了匹配效率。

本发明中统计所述缩略语库中的每一项缩略语词条在所有文本中的在不同研究领域内出现频次,并定期进行一致性检查,根据多用户多次上传识别匹配的结果,确定缩略语词条实际应用范围最广的技术领域,并调整至合适的缩略语子库中,同时,在匹配过程中增加查询机制,并不断补充新的缩略语词条至缩略语库中,在用户使用过程中实时更新缩略语库,和调整缩略语子库的范围,匹配结果更加精准,自动化程度高。

附图说明

附图1是本发明一种一体化文本管理维护方法的流程示意图;

附图2是本发明一种一体化文本管理维护系统的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。

如图1和图2所示,本发明提供了一种一体化文本管理维护方法及系统。

其中该系统包括登录模块、工作模块、缩略语库模块、数据库模块及后台模块。

其中登录模块用于用户的登录和验证,在用户登入文本管理维护系统时,登录模块验证登录用户身份;确定所述用户所属权限身份,所述用户权限身份为管理者及使用者中的一种;其中管理者的权限高于使用者,使用者至少可以使用文本管理维护系统中的缩略语库模块和工作模块中的部分功能,但是管理者可以使用文本管理维护系统中的所用功能,其中包括后台模块,所述后台模块可以修改所述缩略语库模块和工作模块中的信息,可以监控所述使用者的访问信息且可以调节所述使用者的使用权限,其中访问信息至少包括使用者的身份信息、访问时间、退出时间及访问动作。

缩略语库模块中存在缩略语库,其中缩略语库中收录了大量缩略语词条,其中缩略语词条由中文释义、英文释义和英文缩略语组成,在本实施例中,缩略语词条为临床医学领域内的缩略语词条,其中缩略语词条中的中文释义、英文释义和英文缩略语均为领域内的专业术语。缩略语库中所收录的专业术语优选为名词,其中针对具体的一个专业术语,其所对应的“缩略语-英文释义-中文释义”为该专业术语所对应的一个缩略语词条。

该缩略语库为云端数据库,并实时进行更新,在初始状态下,该缩略语库为提前预设的数据库,其中包含了大量专业术语的中文官方释义、英文官方释义和英文官方缩略语,但是在后续使用过程中,会出现缩略语库中未收录的专业术语,此时将进行联网匹配及补充,同时管理者也可以进入缩略语库中,手动进行缩略语词条的补充。

同时在缩略语库中基于研究领域进行了缩略语词条的分类,例如,缩略语库整体收录了临床医药学领域内的缩略语词条,其中又针对研究领域,具体细分为,如实验室常规检查缩率语子库、药代动力学参数缩略语子库、群体建模模拟协变量缩略语子库等。在不同的缩略语子库中收录了该研究领域内常用的专业术语的缩略语词条,其中在初始状态下,缩略语子库的划分标准为管理者人工手动划分,后续将根据用户的第一领域属性、上传文本的第二领域属性及和缩略语词条的导出频次进行自动调整。

在用户登录的同时,将根据系统中预存的用户信息确定所述使用者的第一领域属性,并匹配对应研究领域的第一缩略语子库,其中第一缩略语子库为缩略语库中的其中一个缩略语子库。

缩略语库中提供缩略语查询功能,用户进入缩略语库后,可查询某个专业术语的缩略语词条。

用户进入工作模块后,在工作模块中上传文本,所述文本为可编辑的文本,该文本可以是已经公开的技术文献、技术资料,或者用户自行编撰的技术文本,所述文本可以是中文文本或者是纯英文文本。

用户在上传文本的同时,标记文本的第二领域属性,系统将自动匹配对应研究领域的第二缩略语子库。其中如果第二领域属性与第一领域属性相同,则第一缩略语子库和第二缩略语子库是同一个缩略语子库,若第二领域属性与第一领域属性不同,即用户上传了不同于自己研究领域的文本,则第一缩略语子库和第二缩略语子库是不同的缩略语子库。其中第一领域属性和第二领域属性均为研究领域中的一种。

工作模块中至少提供缩略语导出功能、自动修订功能、手动修订功能和工作量统计功能。

在缩略语导出功能中,系统自动识别所述文本中的技术术语,并基于所述第一缩略语子库和所述第二缩略语子库,进行技术术语的缩略语词条的匹配,其中技术术语的出现形式可以为中文、英文或者缩略语的形式,将技术术语与第一缩略语子库和第二缩略语子库中的缩略语词条进行匹配,并导出该文本的缩略语文档,其中缩略语文档包括文本中所识别的所有技术术语,及该技术术语的缩略语对照信息,所述缩略语对照信息实际为该技术术语在第一缩略语子库和第二缩略语子库中匹配得到的的缩略语词条,由中文释义、英文释义及英文缩略语组成。此处提前选择第一缩略语子库和所述第二缩略语子库,可以有针对性的进行缩略语的匹配,提高识别匹配的效率。

根据识别结果,若所识别的技术术语在第一缩略语子库和第二缩略语子库中可匹配到对应的缩略语词条,且该技术术语有且仅有一条对应的缩略语词条,则可直接将其作为技术术语的缩略语对照信息,导出至缩略语文档中;若所识别的技术术语在第一缩略语子库和第二缩略语子库中无法匹配到对应的缩略语词条,则将匹配范围扩大至缩略语库进一步进行匹配和导出,若仍然未匹配到,则将进行查询,查询的来源至少包括互联网百科信息和行业网站、相关领域学术书籍、论文、临床记录等电子文档,对查询结果进行解析和抽取,获取该技术术语对应的缩略语对照信息,经研究人员核实确认,若发现有误,则研究人员可自行进行修改,并再次确认之后,将该缩略语对照信息导入缩略语文档中,并将该缩略语对照信息转化为缩略语词条,并补充更新至缩略语库中,完成缩略语的完善;同时,存在该识别的技术术语实际上识别错误,并不属于专业术语范畴,这类技术术语将经过研究人员核实确认后进行删除;若所识别的技术术语在第一缩略语子库和第二缩略语子库中可匹配到对应的缩略语词条,但该技术术语至少有两条对应的缩略语词条时,则根据该技术术语的语境自主选择初始认定词条,在导出的缩略语文档中,该技术术语的缩略语对照信息以下拉栏的方式呈现,用户从下拉栏中选择准确的缩略语词条,完成缩略语对照信息的选定后,自动删除其他缩略语词条。

用户可以导出缩略语文档并进行查看,通过对照缩略语文档,能够直观的了解到文献中出现的缩略语及其释义,方便使用缩略语对照表与文本信息进行对照阅读,同时方便对大量的缩略语的解释进行检查,当出现缩略语解释错误或不够专业和准确时及时进行修正。

在自动修订功能中,系统将总览导出的缩略语文档及上传的文本,并获取缩略语文档中每一条缩略语对照信息所对应的技术术语第一次出现在文本中的位置处,在中文文本中,无论该技术术语是中文释义、英文释义、英文缩略语中的哪一种表现形式,将其替换为“中文释义(英文释义、英文缩略语)”的撰写方式,若为英文文本,则将其替换为“英文释义(英文缩略语)”的撰写方式,在后续文本出现的位置则不做更改,通过自动修订功能,增加文献的易读性。

手动修订功能中,用户可以自行对文本进行修改,修改的内容包括但不限于删除、增加、格式修改及内容修改,在此不做赘述。

工作量统计功能为系统提供的被动功能,即系统将自动统计用户上传的文本数量、每一文本的当前处理字符数及所有文本的总处理字符数,并统计缩略语词条的出现频次,更新至缩略语库中。

基于工作量统计功能,将统计缩略语库中的每一个缩略语词条在所有上传文本中的出现频次,同时获取其在若干个研究领域内的出现频次,其中所对应的研究领域的频次计算来源为文档的第二领域属性,其中同一个缩略语词条在同一文本中可能出现多次,同时在不同的文本中可能反复出现,则该缩略语词条的出现频次均累加计算;基于缩略语词条在研究领域内的出现频次,进行排序,其中排名第一的研究领域为优先领域,并定期进行一致性检查,检查的内容为判断该缩略语词条所在的缩略语子库与优先领域是否一致,若一致,则继续维持,若不一致,则进行标注,并提醒管理者是否需要进行更换;一致性检查的周期可以由管理者进行设定,但是缩略语词条的出现频次为实时进行更新。

可以理解是的,若存在至少两个技术术语所对应同一条缩略语词条,则将其认定为同一技术术语,且进行出现频次的叠加;例如,在同一文本中的不同位置出现了一次BCRP和一次乳腺癌耐药蛋白,实际上BCRP及乳腺癌耐药蛋白为同一类技术术语,则在导出缩略语文档时,将BCRP和乳腺癌耐药蛋白认定为同一技术术语导出,且记录出现频次为两次。

可以理解的是,存在字符重叠的技术术语,尤其是所识别的技术术语为中文和缩略语时,即认定的技术术语包含在另一技术术语中,例如多药耐药相关蛋白(MRP)与多药耐药(MDR),其中在专业术语多药耐药相关蛋白(MRP)中包含有专业术语多药耐药(MDR),因此,在识别过程中容易出现误识别过程。因此,在进行技术术语的识别时,将增加判断机制,所述判断机制的方法为:设所识别的技术术语

可以理解的是,在某些实施例中,用户可以选择导出的缩略语文档的范围,即,若用户不进行指定,则系统将结合全文和缩略语库进行提取匹配,导出缩略语文档,该缩略语文档中的缩略语词条更为全面;若用户想单独将文本中某一研究领域的缩略语词条进行提取,可指定对该技术领域进行提取和匹配,导出独立的子缩略语文档。例如,用户上传文本后,可导出全文的缩略语文档,也可仅针对药代动力学研究领域,将文本单独与药代动力学缩略语子库进行识别匹配,导出单独的药代动力学缩略语文档。

数据库模块中存储了所述用户上传的所有文本及导出的缩略语文档,用户可以随时查询并下载。

后台模块仅有管理者拥有权限进入并进行操作;在后台管理模块中,管理者至少包括以下权限:可以修改缩略语库模块中的信息,其中包括但不限于增加、删除或修改缩略语库中的缩略语词条,设置或更改缩略语词条所在的缩略语子库;可以修改数据库模块中的信息,包括但不限于增加、删除或修改数据库模块中的文本;可以监控使用者的访问信息,其中访问信息至少包括使用者的身份信息、访问时间、退出时间及访问动作;可以调节使用者的使用权限。上述权限对使用者未开放,但管理者可对使用者开放其中的部分权限,例如,缩略语库模块的修改权限。

基于上述一体化文本管理维护系统,进行文本管理维护,提供了一种一体化文本管理维护方法,具体包括以下步骤:

用户登录,验证用户身份,确定所述用户所属权限身份,用户权限身份为管理者及使用者中的一种;基于用户信息确定所述用户的第一领域属性,并匹配对应的第一缩略语子库;

用户上传文本,并标记所述文本的第二领域属性,匹配对应研究领域的第二缩略语子库;所述第一缩略语子库与所述第二缩略语子库均属于缩略语库按照研究领域分类得到的缩略语子库

识别所述文本中的技术术语,将所述技术术语与所述第一缩略语子库和所述第二缩略语子库中的缩略语词条进行匹配,获取所述技术术语的缩略语对照信息,并导出所述文本的缩略语文档;

总览所述缩略语文档及所述文本,获取所述缩略语文档中每一条所述缩略语对照信息所对应的所述技术术语在文本中第一次出现的位置处,若为中文文本,将其替换为将“中文释义(英文释义、英文缩略语)”的撰写方式,若为英文文本,则将其替换为“英文释义(英文缩略语)”的撰写方式;

统计所述缩略语库中的每一项缩略语词条在所有文本中的在不同研究领域内出现频次,并进行排序,其中将排序第一位的研究领域认定为该缩略语词条的优先领域;进行一致性检查,判断该缩略语词条所在的缩略语子库与所述优先领域是否一致,若一致,则继续维持,若不一致,则进行标注,并提醒管理者是否更换。

以上仅为本发明的实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些均属于本发明的保护范围。

技术分类

06120116546945