掌桥专利:专业的专利平台
掌桥专利
首页

信息处理装置、生成方法和生成程序

文献发布时间:2024-04-18 19:58:21


信息处理装置、生成方法和生成程序

技术领域

本发明涉及信息处理装置、生成方法和生成程序。

背景技术

公知有文档的检索技术。例如,在检索中使用文档向量。这里,已提出与文档向量有关的技术(参照专利文献1)。

现有技术文献

专利文献

专利文献1:日本特开2018-136760号公报

发明内容

发明要解决的课题

但是,装置根据输入的关键字来检索包含该关键字的全部或一部分的多个文档。但是,在现有的基于文档向量的检索中,检索包含输入的关键字或与输入的关键字相似的关键字的多个相似文档,但是,无法捕捉这些相似文档间的关系性。此外,无法利用与输入的关键字不同的观点来检索关联性强的文档。例如,在利用“入库实绩”这样的关键字来检索某个系统的设计文档的情况下,未检索到与作为与关键字相关联的其他观点的“按照设备区分构成”相关联的文档。这样,为了在检索到相似文档时检索与相似文档之间的关联性强的文档,需要事先将相似文档和关联文档关联起来。例如,考虑将与相似文档中包含的全部单词分别具有关系的文档关联起来的方法。但是,在该方法中,仅通过文档中包含的多个单词中的1个单词关联起来的这种关系性弱的文档有时与相似文档关联起来。

此外,在1个文档中包含多个单词,因此,在该方法中得到大量的关联性,还存在利用者不知道参照哪个关联文档较好这样的问题。

本发明的目的在于,在上述这种事先的关联中,防止与关系性弱的文档关联起来。

用于解决课题的手段

提供本发明的一个方式的信息处理装置。信息处理装置具有:取得部,其取得多个文档和包含多个单词的线索信息;以及生成处理部,其根据所述多个文档和所述线索信息生成文档间关系原始信息,该文档间关系原始信息表示包含所述线索信息中包含的多个单词中的至少一个的多个文档与所述线索信息中包含的多个单词各自在文档中的出现位置之间的关系,该生成处理部根据所述文档间关系原始信息判定与所述线索信息中包含的多个单词分别对应的文档数是否为预先设定的阈值以上,生成高频度出现信息,该高频度出现信息表示包含与所述阈值以上的文档数对应的多个单词的多个文档和与所述阈值以上的文档数对应的多个单词各自在文档中的出现位置之间的关系,该生成处理部根据所述高频度出现信息生成附近出现信息,该附近出现信息表示与所述阈值以上的文档数对应的多个单词出现在预先设定的范围内的文档,该生成处理部根据所述附近出现信息生成表示文档间的关系的文档间关系信息。

发明效果

根据本发明,能够防止与关系性弱的文档关联起来。

附图说明

图1是示出实施方式1的信息处理装置的功能的框图。

图2是示出实施方式1的信息处理装置具有的硬件的图。

图3是示出实施方式1的文档间关系原始信息的生成处理的例子的图。

图4是示出实施方式1的文档间关系原始信息的例子的图。

图5是示出实施方式1的高频度出现信息的例子的图。

图6是示出实施方式1的附近出现信息的例子的图。

图7是示出实施方式1的新的文档间关系原始信息的例子的图。

图8是示出实施方式1的文档间关系表的例子的图。

图9是示出实施方式1的信息处理装置执行的处理的例子的流程图。

图10是示出实施方式1的文档间关系表的变形例的图。

图11是示出实施方式2的线索信息的例子的图。

图12是示出实施方式2的文档间关系原始信息的例子的图。

图13是示出实施方式2的文档间关系表的例子的图。

图14是示出实施方式2的信息处理装置执行的处理的例子的流程图。

具体实施方式

下面,参照附图对实施方式进行说明。以下的实施方式不过是例子,能够在本发明的范围内进行各种变更。

实施方式1

图1是示出实施方式1的信息处理装置的功能的框图。信息处理装置100是执行生成方法的装置。信息处理装置100具有存储部110、取得部120和生成处理部130。

这里,对信息处理装置100具有的硬件进行说明。

图2是示出实施方式1的信息处理装置具有的硬件的图。信息处理装置100具有处理器101、易失性存储装置102和非易失性存储装置103。

处理器101对信息处理装置100整体进行控制。例如,处理器101是CPU(CentralProcessing Unit:中央处理单元)、FPGA(Field Programmable Gate Array:现场可编程门阵列)等。处理器101也可以是多处理器。此外,信息处理装置100也可以具有处理电路。处理电路也可以是单一电路或复合电路。

易失性存储装置102是信息处理装置100的主存储装置。例如,易失性存储装置102是RAM(Random Access Memory:随机存取存储器)。非易失性存储装置103是信息处理装置100的辅助存储装置。例如,非易失性存储装置103是HDD(Hard Disk Drive:硬盘驱动器)或SSD(Solid State Drive:固态驱动器)。

返回图1,对信息处理装置100具有的功能进行说明。

存储部110也可以作为易失性存储装置102或非易失性存储装置103中确保的存储区域来实现。

取得部120和生成处理部130的一部分或全部也可以通过处理电路实现。此外,取得部120和生成处理部130的一部分或全部也可以作为处理器101执行的程序的模块来实现。例如,处理器101执行的程序也称作生成程序。例如,生成程序记录于记录介质。

存储部110也可以存储多个文档111和线索信息112。图1示出在多个文档111中包含文档A、文档B、文档C和文档D。图1的文档中所示的“Wan”、“Wbn”、“Wcn”和“Wdn”是单词。另外,“n”为正整数。例如,图1的文档A中所示的“Wa1”和“Wa2”是单词。

线索信息112也可以称作线索辞典。线索信息112是表示文档间关系的线索的信息。图1的线索信息112中所示的“KWn”(n为正整数)是单词。例如,线索信息112中所示的“KW1”、“KW2”和“KW3”是单词。这样,线索信息112包含多个单词。另外,例如,线索信息112也可以通过用户操作信息处理装置100来生成。

取得部120取得多个文档111。例如,取得部120从存储部110取得多个文档111。这里,多个文档111也可以存储于外部装置(例如云服务器)。在多个文档111存储于外部装置的情况下,取得部120从外部装置取得多个文档111。

取得部120取得线索信息112。例如,取得部120从存储部110取得线索信息112。这里,线索信息112也可以存储于外部装置。在线索信息112存储于外部装置的情况下,取得部120从外部装置取得线索信息112。

生成处理部130根据多个文档111和线索信息112生成文档间关系原始信息。文档间关系原始信息表示包含线索信息112中包含的多个单词中的至少一个的多个文档与线索信息112中包含的多个单词各自在文档中的出现位置之间的关系。使用具体例对文档间关系原始信息的生成处理进行说明。

图3是示出实施方式1的文档间关系原始信息的生成处理的例子的图。图3示出在线索信息112中包含“入库”、“出库”和“实绩”。此外,图3示出文档ID(identifier:标识符)“1”、“5”、“7”、“10”。另外,文档中所示的“Wn”(n为正整数)是单词。例如,“W11”是单词。

生成处理部130根据多个文档111和线索信息112检索包含“入库”的文档。由此,检索到文档ID“1”、“5”、“10”的文档。同样,生成处理部130根据多个文档111和线索信息112检索包含“出库”的文档。由此,检索到文档ID“7”的文档。生成处理部130根据多个文档111和线索信息112检索包含“实绩”的文档。由此,检索到文档ID“5”、“7”的文档。

这样,例如,生成处理部130检索包含线索信息112中包含的“入库”、“出库”和“实绩”中的至少一个的文档ID“1”、“5”、“7”、“10”的文档。

生成处理部130检测线索信息112中包含的多个单词各自在文档中的出现位置。例如,生成处理部130检测文档ID“1”的文档中的“入库”的出现位置。

生成处理部130生成表示检索到的文档与出现位置之间的关系的文档间关系原始信息。示出文档间关系原始信息的例子。

图4是示出实施方式1的文档间关系原始信息的例子的图。文档间关系原始信息200具有线索单词、文档ID、出现行和出现字符位置的项目。另外,出现行和出现字符位置的项目也可以考虑为出现位置的项目。

例如,文档间关系原始信息200表示在文档ID“1”的文档中包含“入库”。此外,文档间关系原始信息200表示“入库”出现在文档ID“1”的文档的第“2”行的第“1”字符。

这样,生成处理部130生成文档间关系原始信息200。

生成处理部130根据文档间关系原始信息200判定与线索信息112中包含的多个单词分别对应的文档数是否为预先设定的阈值以上。例如,生成处理部130根据文档间关系原始信息200检测与线索信息112中包含的“入库”对应的文档数。详细地讲,与“入库”对应的文档数是文档ID“1”、“5”、“10”等文档ID的数量。生成处理部130根据文档间关系原始信息200判定与“入库”对应的文档数是否为该阈值以上。另外,例如,该阈值是根据多个文档111的数量计算出的文档数。例如,该阈值以多个文档111的数量的30%等这样的形式来设定。同样,生成处理部130检测与“出库”对应的文档数和与“实绩”对应的文档数。根据文档间关系原始信息200判定与“出库”和“实绩”对应的文档数是否为该阈值以上。

生成处理部130根据判定的结果生成高频度出现信息。示出高频度出现信息的具体例。

图5是示出实施方式1的高频度出现信息的例子的图。高频度出现信息210具有线索单词、文档ID、出现行和出现字符位置的项目。

生成处理部130生成高频度出现信息210,该高频度出现信息210表示包含与该阈值以上的文档数对应的多个单词(即“入库”和“实绩”)的多个文档和与该阈值以上的文档数对应的多个单词各自在文档中的出现位置之间的关系。

图5示出与“入库”和“实绩”对应的文档数为该阈值以上。此外,与“出库”对应的文档数比该阈值小,因此,包含“出库”的文档未包含在高频度出现信息210中。

生成处理部130根据高频度出现信息210生成附近出现信息,该附近出现信息表示与该阈值以上的文档数对应的多个单词出现在预先设定的范围内的文档。详细地讲,生成处理部130根据高频度出现信息210生成附近出现信息,该附近出现信息表示与该阈值以上的文档数对应的多个单词出现在1个文档中的预先设定的范围内的文档。示出附近出现信息的具体例。

图6是示出实施方式1的附近出现信息的例子的图。附近出现信息220具有线索单词的组合、文档ID、出现行和出现字符位置的项目。

例如,附近出现信息220表示与阈值以上的文档数对应的“入库”和“实绩”出现在预先设定的范围内的文档ID“5”。

此外,例如,预先设定的范围是2行。此外,例如,预先设定的范围是以“入库”为基准的“入库”前后10字符的范围。

“入库”和“实绩”出现在文档ID“5”的文档的相同行(即第“4”行)。因此,在附近出现信息220中包含文档ID“5”。

生成处理部130从文档间关系原始信息200中删除高频度出现信息210。生成处理部130在文档间关系原始信息200中加上附近出现信息220,由此生成新的文档间关系原始信息。例示新的文档间关系原始信息。

图7是示出实施方式1的新的文档间关系原始信息的例子的图。在新的文档间关系原始信息230中,删除了高频度出现信息210。此外,在新的文档间关系原始信息230中追加了附近出现信息220。

生成处理部130根据新的文档间关系原始信息230生成文档间关系表。文档间关系表是表示文档间的关系的信息。具体地示出文档间关系表。

图8是示出实施方式1的文档间关系表的例子的图。文档间关系表113也称作文档间关系信息。文档间关系表113具有线索单词的组合、文档ID和文档间关系得分的项目。

例如,文档间关系表113示出文档ID“5”的文档和文档ID“15”的文档具有关系。文档ID“5”和文档ID“15”是包含“入库”和“实绩”的文档。因此,文档ID“5”的文档和文档ID“15”的文档的关系性强。

文档间关系得分表示文档间的关系度。例如,文档间关系得分是tf-idf值。在计算tf-idf值的情况下,也可以将“入库”和“实绩”视为1个单词,计算文档ID“5”的tf-idf值和文档ID“15”的tf-idf值的合计值作为文档间关系得分。此外,也可以计算文档ID“5”的tf-idf值和文档ID“15”的tf-idf值的平均值作为文档间关系得分。

此外,也可以计算文档ID“5”的“入库”的tf-idf值、文档ID“5”的“实绩”的tf-idf值、文档ID“15”的“入库”的tf-idf值和文档ID“15”的“实绩”的tf-idf值的合计值作为文档间关系得分。此外,也可以计算通过使用该合计值而得到的平均值作为文档间关系得分。

此外,例如,文档间关系得分是Okapi BM25的得分。该得分使用式(1)来表示。

另外,q

IDF(q

N是全部文档数。n(q

接着,使用流程图对信息处理装置100执行的处理进行说明。

图9是示出实施方式1的信息处理装置执行的处理的例子的流程图。

(步骤S11)生成处理部130根据多个文档111和线索信息112生成文档间关系原始信息200。

(步骤S12)生成处理部130使用文档间关系原始信息200生成高频度出现信息210。

(步骤S13)生成处理部130根据高频度出现信息210生成附近出现信息220。

(步骤S14)生成处理部130生成新的文档间关系原始信息230。

(步骤S15)生成处理部130根据新的文档间关系原始信息230生成文档间关系表113。此外,生成处理部130根据新的文档间关系原始信息230计算文档间关系得分。计算出的文档间关系得分包含在文档间关系表113中。生成处理部130也可以将文档间关系表113存储于存储部110。

以上说明了根据新的文档间关系原始信息230生成文档间关系表113的情况。生成处理部130也可以根据附近出现信息220生成文档间关系表113。在根据附近出现信息220生成了文档间关系表113的情况下,在文档间关系表113中,不生成图8的“出库”的记录。此外,生成处理部130也可以根据附近出现信息220计算文档间关系得分。详细地讲,生成处理部130根据附近出现信息220所示的多个单词和包含该多个单词的多个文档计算文档间关系得分。然后,生成处理部130也可以生成包含计算出的文档间关系得分的文档间关系表113。

这里,对文档间关系表113的使用方法的一例进行说明。例如,对信息处理装置100输入“入库”作为关键字。信息处理装置100通过专利文献1等的现有方式来检测包含“入库”的文档ID“5”等的文档。信息处理装置100参照文档间关系表113,确定与检索结果中包含的文档ID“5”之间的关系性强的文档ID“15”和文档ID“25”。信息处理装置100以与检索结果不同的形式输出文档ID“15”的文档和文档ID“25”的文档作为与文档ID“5”相关联的文档。此外,信息处理装置100在输出这些关联文档时,根据文档间关系得分来决定输出文档的顺序。

这样,信息处理装置100通过使用文档间关系得分,能够按照与检索结果的各文档之间的关系性从强到弱的顺序输出关联文档的一览。

这里,作为将文档间关联起来的方法,考虑将与1个文档中包含的全部单词分别具有关系的文档关联起来的方法。但是,在该方法中,仅通过该1个文档中包含的多个单词中的1个单词关联起来的这种关系性弱的文档有时与该1个文档关联起来。此外,在1个文档中包含多个单词,因此,在该方法中得到大量的关联性,还存在利用者不知道参照哪个关联文档较好这样的问题。

信息处理装置100在生成文档间关系表113的情况下,不将与某个文档中包含的全部单词分别具有关系的文档关联起来。信息处理装置100将包含在文档间关系原始信息200中高频度地出现的多个单词且包含在文档中在附近出现的该多个单词的文档彼此关联起来。关联起来的文档彼此可以说关系性强。关联起来的文档彼此被登记于文档间关系表113。由此,根据实施方式1,信息处理装置100根据文档间关系表113,能够防止与关系性弱的文档关联起来。

这里,文档间关系表113也可以如下变更。

图10是示出实施方式1的文档间关系表的变形例的图。设生成了图10的文档间关系表113。图10的文档间关系表113表示包含“入库”和“实绩”的文档ID“5”和文档ID“15”具有关系性。此外,图10的文档间关系表113表示包含“出库”的文档ID“5”和文档ID“15”具有关系性。文档间关系相同,因此,“入库”和“实绩”与“出库”也可以汇集成1个。文档间关系得分也可以是各个文档间关系得分的合计值或文档间关系得分的平均值。

实施方式2

接着,对实施方式2进行说明。在实施方式2中,主要对与实施方式1不同的事项进行说明。而且,在实施方式2中,省略与实施方式1共同的事项的说明。

在实施方式1中,说明了在线索信息112中包含多个单词的情况。在实施方式2中,对在线索信息112中包含复合词或语句的情况进行说明。

首先,对在线索信息112中包含复合词的情况进行说明。例示包含复合词的线索信息112。

图11是示出实施方式2的线索信息的例子的图。图11示出在线索信息112中包含“按照设备区分构成展开数据输出”。“按照设备区分构成展开数据输出”是复合词。“按照设备区分构成展开数据输出”是“按照设备区分”、“构成”、“展开”、“数据”和“输出”(即多个单词)连续而成的单词。

生成处理部130能够使用词素分析来提取构成“按照设备区分构成展开数据输出”的多个单词(即“按照设备区分”、“构成”、“展开”、“数据”和“输出”)。

生成处理部130根据多个文档111和线索信息112,检测构成复合词的多个单词出现在预先设定的范围内的多个文档。例如,生成处理部130检测“按照设备区分”、“构成”、“展开”、“数据”和“输出”出现在该范围内的多个文档(例如文档ID“1”、“10”的文档)。此外,例如,预先设定的范围为2行。另外,“按照设备区分”、“构成”、“展开”、“数据”和“输出”出现在该范围内的顺序可以是与“按照设备区分”、“构成”、“展开”、“数据”和“输出”相同的顺序,也可以是不同的顺序。

生成处理部130检测构成复合词的多个单词各自在文档中的出现位置。

生成处理部130生成表示检测到的文档与出现位置之间的关系的文档间关系原始信息。示出文档间关系原始信息的例子。

图12是示出实施方式2的文档间关系原始信息的例子的图。文档间关系原始信息200a具有线索单词、文档ID、出现行和出现字符位置的项目。另外,出现行和出现字符位置的项目也可以考虑为出现位置的项目。

例如,文档间关系原始信息200a表示在文档ID“1”的文档中包含“按照设备区分”、“构成”、“展开”、“数据”和“输出”。此外,文档间关系原始信息200表示“按照设备区分”、“构成”、“展开”、“数据”和“输出”中的任意一方出现在文档ID“1”的文档的第“10”行的第“2”字符。

这样,生成处理部130生成文档间关系原始信息200a。

以上说明了检测构成复合词的全部单词出现在该范围内的多个文档的情况。生成处理部130也可以检测构成复合词的多个单词中的至少一个出现在该范围内的多个文档。例如,生成处理部130检测“按照设备区分”、“构成”、“数据”和“输出”这4个单词出现在该范围内的多个文档。

这里,不变更文档间关系原始信息200a的框201的信息,直到生成文档间关系表为止。即,生成文档间关系原始信息200a后的处理与实施方式1相同。

生成处理部130根据检测到的多个文档生成文档间关系表。例示文档间关系表。

图13是示出实施方式2的文档间关系表的例子的图。例如,生成处理部130根据检测到的多个文档(例如文档ID“1”、“10”的文档)生成文档间关系表113a。文档间关系表113a表示文档ID“1”的文档和文档ID“10”的文档具有关系。

生成处理部130根据构成复合词的多个单词中的至少一个或构成复合词的多个单词和检测到的多个文档计算文档间关系得分。例如,在计算tf-idf值的情况下,生成处理部130将“按照设备区分”、“构成”、“展开”、“数据”和“输出”视为1个单词,计算文档ID“1”的tf-idf值和文档ID“10”的tf-idf值的合计值作为文档间关系得分。计算出的文档间关系得分包含在文档间关系表113a中。

接着,对在线索信息112中包含语句的情况进行说明。

语句包含多个单词。语句也可以表现为至少包含助词和多个单词的字符串。例如,语句是“输出按照设备区分构成的展开数据”。

生成处理部130根据多个文档111和线索信息112检测语句中包含的多个单词出现在预先设定的范围内的多个文档。另外,例如,预先设定的范围为2行。此外,生成处理部130能够使用词素分析来提取语句中包含的多个单词。例如,生成处理部130能够使用词素分析来提取语句中包含的“按照设备区分”、“构成”、“展开”、“数据”和“输出”。另外,如例示的那样,动词的单词也可以变更成名词的单词。

生成处理部130检测语句中包含的多个单词各自在文档中的出现位置。

生成处理部130生成表示检测到的文档与出现位置之间的关系的文档间关系原始信息。由此,生成文档间关系原始信息200a这样的信息。

以上说明了检测语句中包含的全部单词出现在该范围内的多个文档的情况。生成处理部130也可以检测语句中包含的多个单词中的至少一个出现在该范围内的多个文档。

与上述同样,不变更表示语句中包含的多个单词、检测到的文档、出现位置之间的关系的信息(例如图12的框201的信息),直到生成文档间关系表为止。

生成处理部130根据检测到的多个文档生成文档间关系表。由此,生成文档间关系表113a这样的信息。此外,生成的文档间关系表中包含的文档间关系得分也可以如下来计算。生成处理部130根据语句中包含的多个单词中的至少一个或语句中包含的多个单词和检测到的多个文档计算文档间关系得分。

接着,使用流程图对信息处理装置100执行的处理进行说明。

图14是示出实施方式2的信息处理装置执行的处理的例子的流程图。

(步骤S21)生成处理部130根据多个文档111和线索信息112生成文档间关系原始信息200a。不变更文档间关系原始信息200a的框201的信息,直到生成文档间关系表113a为止。

(步骤S22)生成处理部130使用文档间关系原始信息200a生成高频度出现信息210。另外,在生成高频度出现信息210时,生成处理部130不使用文档间关系原始信息200a的框201的信息。

(步骤S23)生成处理部130根据高频度出现信息210生成附近出现信息220。

(步骤S24)生成处理部130从文档间关系原始信息200a中删除高频度出现信息210。生成处理部130在文档间关系原始信息200a中加入附近出现信息220,由此生成新的文档间关系原始信息。

(步骤S25)生成处理部130根据新的文档间关系原始信息生成文档间关系表113a。此外,生成处理部130根据新的文档间关系原始信息计算文档间关系得分。计算出的文档间关系得分包含在文档间关系表113a中。生成处理部130也可以将文档间关系表113a存储于存储部110。

这里,包含与线索信息112中包含的复合词或语句完全一致的复合词或语句的文档少。因此,当在线索信息112中包含复合词或语句的情况下,很难检测关系性强的文档。但是,信息处理装置100执行上述的方法,由此,当在线索信息112中包含复合词或语句的情况下,信息处理装置100也能够检测关系性强的文档。

以上说明的各实施方式中的特征能够彼此适当地组合。

标号说明

100:信息处理装置;101:处理器;102:易失性存储装置;103:非易失性存储装置;110:存储部;111:多个文档;112:线索信息;113、113a:文档间关系表;120:取得部;130:生成处理部;200、200a:文档间关系原始信息;201:框;210:高频度出现信息;220:附近出现信息;230:文档间关系原始信息。

相关技术
  • 生成动作程序的编程装置以及程序生成方法
  • 学习数据生成装置、学习数据生成方法和程序
  • 图像处理装置、学习装置、图像处理方法、识别基准的生成方法、学习方法和程序
  • 装置、信息处理装置、程序和信息处理方法
  • 信息处理装置、程序、以及信息处理装置的控制方法
  • 信息处理装置、信息生成装置、信息处理方法、信息生成方法、信息处理程序、信息生成程序及记录介质
  • 转换密钥生成装置、密文转换装置、隐匿信息处理系统、转换密钥生成方法、转换密钥生成程序、密文转换方法和密文转换程序
技术分类

06120116483482