掌桥专利:专业的专利平台
掌桥专利
首页

数据处理装置、数据处理方法、数据处理程序、终端装置和数据处理系统

文献发布时间:2023-06-19 12:16:29


数据处理装置、数据处理方法、数据处理程序、终端装置和数据处理系统

技术领域

本技术涉及一种数据处理装置、数据处理方法、数据处理程序、终端装置和数据处理系统。

背景技术

近年来,随着互联网的发展和能够访问互联网的装置的普及,提供互联网服务的公司、开发装置的公司等已经在装置中收集了各种类型的数据,用于改善服务、产品开发的。在这些数据中,有用数据的一种类型是关于使用装置的各个用户的数据。作为针对单个用户的数据,存在各种类型的数据,例如关于通过装置在互联网上使用服务时使用装置的方法和使用状态的数据。

由于这样的各个用户的数据具有较高的实用价值,因此存在由于数据泄漏、数据处理方法等而可能侵犯用户的隐私的问题。因此,为了防止隐私的侵犯,使用了称为差分隐私的技术。

差分隐私(differential privacy)技术是一种将噪声应用于收集的数据以启用数据本身,同时防止作为数据主体的用户等被识别的技术。超过一定统计程度就不可能相信“某些数据属于特定用户”这一假设。差分隐私的特征在于,可以根据任何背景知识为攻击提供数学稳定性,从而可以定量评估对隐私的影响。通过使用差分隐私,即使在没有获得用户同意已经收集了数据的情况下,也可以防止用户隐私的侵犯。差分隐私包括输出类型差分隐私和本地类型差分隐私。

在输出类型差分隐私中,原始数据是从装置收集的,并在云上构建的数据库中进行管理。通过开放已添加了噪声的数据,当数据用户访问数据库并使用数据时,可以保护用户的隐私。由于云服务提供商管理原始数据,因此担心用户在收集原始数据、数据泄漏时提供商的业务风险等方面存在心理障碍。

本地类型差分隐私是通过用户装置添加噪声并在云中收集匿名数据的方法。使用数据时,可以获取从云中去除了噪声的统计信息。由于数据是在数据匿名状态下收集的,因此用户的心理障碍较低,并且泄漏数据时服务提供商的业务风险也较低。

发明内容

[技术问题]

这种差分隐私通常基于存在大量待收集数据的前提,因为当存在大量待收集数据时精度会更高。然而,取决于数据类型,可能不收集大量数据,并且存在数据可能不能被适当地用于差分隐私的问题。

鉴于这样的问题而做出了本技术,并且本技术的目的是提供数据处理装置、数据处理方法、数据处理程序、终端装置以及数据处理系统,其能够通过利用向数据添加噪声的差分隐私来减少已经添加噪声的数据的统计结果中的误差量,从而提高精度。

[问题的解决方案]

为了解决上述问题,第一技术是数据处理装置,包括:噪声去除单元,从已经添加有噪声的数据中去除噪声,该数据已经从终端装置接收到;测量单元,测量构成数据集并指示数据分类的每种数据类型的数据;以及数据集更新单元,基于测量单元的测量结果来更新数据集。

另外,第二技术是数据处理方法,该方法从已经添加有噪声的数据中去除噪声,该数据已经从终端装置接收到,测量构成数据集并指示数据类别的每种数据类型的数据,以及基于测量结果更新数据集。

另外,第三技术是使计算机执行数据处理方法的数据处理程序,该方法从已经添加有噪声的数据中去除噪声,该数据已经从终端装置接收到,测量构成数据集并指示数据类别的每种数据类型的数据,以及基于测量结果更新数据集。

另外,第四技术是终端装置,基于指示数据集的信息,将数据与数据类型相关联,将噪声添加到数据中,并将已添加有噪声的数据发送到数据处理装置,该数据集由数据所属的数据类型组成,该数据集已经从数据处理装置发送。

此外,第五技术是数据处理系统,包括:终端装置,基于指示数据集的信息,将数据与数据类型相关联,将噪声添加到数据中,并将已经添加有噪声的数据发送到数据处理装置,该数据集由数据所属的数据类型组成,该数据集已经从数据处理装置发送,以及数据处理装置,包括:噪声去除单元,从已经被添加有噪声的数据中去除噪声,该数据已经从终端装置接收到,测量单元,测量构成数据集并指示数据类别的每种数据类型的数据;以及数据集更新单元,基于测量单元的测量结果来更新数据集。

附图说明

图1是用于描述差分隐私的概要的示图。

图2是示出样本大小、字典大小和误差之间的关系的曲线图组。

图3A至图3E是示出数据分布与误差之间的关系的曲线图组,并且图3F是示出数据分布中的相对误差的曲线图。

图4是示出数据分布和隐私索引之间的关系的曲线图。

图5是示出变化系数与相对误差之间的关系的曲线图。

图6是根据数据类型的组合的字典更新的说明图。

图7是示出数据处理系统的配置的框图。

图8是示出使用一阶网格覆盖日本的整个区域的状态的示图。

图9是示出基于一阶网格的日本的人口分布的曲线图。

图10是示出终端装置100的配置的框图。

图11是示出数据处理单元200的配置的框图。

图12是示出服务器装置300的配置的框图。

图13是示出数据处理单元400的配置的框图。

图14是示出终端装置100中的处理的流程图。

图15是示出服务器装置300中的处理的流程图。

图16是示出字典更新处理的流程图。

图17是区域网格的组合的说明图。

图18是区域网格的划分的说明图。

具体实施方式

在下文中,将参考附图描述本技术的实施例。将按照以下顺序给出描述。

<1.差分隐私的描述>

<2.实施例>

[2-1.数据处理系统10的配置]

[2-2.区域网格的描述]

[2-3.终端装置100的配置]

[2-4.服务器装置300的配置]

[2-5.终端装置100中的处理]

[2-6.服务器装置300中的处理]

[2-7.字典更新处理]

<3.修改示例>

<1.差分隐私的描述>

首先,将在描述本技术的实施例之前描述在本技术中使用的差分隐私。差分隐私是一种将噪声应用于收集的数据以启用数据本身,同时防止作为数据主体的用户等被识别的技术。在本技术中,使用在用户手中的装置(对应于实施例的终端装置100)中添加噪声并在云(对应于实施例的服务器装置300)中收集匿名数据的本地类型差分隐私。

如图1的示意图所示,本地类型差分隐私由以下组成:用于对装置中的数据进行编码以生成比特串v

在本技术中,“样本大小”,“字典大小”和“隐私索引”被用作使用差分隐私时的主要参数。

样本大小表示在云中收集的数据总数。样本大小可以定义为“拥有装置的用户数量×从装置传输到云的数据条数”。

字典大小表示字典中包含的数据类型总数。字典是一组数据,其中数据针对指示数据类别的每种数据类型进行组合,并且对应于权利要求中的数据集。

字典大小由数据类型的数量决定。例如,ISO5218中定义的性别类别是男性、女性、身份不明和不适用的四种类型,因此数据类型的数量为4,在这种情况下,字典大小=4。此外,例如,智能手机中用于字符输入的图形符号的数量目前大约为2,600,数据类型的数量大约为2,600,在这种情况下,字典大小=大约2,600。此外,在全球定位系统(GPS)的位置信息映射到1km

隐私索引表示差分隐私中的隐私保护程度。随着隐私索引值的降低,隐私保护的程度会增加,并且添加到数据中的噪声量也会增加。相反,随着隐私索引值的增加,隐私保护的程度降低,并且添加到数据的噪声量减少。

取决于处理的数据的敏感性,将隐私索引值确定为预定值。例如,在智能手机中用于字符输入的图形符号需要通过添加噪声而被匿名化的情况下,可以将隐私索引设置为4,而在诸如脉搏的医疗保健信息的情况下,可以将隐私索引设置为2。同时,隐私索引的这些特定值仅是示例,并且本技术不限于这些值。

图2是示出当隐私索引是预定值时样本大小、字典大小和误差之间的关系的曲线图组。误差是未添加噪声的数据的测量值(以下称为正确答案值)与根据差分隐私添加有噪声的数据的测量值(称为已经添加噪声的测量值)之间的差异。在图2的曲线图中,在成对布置条形的每个条形图中,右侧表示未添加噪声的数据的测量值(正确答案值),左侧表示根据差分隐私已经添加噪声的测量值(已经添加噪声的测量值)。

在图2中,假设字典大小在上部的曲线图A至E中为10,在中间的曲线图F至J中为100,在下部的曲线图K至P中为1000。

在竖直排列的曲线图A、F和K中,样本大小为10,000。此外,在竖直排列的曲线图B、G和L中,样本大小为100,000。此外,在竖直排列的曲线图C、H和M中,样本大小为1,000,000。此外,在竖直排列的曲线图D、I和N中,样本大小为10,000,000。此外,在竖直排列的曲线图E、J和P中,样本大小为100,000,000。同时,假定隐私索引在所有曲线图中都相同。

在每个曲线图的右上方指示的值是正确答案值和在对应曲线图中已经添加噪声的测量值之间的误差。

从图2的曲线图组可以确定,当具有相同样本大小的图形相互比较时,误差随着字典大小的减小而减小。另外,当将具有相同字典大小的图形相互比较时,可以确定误差随着样本大小的增加而减小。在差分隐私中,当正确答案值和已经添加噪声的测量值之间的误差减小时,可以在保护数据隐私的同时获取具有高可靠性的数据,这是所期望的。

图3A至图3E是示出数据分布与正确答案值和已经添加噪声的测量值之间的误差之间的关系的曲线图组,并且图3F是示出每种分布中的相对误差的曲线图。假设在图3A至图3E的图形中,样本大小相同,字典大小相同并且隐私索引相同。如从图3F确定的,尽管具有相同的样本大小、相同的字典大小、相同的隐私索引,但是相对误差根据数据分布而不同。

图4是示出图3A至图3E所示的数据分布的类型与隐私索引值之间的关系的曲线图。如从图4所确定的,当隐私索引值减小时,即使分布不同,添加到数据的噪声量也增加并且误差也增加。相反,当隐私索引值增大时,添加到数据的噪声量减小并且误差也减小。

从样本大小、字典大小和隐私索引之间的这种关系可以确定,样本大小、字典大小和隐私索引具有以下折衷关系。

当字典大小恒定并且隐私索引恒定时,误差随着样本大小的减小而增加。

另外,当字典大小较小时,即使样本大小较小,也假定误差较小。相反,当字典大小很大时,即使样本大小很大,误差也很大。

此外,当样本大小恒定并且字典大小恒定时,当隐私索引减小时误差增大,而当隐私索引增大时误差减小。因此,需要增加样本大小以增加隐私强度来提高可靠性。

在本地类型差分隐私中,将正确答案值的统计结果与已经添加噪声的测量值之差的误差用作评价指标。因此,在相同的样本大小和相同的字典大小的情况下,本地类型差分隐私具有即使增加噪声量也不会改变误差以提高灵敏度的优点。另外,本地类型差分隐私具有以下优点:即使在相同字典大小和相同隐私索引的情况下,即使样本大小减小,误差也不会改变。这是因为通常需要获取许多测量值(数据)以增加样本大小,这很昂贵。

同时,当实际操作使用差分隐私的系统时,不能获取未添加噪声的正确答案值,因此不能计算误差。因此,在本技术中,可靠性被定义为差分隐私的有效性的指标而不是误差的指标。

对于构成字典的每种数据类型,评估数据的多个组合结果中的变化。用于比较不同数据类型的变化系数被用作可靠性。变化系数是相对地评估测量值(数据)和相对于平均值的变化之间的关系的指标,并且可以从以下公式1获得。

[公式.1]

变化系数=标准偏差/平均值。

图5是示出当竖直轴表示变化系数并且相对误差的相对误差和水平轴表示数据类型(从1开始的序列号)时,变化系数与相对误差之间的关系的曲线图。如图5所示,从已经添加噪声的测量值算出的变化系数与相对误差具有相关性。因此,变化系数可以用作差分隐私的有效性的指标。因此,变化系数作为可靠性被用作差分隐私的有效性的指标。当变化系数低时,误差也小,因此可靠性高。相反,当变化系数高时,误差也大,因此可靠性低。

为了以较小的样本大小,减小在已经应用差分隐私的结果与未应用差分隐私的结果之间的误差,有必要减小字典大小。此外,即使在相同条件下(相同样本大小、相同字典大小和相同隐私索引),已经应用了差分隐私的结果与未应用差分隐私的结果之间的误差也会根据数据分布而变化。因此,为了通过优化字典大小来减少误差,必须使字典大小与数据分布相匹配。但是,除非收集数据,否则无法确定实际的样本大小和数据分布。

因此,在本技术中,通过在收集数据时根据数据分布更新字典大小来优化字典大小。具体地,响应于更新字典大小的可靠性,计算构成作为数据集的字典的每种数据类型的可靠性,并且组合或划分数据类型。使用具有更新的字典大小的字典来执行本地类型差分隐私,重新评估可靠性,并更新字典大小。以这种方式,响应于可靠性,重复进行数据类型的组合/划分。划分具有高可靠性的数据类型,并且组合具有低可靠性的数据类型。

在图6的示例中,如图6B所示,将图6A所示的数据类型v1和v2、v3和v4、以及v5和v6分别组合为数据类型d1、d2和d3,以减小字典大小。此外,如图6B所示,将数据类型v15至v30组合为数据类型d14以减小字典大小。相对于通过组合v1和v2获得的新数据类型d1,在字典更新之前将数据类型v1和v2的数据作为单独的数据类型的数据进行测量,而将作为v1和v2数据测量的数据,作为数据类型d1的数据进行测量。将v3和v4组合得到的d2、将v4和v5组合得到的d3以及将v15至v30组合得到的d14也是相同的。以这种方式,通过组合数据类型以减小字典大小,可以减少已经应用了差分隐私的结果与未应用差分隐私的结果之间的误差,并且即使样本大小很小,也可以高精度获取统计结果。

当数据类型的数量增加并且因此字典大小增加时,包括在每种数据类型中的数据条数减少,因此正确答案值和已经添加噪声的测量值之间的误差增加。相反,当数据类型的数量减少从而字典大小减小时,包括在每种数据类型中的数据条数增加,因此正确答案值和已添加噪声的测量值之间的误差降低以提高准确性。可以认为,当更新字典时,统计结果的准确性提高了,基于字典收集数据,并且已经添加噪声的测量值接近正确答案值。另外,如以上对样本大小和字典大小之间的折衷关系的描述中所述,当字典大小较小时,期望组合数据类型以减小字典大小,因为即使样本大小很小,误差也会减小以提高差分隐私的准确性。

<2.实施例>

[2-1.数据处理系统10的配置]

接下来,将描述使用上述差分隐私的数据处理系统10的配置。在该实施例中,通过示例描述了本技术,其中在使用区域网格的数据收集中使用差分隐私。在该实施例中,获取来自特定制造商作为终端装置100制造的特定类型的智能手机的位置信息,以确定使用该终端装置100的用户在日本整个地区的分布。

如图7所示,数据处理系统10包括服务器装置300和多个终端装置100。服务器装置300和多个终端装置100通过诸如互联网的网络1000连接。同时,尽管为了便于描述和描绘示出了七个终端装置100,但是存在连接到服务器装置300的七个以上的终端装置100。

例如,服务器装置300是根据本技术的使用差分隐私从终端装置100收集数据的装置,该终端装置由制造终端装置100的制造商等操作以获取统计结果。服务器装置300在以上描述的差分隐私中对应于云。

终端装置100是由特定制造商制造的特定类型的智能手机。终端装置100定期地或以预定定时将包括其位置信息的日志发送到服务器装置300。

[2-2.区域网格的描述]

在此,将描述用于确定使用特定终端装置100的用户分布的区域网格。通过基于纬度/经度将区域划分为具有几乎相同大小的网格正方形(网格)来获得区域网格,以用于统计。用于识别每个网格的代码是区域网格代码。

根据网格大小,将区域网格分类为一阶网格,二阶网格和三阶网格。一阶网格使用比例尺为1:200,000的地理地图的一张地图的一部分作为一个单位部分,且其具有40分的纬度差,1度的经度差,且边长为约80km。二阶网格是通过将二阶网格在纬度方向和经度方向上划分为八个相等的部分而得到的区域,且对应于比例为1:25,000的地形图的一张地图的一部分。它具有5分的纬度差,7分钟30秒的经度差,且边长约10km。三阶网格是通过将二阶网格在纬度方向和经度方向上分为十等份而获得的区域。它具有30秒的纬度差,45秒的经度差,且边长约为1km。

通过收集多个终端装置100的位置信息,可以确定终端装置100的用户在日本整个地区的分布。将区域网格的数量设置为构成字典的数据类型,并将数据类型的数量设置为字典大小。

由于可以使用一阶网格中的176个网格覆盖日本的整个区域,因此当仅使用一阶网格时,构成字典的数据类型的数量变为176,而字典大小变为176。当日本的整个区域被一阶网格覆盖时,网格中包括偏远的岛屿,人口稀少的地区,山区等,这是浪费的。

由于可以使用二阶网格中的4,862个网格来覆盖日本的整个区域,因此当仅使用二阶网格时,构成字典的数据类型的数量变为4,862,并且字典大小变为4,862。像一阶网格一样,二阶网格中也包括偏远的岛屿,人口稀少的地区,山区等,这是浪费的。

由于可以使用三阶网格中的387,286个网格覆盖日本的整个区域,因此当仅使用三阶网格时,构成字典的数据类型的数量变为387,286,字典大小变为387,286。

图8是示出使用一阶网格覆盖日本的整个区域的状态的示图。叠加在日本地图上的各个矩形是一阶网格。当以这种方式用一阶网格覆盖日本的整个区域时,日本的人口分布如图9所示。在图9中,横轴表示一阶网格代码,且纵轴表示在每个一阶网格中的人口。确定在图9所示的人口分布中,前25个一阶网格占据了大部分人口。可以根据人口分布对网格进行划分/组合,并优化字典大小。例如,可以组合与诸如人口密度等于或小于预定值的山区的人少的区域相对应的网格,因为即使将它们组合,它们对统计结果的影响也很小。

在本实施例中,在从终端装置100收集位置信息作为数据的同时,根据位置信息的分布来更新和优化字典。计算构成字典的各个数据类型的可靠性,并根据可靠性对构成字典的数据类型进行组合和划分,以更新字典大小。然后,使用更新后的字典执行本地类型差分隐私,并重新评估可靠性。此外,根据可靠性来组合和划分字典的数据类型以更新字典。通过重复该过程直到可靠性变为恒定状态,可以在使用差分隐私保护个人信息的同时获取终端装置100的准确的用户分布。通过组合字典的数据类型以减小字典大小,可以减少误差以提高可靠性。

另外,由于一阶网格,二阶网格和三阶网格的具体值根据关于所参考的关于互联网上的网格的信息而变化,因此本技术不限于上述特定数量的网格。

[2-3.终端装置100的配置]

接下来,将描述终端装置100的配置。如图10所示,终端装置100包括控制单元101,通信单元102,存储单元103,位置信息获取单元104,显示单元105,输入单元106和数据处理单元200。同时,尽管将多个终端装置100连接到服务器装置300,但是为了描述和描绘的方便,仅详细示出了一个终端装置100。此外,在以下描述中,数据是指示终端装置100的当前位置的位置信息。

控制单元101包括中央处理单元(CPU),随机存取存储器(RAM),只读存储器(ROM)等。ROM存储由CPU读取和操作的程序。RAM用作CPU的工作存储器。CPU根据存储在ROM中的程序执行各种类型的处理以发出命令,从而执行整个终端装置100的控制。

通信单元102是根据预定的通信标准与其他装置和互联网通信的通信模块。作为通信方法,存在诸如Wi-Fi(无线保真度),4G(第四代移动通信系统),宽带,蓝牙(注册商标)等的无线局域网(LAN)。

存储单元103是被配置为例如硬盘驱动器(HDD),半导体存储器,固态驱动器(SSD)等的存储介质,并且除了诸如图像数据,运动图像数据,音频数据和文本数据的内容数据之外,还存储诸如应用程序和程序的数据。

位置信息获取单元104是用于获取终端装置100的位置信息的全球定位系统(GPS)模块。

显示单元105是用于显示诸如图像和视频,用户界面等的内容的显示装置。作为显示装置,例如,有液晶显示器(LCD),等离子显示面板(PDP),有机电致发光(EL)面板等。

输入单元106是用户通过其将指令输入到终端装置100的各种输入装置。作为输入单元106,有按钮、与显示单元105集成的触摸屏等。当将输入施加到输入单元106时,生成根据该输入的控制信号并且输出到控制单元101或数据处理单元200。

数据处理单元200是由终端装置100执行程序配置的处理单元。程序可以预先安装在终端装置100中,或者可以通过存储介质等下载或分发,以便用户由他自己或她自己安装程序。此外,数据处理单元200不仅可以通过程序来实现,而且可以使用具有数据处理单元200的功能的硬件来实现为专用装置,电路等的组合。数据处理单元200对应于权利要求中的数据处理装置。

如图11所示,数据处理单元200包括字典存储单元201,数据转换单元202,编码单元203和日志生成单元204。

字典存储单元201是存储从服务器装置300发送的字典的存储单元。首先存储由服务器装置300的字典创建单元401生成的初始字典,且然后存储由服务器装置300的字典更新单元408更新的字典。

数据转换单元202基于位置信息来获取指示区域网格的代码(区域网格代码),区域网格包括由位置信息获取单元104获取的终端装置100的位置信息所指示的位置。可以通过参考从服务器装置300发送的具有区域网格代码作为数据类型的字典来获取区域网格代码。由于字典由服务器装置300的数据处理单元400重复地更新并且被提供给终端装置100,因此根据更新结果,包括位置信息所指示的位置的区域网格的代码也可以不同。

编码单元203将噪声添加到位置信息和区域网格代码中,它们是要发送到服务器装置300的数据。要添加的噪声量由隐私索引预先确定。

日志生成单元204生成要发送到服务器装置300的日志。该日志包括已经添加了噪声的位置信息和区域网格代码,作为差分隐私的参数信息的隐私索引,终端装置100的标识信息(ID),时间戳等。根据通信单元102,通过通信经由网络1000将生成的日志发送到服务器装置300。同时,如果终端装置100和服务器装置300预先共享它们,则诸如隐私索引和标识信息的不变信息不必被包括在日志中。

终端装置100如上所述地配置。

[2-4.服务器装置300的配置]

接下来,将描述服务器装置300的配置。如图12所示,服务器装置300包括控制单元301,通信单元302,存储单元303和数据处理单元400。

控制单元301包括CPU,RAM,ROM等。CPU根据存储在ROM中的程序执行各种类型的处理以发出命令,从而执行整个服务器装置300的控制。

通信单元302是根据预定的通信标准与终端装置100和互联网通信的通信模块。作为通信方法,存在诸如Wi-Fi,4G,宽带,蓝牙(注册商标)等的无线LAN。

存储单元303是被配置为例如HDD,半导体存储器,SSD等的存储介质,并且存储从终端装置100发送的应用程序,程序,日志和数据等。

数据处理单元400是由服务器装置300执行程序配置的处理单元。程序可以预先安装在服务器装置300中,或者可以通过存储介质等下载或分发,以便用户由他自己或她自己安装程序。此外,数据处理单元400不仅可以通过程序来实现,而且可以使用具有数据处理单元400的功能的硬件来实现为专用装置,电路等的组合。数据处理单元400对应于权利要求中的数据处理装置。

如图13所示,数据处理单元400包括字典创建单元401,字典存储单元402,数据整合单元403,解码单元404,数据测量单元405,可靠性计算单元406,统计分析单元407和字典更新单元408。

字典创建单元401使用现有信息等将字典生成为数据集。通过数据处理单元400的处理来更新由字典创建单元401生成的字典。字典创建单元401对应于权利要求中的数据集生成单元。由字典创建单元401生成的字典的数据被存储在字典存储单元402中,并且被发送到终端装置100,并且被存储在终端装置100的数据处理单元200的字典存储单元201中。

同时,内务和通信部(Ministry of Internal Affairs and Communications)开放了二阶网格的人口分布统计信息,并可通过互联网获取。字典创建单元401可以使用人口分布的统计信息来生成初始字典。然后,字典创建单元401通过执行本地类型差分隐私来重复更新初始字典,以生成具有恒定状态的可靠性的优化字典。

针对一阶网格,二阶网格和三阶网格中的任何一个执行数据处理单元400中的处理。通过执行针对二阶网格而不是一阶网格,和三阶网格而不是二阶网格的处理,可以获得更具体的统计结果。例如,可以由服务器装置300的操作者预先在数据处理单元400中设置将成为处理对象的网格。字典创建单元401根据该设置来生成字典。例如,当对二阶网格执行处理时,从每个二阶网格中的人口分布的统计信息生成具有作为数据类型的第二网格的字典。此外,可以针对所有一阶网格,二阶网格和三阶网格并行地执行处理,或者可以针对任意两种类型的网格并行地执行处理。

由于终端装置100的用户与人口之间存在相关性(可以想到,在人口众多的区域中,终端装置100的用户很多,而在人口较少的区域中,终端装置100的用户很少),例如,可以通过在字典创建步骤中组合人口为0或不超过预定数量的区域网格,来对字典进行优化。

字典存储单元402是存储字典的存储单元。首先存储由字典创建单元401生成的初始字典,然后存储由字典更新单元408更新的字典。

数据整合单元403根据通信单元302,对终端装置100的位置信息进行整合。整合后的数据被提供给解码单元404,该位置信息是已经从通过通信从终端装置100接收的日志中添加了噪声的数据。

解码单元404执行从数据整合单元403提供的,已被添加了噪声的数据中去除噪声的处理。解码单元404对应于权利要求中的噪声去除单元。去除了噪声的数据被提供给数据测量单元405。

数据测量单元405测量终端装置100的位置信息,该位置信息是针对每种数据类型(在该示例中为每个区域网格代码)已经去除了噪声的数据。在本实施例中,测量每个区域网格代码的位置信息的条数(终端装置100的数量)。数据测量单元405对应于权利要求中的测量单元。

可靠性计算单元406针对每种数据类型计算可靠性。计算出的可靠性被提供给统计分析单元407和字典更新单元408。

统计分析单元407创建热图以便可视化测量结果、可靠性等。同时,统计分析单元407不是本技术中的必要组件。

字典更新单元408基于可靠性执行字典更新处理。字典被存储在字典存储单元402中,并在更新时被发送到终端装置100并存储在字典存储单元201中。当更新字典时,将根据更新的字典重新执行本地类型差分隐私,并重复字典的更新,直到可靠性变为恒定状态为止。字典更新单元408对应于权利要求中的数据集更新单元,并且字典的更新对应于数据集的更新。

如上所述配置服务器装置300。

[2-5.终端装置100中的处理]

接下来,将描述终端装置100中的处理。同时,对一阶网格、二阶网格和三阶网格中的任何一个执行以下处理。如上所述,这基于哪个网格是字典中数据类型的目标。

如图14的流程图所示,在步骤S11中,终端装置100的数据转换单元202基于位置信息来获取与位置信息获取单元104所获取的位置信息相对应的区域网格代码。

接下来,在步骤S12中,编码单元203将噪声添加到位置信息和区域网格代码中。该噪声用于根据差分隐私保护数据的隐私信息,并且假定确定待添加的噪声量的隐私索引是预定的。

接下来,在步骤S13中,日志生成单元204生成要发送到服务器装置300的日志。该日志包括已经添加了噪声的位置信息和区域网格代码、作为差分隐私的参数信息的隐私索引、终端装置100的标识信息(ID)、时间戳等。

然后,在步骤S14中,通信单元102将日志发送到服务器装置300。此外,当将日志发送到服务器装置300时,发送所必需的终端装置100专有的报头信息被添加到日志中。

终端装置100定期地或在预定定时重复执行该处理。

[2-6.服务器装置300中的处理]

接下来,将描述服务器装置300中的处理。如图15的流程图所示,首先,在步骤S21中,接收从通过网络1000连接的所有终端装置100发送的日志。此外,由于存在多个终端装置100,因此服务器装置300从各个终端装置100接收日志。

接下来,在步骤S22中,数据整合单元403从接收到的多个日志中提取已经添加了噪声的数据。所提取的数据是位置信息和区域网格代码。

接下来,在步骤S23中,解码单元404从已经添加了噪声的数据中去除噪声。

接下来,在步骤S24中,数据测量单元405测量每种数据类型的数据条数(每种区域网格代码的终端装置100的位置信息的条数作为数据类型)。该数据测量结果是在可靠性计算中使用的“否”值,因此被提供给可靠性计算单元406。

接下来,可靠性计算单元406通过将步骤S24中的数据测量结果与步骤S25中存储的过去数据测量结果相结合来计算可靠性。此外,在第一处理的情况下,仅从一个测量结果中计算可靠性,或者因为不存在过去的数据测量结果,所以不执行可靠性的计算。在第二和随后的处理中,从最新的数据测量结果和过去的数据测量结果计算可靠性。另外,可靠性计算单元406计算平均噪声相加量。

这里,描述平均噪声相加量的计算。平均噪声相加量是在所有数据类型中进行了多次数据测量之后,每种数据类型的测量结果的标准偏差的平均值。

例如,假设数据类型V13的测量值(未添加噪声的状态下的测量值)为10,000,并且在已经添加了噪声的状态下总共进行六次数据测量的测量值为10,000、10,200、9,800、10,000、10,200和9,800。来自六次数据测量的这些测量值的标准差约为163。因此,对应于163的噪声已添加到数据类型V13中。

当在终端装置100的侧面上添加噪声时,由于不能确定每种数据类型的测量值,因此将噪声均匀地添加到数据类型。

因此,例如,假设数据类型V4的测量值(未添加噪声的状态下的测量值)为1,000,并且在已经添加了噪声的状态下总共进行六次数据测量的测量值为1,000、1,200、800、1,000、1,200和800。来自六次数据测量的这些测量值的标准偏差约为163。因此,对应于163的噪声已添加到数据类型V4中。

尽管在未添加噪声的状态下V4的测量值对应于V13的测量值的十分之一,但是在未添加噪声的状态下不知道测量值,差分隐私添加与163对应的相同噪声,这会增加误差。

描述返回到流程图的说明。接下来,在步骤S26中,通过将计算出的可靠性与在先前处理中计算出的可靠性进行比较,来确定可靠性的变化是否落在预定范围内。当可靠性的变化在预定范围内时,假设字典大小合适,则结束处理(步骤S26为“是”)。

相反,当可靠性的变化不在预定范围内时,假设字典大小不合适,则处理进入步骤S27(步骤S26中为“否”)。接下来,在步骤S27中,字典更新单元408执行字典更新处理。字典更新处理的细节将在后面描述。

然后,在步骤S28中,通过根据通信单元302的通信,将更新后的字典发送到构成数据处理系统10的所有终端装置100。每当更新字典时,将字典发送到所有终端装置100。

[2-7.字典更新处理]

接下来,将参考图16描述图15的流程图中的步骤S27的字典更新处理的细节。针对构成字典的每种数据类型执行该处理。

首先,在步骤S31中,确定从通过网络1000连接到服务器装置300的所有终端装置100发送和获取的所有数据类型之一的数据的测量值是否大于平均噪声相加量。在本实施例中,确定包括在作为区域网格代码指示的数据类型的区域网格中的位置信息的条数是否大于平均噪声相加量。当数据的测量值大于平均噪声相加量时,处理进入步骤S32(步骤S31中为“是”)。

噪声被均匀地添加到所有数据类型,而不管每种数据类型的数据的测量值如何。因此,平均噪声相加量可以用作用于确定每种数据类型的数据的测量值的大小的阈值。

接下来,在步骤S32中,确定在步骤S25中计算出的可靠性是否高于预定阈值。当可靠性高于阈值时,处理进入步骤S33(步骤S32中为“是”),其中划分对应于处理目标的数据类型的区域网格。例如,分割数为2。

相反,当在步骤S32中可靠性低于阈值时,处理进入步骤S34(步骤S32中为“否”)。此外,当在步骤S31中数据类型的数据的值小于平均噪声相加量时,处理也进入步骤S34(步骤S31中为“否”)。然后,在步骤S34中,将作为处理目标的数据类型(区域网格)与相邻数据类型中可靠性较低的数据类型进行组合。在这种情况下,“与作为处理目标的数据类型相邻的数据类型”是在根据预定规则将数据类型排列在曲线图上的状态下的相邻数据类型。

步骤S33和S34的处理均进入步骤S35,并且在步骤S35中确定是否对构成字典的所有数据类型(区域网格)进行了处理。当已经执行了针对所有数据类型的处理时,处理结束(步骤S35中为“是”)。

相反,当尚未执行针对所有数据类型(区域网格)的处理时,处理进入步骤S31(步骤S35中为“否”)。然后,重复步骤S31至步骤S35,直到对在图15的流程图的步骤S21中接收到的所有数据都执行了处理为止。

因此,例如,由于组合数据类型(区域网格)的多个操作的结果,可以减小字典大小。通过在收集数据类型时根据数据类型的分布和可靠性,重复构成字典的数据类型的组合/划分来更新字典。然后,将更新后的字典发送到终端装置100,使用更新后的字典执行本地类型差分隐私,并且针对每种数据类型执行数据测量以评估可靠性(图16的流程图中的步骤S25)。因此,字典会不断更新,直到可靠性不改变为止。

以这种方式更新的字典被存储在服务器装置300的字典存储单元402中,并且被发送到终端装置100,并且被存储在终端装置100的字典存储单元201中。因此,终端装置100和服务器装置300始终具有公共更新字典。终端装置100和服务器装置300需要具有相同的字典,因为对于构成字典的每种数据类型执行数据收集、差分隐私中的噪声添加以及可靠性评估。

例如,作为通过对二阶网格进行处理而更新字典的结果,如图17A所示,作为处理之前的独立网格的网格M(数据类型)和网格N(数据类型)被组合成如图18B所示的一个“网格M+N”。尽管已经将网格M和网格N中的位置信息分别测量为组合之前的数据类型的数据,但是在组合的“网格M+N”中的位置信息被测量为组合之后的一种数据类型的数据。

通过如上所述重复更新字典以减少数据类型的数量和字典大小,即使在差分隐私中将噪声添加到数据以高精度地获得统计结果的情况下,也可以减小正确答案值和添加了噪声的测量值之间的误差。

此外,指示字典的当前状态(更新的数量和版本)的信息可以被包括在从终端装置100发送到服务器装置300的日志中,并且当词典与存储在服务器装置30的词典存储单元402中的词典相同时,服务器装置300可以检查终端装置100的词典的当前状态并执行词典更新处理。。此外,终端装置100和服务器装置300中使用的字典可以是参照日志中包含的时间戳在同一时间更新到新的时间。然而,即使终端装置100和服务器装置300中的字典更新定时不一致并且终端装置100和服务器装置300使用不同的字典,处理也可以继续。

此外,数据类型是区域网格,并且网格与实际区域相关联。因此,例如,如果简单地组合数据类型,则可能发生北海道中的区域网格和冲绳中的区域网格被组合的情况。因此,可以设置以下条件:“数据类型的组合要经受地理上相邻的区域网格”或“数据类型的组合要优先于地理上相邻的区域网格”。但是,不排除地理上分开的区域网格的组合。在人口少的地区,可以组合地理上分开的区域网格,因为这种组合对统计结果影响不大。

如上所述,根据本技术执行处理。根据本技术,可以通过组合人口少(终端装置100的用户数量少)的区域网格来减小作为具有数据类型的区域网格的数据集的字典的大小。通过减小字典大小,即使收集数据的条数很小,使用本地类型差分隐私时,也可以获得具有较小误差的统计结果。

当使用差分隐私时,通常,随着收集数据的条数和样本大小的增加,正确答案值和已被添加了噪声的测量值之间的误差减小,从而提高了准确性。然而,根据本技术,通过组合字典中包含的数据类型以减少数据类型的数量并增加每种数据类型中包含的数据的条数,即使收集数据的条数和样本大小很小,也可以高精度地执行差分隐私。

此外,例如,当使用二阶网格作为数据类型来执行处理时,可以仅针对相同的一阶网格中包括的二阶网格来组合数据类型。因此,地理上分开的二阶网格(例如,北海道的二阶网格和冲绳的二阶网格)没有组合。

另外,还存在在一个区域网格中存在大量人口的区域和少量人口的区域的情况。在这种情况下,可以在区域网格中设置具有特定尺寸的网格。例如,如图18所示,基于人口密度,将二阶网格聚类为多个网格正方形(图18中L,M和N的三个正方形),并且基于聚类将一阶网格划分(图18中的三个划分)。然后,将一阶网格的三个划分区域设置为单独的网格。因此,可以获得更详细的统计结果。

<3.修改示例>

尽管上面已经具体描述了本技术的实施例,但是本技术不限于上述实施例,并且基于本技术的技术精神的各种修改是可行的。

尽管在实施例中例示了使用区域网格确定终端装置100的用户数量的情况,但是本技术不限于此。例如,可以应用任何可以作为统计数据处理的数据,例如用户在输入到终端装置的字符中使用的图形符号的使用频率,在终端装置中运行的应用程序的使用频率以及区域温度的测量值。

尽管在该实施例中将终端装置描述为智能手机,但是终端装置可以是除智能手机之外的能够将信息传输到外部的任何装置,例如个人计算机、平板终端、照机、可穿戴装置、智能扬声器、游戏机、服务器装置、可上网的宠物动物型/类人机器人、各种传感器装置以及各种IoT(物联网)装置。

本技术还可以如下配置。

(1)

数据处理装置,包括:

噪声去除单元,其从终端装置接收到的已经添加了噪声的数据中去除噪声;

测量单元,其测量构成数据集并指示数据类别的每种数据类型的数据;以及

数据集更新单元,其基于测量单元的测量结果来更新数据集。

(2)

根据(1)的数据处理装置,其特征在于,数据集更新单元通过组合构成数据集的数据类型和其他数据类型来更新数据集。

(3)

根据(1)或(2)的数据处理装置,其特征在于,数据集更新单元通过划分构成数据集的数据类型来更新数据集。

(4)

根据(1)至(3)中的任一项的数据处理装置,包括:可靠性计算单元,其基于测量结果来计算每种数据类型的可靠性,其特征在于,

每当从终端装置接收到数据时,数据集更新单元就更新数据集,直到可靠性与在可靠性之前计算出的可靠性的变化落在预定范围内为止。

(5)

根据(1)至(4)中的任一项的数据处理装置,其特征在于,可靠性是测量结果和在测量结果之前的多个测量结果的变化系数。

(6)

根据(3)的数据处理装置,其特征在于,当属于数据类型的数据大于添加到数据的噪声量并且可靠性大于预定阈值时,对数据类型进行划分。

(7)

根据(3)的数据处理装置,其特征在于,当属于数据类型的数据小于添加到数据的噪声量或者可靠性小于预定阈值时,对数据类型进行组合。

(8)

根据(7)的数据处理装置,其特征在于,数据集更新单元将数据类型与近似于数据的测量结果并且具有比数据类型低的可靠性的其他数据类型进行组合。

(9)

根据(1)至(8)中的任一项的数据处理装置,其特征在于,当由数据集更新单元更新数据集时,测量单元针对构成更新后的数据集的每种数据类型测量数据。

(10)

根据(1)至(9)中的任一项的数据处理装置,包括数据集生成单元,其生成所述数据集。

(11)

根据(1)至(10)中的任一项的数据处理装置,其特征在于,每当更新时,数据集就被发送到终端装置。

(12)

数据处理方法,包括:从已经添加了噪声的数据中去除噪声,该数据已经从终端装置接收到;

测量构成数据集并指示数据类别的每种数据类型的数据;以及

基于测量结果更新数据集。

(13)

使计算机执行数据处理方法的数据处理程序,方法包括:

从已经添加了噪声的数据中去除噪声,该数据已经从终端装置接收到;

测量构成数据集并指示数据类别的每种数据类型的数据;以及

基于测量结果更新数据集。

(14)

终端装置,其基于指示数据集的信息将数据与数据类型相关联,该数据集由数据所属的数据类型组成,该数据集已经从数据处理装置发送,然后将噪声添加到数据中,并将已经添加了噪声的数据发送到数据处理装置。

(15)

数据处理系统,包括:

终端装置,其基于指示数据集的信息将数据与数据类型相关联,该数据集由数据所属的数据类型组成,该数据集已经从数据处理装置发送,然后将噪声添加到数据中,并将已经添加了噪声的数据发送到数据处理装置;以及

数据处理装置,包括:

噪声去除单元,其从已经添加了噪声的数据中去除噪声,该数据已经从终端装置接收到;

测量单元,其测量构成数据集并指示数据类别的每种数据类型的数据;以及

数据集更新单元,其基于测量单元的测量结果来更新数据集。

[参考符号列表]

10 数据处理系统

100 终端装置

400 数据处理单元

404 解码单元

405 数据测量单元

406 可靠性计算单元

408 字典更新单元。

技术分类

06120113236175