导航：首页> 农业；林业；畜牧业；狩猎；诱捕；捕鱼>一种数据处理方法、装置、设备及存储介质

一种数据处理方法、装置、设备及存储介质

文献发布时间：2023-06-19 11:39:06

技术领域

本发明实施例涉及数据处理技术领域，尤其涉及一种数据处理方法、装置、终端设备及存储介质。

背景技术

在实际应用中，分类对象往往是不平衡数据集，例如：恶意欠费用户挖掘、骚扰电话识别、离网用户预警等。通常这类应用中的某一类样本相比于其他样本会有较大差异，会造成分类器在分类识别过程中偏向于样本较多的一类，从而忽视少数类特征，导致分类器效果降低。这样的分类识别会造成准确率高，召回率低，整体的识别可用性较差。

因此，在保证整体分类准确度稳定的前提下，提高少数类样本集分类的准确性成为亟待解决的问题。

发明内容

本发明实施例提供一种数据处理方法、装置、终端设备及存储介质，能够解决在保证整体分类准确度稳定的前提下，提高少数类样本集分类的准确性的问题。

为了解决上述技术问题，本发明是这样实现的：

第一方面，本发明实施例提供了一种数据处理方法，该方法可以包括：

获取第一样本集中非数值型和/或离散型的字段数据；

对字段数据进行降维，得到与第一样本集相关的边界样本集；

根据第一样本集中每个样本的概率值，确定随机样本的至少一个近邻样本；

基于至少一个近邻样本和边界样本集，生成包括少数类样本的第二样本集。

在一种可能的实施例中，上述涉及的“对字段数据进行降维，得到与第一样本集相关的边界样本集”的步骤中，具体可以包括：

通过独热编码one-hot对字段数据进行编码，得到编码字段数据；

利用主成分分析PCA对编码字段数据进行降维，得到边界样本集。

在另一种可能的实施例中，上述涉及的“确定每个样本的概率值”的步骤中，具体可以包括：

将第一样本集划分为第一训练集和第一预测集，第一训练集和第二训练集中分别包括多个样本；

通过梯度提升决策树GBDT算法对第一预测集进行预测，得到第一预测集中每个样本的概率值；

将第一样本集确定为第二预测集，以及将第一预测集确定为第二样本集；

通过GBDT算法对第二预测集进行预测，得到第二预测集中每个样本的概率值；

根据第一预测集中每个样本的概率值和第二预测集中每个样本的概率值，确定每个样本的概率值。

在又一个可能的实施例中，上述涉及的“根据第一样本集中每个样本的概率值，确定随机样本的至少一个近邻样本”的步骤中，具体可以包括：

根据第一样本集中每个样本的概率值通过K邻近算法，确定随机样本的至少一个近邻样本。

在再一个可能的实施例中，上述涉及的“根据第一样本集中每个样本的概率值通过K邻近算法，确定随机样本的至少一个近邻样本”的步骤中，具体可以包括：

根据第一样本集中每个样本的概率值，得到随机数被选中的概率值；

将满足预设条件的概率值对应的随时数确定为随机样本；

根据随机样本确定随机样本的至少一个近邻样本。

在再一个可能的实施例中，上述涉及的方法还可以包括：

在至少一个近邻样本属于边界样本集中的样本的情况下，

通过合成少数类过采样SMOTE算法在随机样本和至少一个邻近样本对于连续数据进行差值计算，得到每个样本的第一频数值；

在多个第一频数值中选取满足第一预设频数条件的目标频数值；

将目标频数值确定为第二样本集的频数值。

或者，在再一个可能的实施例中，上述涉及的方法还可以包括：

在至少一个近邻样本中包括未属于边界样本集中的样本的情况下，

通过遗传算法中步长变异算法在随机样本和至少一个邻近样本对于连续数据进行差值计算，得到每个样本的第二频数值；

在多个第二频数值中选取满足第二预设频数条件的目标频数值；

将目标频数值确定为第二样本集的频数值。

在再一个可能的实施例中，若每个样本的第二频数值相同，则根据随机选取任意一个第二频数值作为目标频数值。

在再一个可能的实施例中，上述涉及的“基于至少一个近邻样本和边界样本集，生成包括少数类样本的第二样本集”的步骤中，具体可以包括：

根据目标频数值、至少一个近邻样本和边界样本集，生成包括少数类样本的第二样本集。

在再一个可能的实施例中，上述涉及的“基于至少一个近邻样本和边界样本集，生成包括少数类样本的第二样本集”的步骤中，具体可以包括：

根据第一样本集中样本的个数，重复执行确定随机样本的至少一个近邻样本，并基于获得的近邻样本和边界样本集，生成第二样本集；其中，

第二样本集用于筛选任意样本集中的少数类样本；其中，少数类样本包括：离网用户的特征数据。

第二方面，本发明实施例提供了一种数据处理装置，该装置可以包括：

获取模块，用于获取第一样本集中非数值型和/或离散型的字段数据；

调整模块，用于对字段数据进行降维，得到与第一样本集相关的边界样本集；

处理模块，用于根据第一样本集中每个样本的概率值，确定随机样本的至少一个近邻样本；

生成模块，用于基于至少一个近邻样本和边界样本集，生成包括少数类样本的第二样本集。

第三方面，本发明实施例提供了一种终端设备，包括处理器、存储器及存储在存储器上并可在处理器上运行的计算机程序，计算机程序被处理器执行时实现如第一方面所示的数据处理方法。

第四方面，提供了一种计算机可读存储介质，其上存储有计算机程序，若计算机程序在计算机中执行，则令计算机执行如第一方面所示的数据处理方法。

本发明实施例中，通过对第一样本集中非数值型和/或离散型的字段数据进行降维，有效解决了现有的过采样方法不适用于字符型数据的问题，另外，将降维思想应用在SMOTE算法中，降低高纬度灾难的风险，使用范围更加广泛。与此同时，针对高维空间过于巨大，高维空间内的点根本不会表现得彼此邻近的问题，以降维的方式对K近邻算法进行改进，从而降低误差。另外，根据第一样本集中每个样本的概率值，确定随机样本的至少一个近邻样本，并基于至少一个近邻样本和边界样本集，生成包括少数类样本的第二样本集。这样，对非数值型和/或离散型字段采用改进的K近邻算法进行衍生，有效解决了含有非数值型字段和/或离散字段的样本无法使用传统的方法进行过采样的问题。

附图说明

从下面结合附图对本发明的具体实施方式的描述中可以更好地理解本发明其中，相同或相似的附图标记表示相同或相似的特征。

图1为本发明实施例提供的一种数据处理方法的流程图；

图2为本发明实施例提供的一种数据处理方法的对比示意图；

图3为本发明实施例提供的一种数据处理装置结构示意图；

图4为本发明实施例提供的一种终端设备的硬件结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

目前，对不平衡集的处理主要集中在算法层和数据层。

其中，算法层的处理主要是通过修改算法在数据上的偏置，使得决策平面偏向于少数类，从而提高对少数类的识别率，如集成式学习法和特征选择法。数据层的处理的核心思想是对数据集进行重新采样，如欠采样和过采样技术。

这里，合成少数类的过采样技术通常为合成少数类过采样(synthetic minorityover-sampling technique，SMOTE)。SMOTE算法是基于随机过采样技术的一种改进方案，避免了由于随机过采样技术通过简单复制增加少数类样本造成的模型过拟合和模型学习信息过于特别而不泛化问题。SMOTE算法的核心思想是通过对少数类进行分析，根据其样本人工合成新样本集并添加到数据集中。基本方式就是在近邻少数类样本之间进行线性插值，从而形成新的少数类。

主流的基于SMOTE算法改进的方案有两种，一种方案是在传统SMOTE算法的基础上增加了对边界样本和孤立点的考虑，从而可以获得近似均衡的数据集。其主要做法是：对所有少数类样本在不均衡数据集的样本空间中寻找k-近邻，根据k邻域内多数类样本和少数类样本数量的比例，将少数类样本划分为3个样本子集：即安全样本集(少数类样本的k邻域内，多数类样本数量少于少数类样本数量)，危险样本集(少数类样本的k邻域内，多数类样本数量不少于少数类样本数量，且少数类样本数量不为0)和孤立样本集(当前少数类样本的k邻域内全是多数类样本)。对危险样本集中的每一个少数类样本，均在全体少数类样本空间中应用SMOTE算法。

另一种方案是一种基于改进聚类(Density-Based Spatial Clustering ofApplications with Noise，DBSCAN)-SMOTE算法的分类方法。首先在数据样本集合中，判断出边界样本，并将边界样本分为多数类边界样本和少数类边界样本。对于多数类样本空间中的边界样本使用基于改进DBSCAN的聚类算法(该算法不仅能够产生少数类的聚类簇，还能在这些样本簇内进行过采样)，然后再使用粒子群优化算法(Particle SwarmOptimization，PSO)对聚类簇内边界样本和安全样本的过采样率进行优化，对于少数类边界样本则通过SMOTE算法进行不同采样率的过采样。

但是，对不平衡数据集进行处理时，上述两种方案都存在一定的缺点，具体如下所示：

(1)上述方案均使用了K近邻算法，K近邻算法是基于距离计算的，随着特征维数的增多，K近邻算法的效果会持续变差，因为高维空间过于巨大，高维空间内的点根本不会表现得彼此邻近。因此，对于维度多的样本，采用K近邻算法即将无法较为准确的判别近邻。

(2)若使用上述方案进行数据处理，其样本数据类型必须是连续型数据，但在实际应用中，存在大量的离散型数据、字符型数据，这导致很多数据无法使用上述方法平衡数据集。

(3)若使用上述方案进行数据处理，其倍率N必须为正整数，这使得合成的新样本数量一定是少数类样本数量的整数倍，因而不能准确控制样本生成的数量，可能会对分类器的性能产生一定的影响。

(4)上述边界选择方案存在一定的局限性，第一种方案中依据K近邻的类别来选择边界样本，在高维空间过于巨大时，高维空间的点根本不会表现得彼此临近，因此在用此方案区分边界存在较大的误差。第二方案中当空间聚类的密度不均匀、聚类间距差相差很大时，DBSCAN聚类质量较差，聚类效果依赖于K近邻的距离公式选取，实际应用中常用欧式距离，对于高维数据，存在“维数灾难”。

(5)在合成新样本的过程中利用了部分近邻的信息，存在一定的局限性。如果K个最近邻样本比较分散，就会使得新生成的样本处于多数类样本中，这类新生成的样本就有可能是噪声数据，反而会降低数据集的质量。

针对以上不足，本发明实施例结合GBDT、遗传算法中的变异算子，提出了一种改进的SMOTE算法，记为G-SMOTE。G-SMOTE结合GBDT挑选目标样本，利用变异算子对少数类目标样本衍生新样本。本发明实施例提供的数据处理方法充分利用了处于边缘的少数样本周围数据，提高了新合成样本的质量，实现了对少数类样本合成质量的精细控制。本方案还更好地扩展了少数类的决策空间，有效避免了现有算法容易使正负样本边界模糊化的问题，使得新样本合成的效果更加出色。

下面对本发明实施例提供的移动物体预警方法进行详细说明。

图1为本发明实施例提供的一种数据处理方法的流程图。

如图1所示，该数据处理方法具体可以包括步骤110-步骤140，具体如下所示：

步骤110，获取第一样本集中非数值型和/或离散型的字段数据。

步骤120，对字段数据进行降维，得到与第一样本集相关的边界样本集。

其中，通过独热编码one-hot对字段数据进行编码，得到编码字段数据；利用主成分分析PCA对编码字段数据进行降维，得到边界样本集。

举例说明，将第一样本集S中非数值型的字段进行one-hot编码,得到S’，利用PCA对编码字段数据进行降维，得到S”。

这里，本发明实施例利用one-hot编码对SMOTE算法进行改进，针对高维空间过于巨大，高维空间内的点根本不会表现得彼此邻近的问题，以降维的方式对K近邻算法进行改进，从而降低误差。

另外，还有效解决了原有的SMOTE算法无法应用于非数值型字段；对离散字段采用改进的KNN算法进行衍生，选取变量近邻取值的频数最高的值作为该衍生样本字段的取值，有效解决了含有非数值型字段、离散字段的样本无法使用传统的方法进行过采样的问题。

步骤130，根据第一样本集中每个样本的概率值，确定随机样本的至少一个近邻样本。

举例说明，接步骤120中的例子，将少数类边界样本集S

其中，边界样本集的概率记为F

这里，具体的确定随机样本a的方式可以如下所示：

随机产生一个随机数r(r大于0小于1)，若r小于或者等于q

这样，就可以计算随机样本a的K近邻，将a的K个近邻样本记为y

这里，在一种可能的实例中，在执行该步骤之前，还可以包括确定第一样本集中每个样本的概率值，具体实现方式如下所示：

将第一样本集划分为第一训练集和第一预测集，第一训练集和第二训练集中分别包括多个样本；通过梯度提升决策树GBDT算法对第一预测集进行预测，得到第一预测集中每个样本的概率值；将第一样本集确定为第二预测集，以及将第一预测集确定为第二样本集；通过GBDT算法对第二预测集进行预测，得到第二预测集中每个样本的概率值；根据第一预测集中每个样本的概率值和第二预测集中每个样本的概率值，确定每个样本的概率值。

举例说明，将第一样本集S分成两份，记做S1、S2。将S1作为第一训练集，S2作为第一预测集，利用GBDT对S2进行预测，得到S2样本的概率，具体实现方式通过初始化基学习模型，即参照公式(3)可得最小化值：

其中，m为第一样本集S中的样本总量m个(m为大于等于1的正整数)，c为GBDT中任意一个树对应的预测值，y

基于此，计算t(t＝1,2,3……T)次迭代的负梯度，可以通过公式(4)实现，具体如下所示：

其中，x和x

接着，对叶子节点区域i＝1,2,3,……J，计算最佳拟合值C

接着，基于最佳拟合值C

其中，I为指示函数。然后，通过多次计算统计所有的数据，得到计算后的强学习器，如下述公式(7)所示，用于预测S2中样本的概率：

由此，再将记做S1与S2调换，将S2作为第二训练集，S1作为第二预测集，重复上述的方式，利用GBDT对第二预测集进行预测，得到第二预测集中每个样本的概率。这样，可以得到整个S数据集中每个样本的概率。这里，可以根据每个样本的概率筛选出步骤120中的少数类的边界样本集的概率，本发明实施例将该边界样本集的概率记为F

基于此，步骤130具体可以包括，根据第一样本集中每个样本的概率值通过K邻近算法，确定随机样本的至少一个近邻样本。

进一步地，根据第一样本集中每个样本的概率值，得到随机数被选中的概率值；将满足预设条件的概率值对应的随时数确定为随机样本；根据随机样本确定随机样本的至少一个近邻样本。

步骤140，基于至少一个近邻样本和边界样本集，生成包括少数类样本的第二样本集。

其中，根据第一样本集中样本的个数，重复执行确定随机样本的至少一个近邻样本，并基于获得的近邻样本和边界样本集，生成第二样本集；其中，第二样本集用于筛选任意样本集中的少数类样本；其中，少数类样本包括：离网用户的特征数据。

举例说明，根据所需样本数量N，重复步骤130和步骤140，直至N大于少数类样本数量，则重复从少数类选取目标样本。将原始的少数样本(即边界样本集)和合成样本(即至少一个近邻样本)组成新的少数样本(即第二样本集)。

这里，在一种可能的实施例中，在生成第二样本集的步骤之前，还可以包括确定第二样本集的频数值，本发明实施例提供了两种不同情况下，确定第二样本集的频数值，具体如下所示：

场景1，在至少一个近邻样本属于边界样本集中的样本的情况下，

通过合成少数类过采样SMOTE算法在随机样本和至少一个邻近样本对于连续数据进行差值计算，得到每个样本的第一频数值；

在多个第一频数值中选取满足第一预设频数条件的目标频数值；

将目标频数值确定为第二样本集的频数值。

举例说明，基于步骤120和步骤130中的例子，若K个样本都为少数类样本，则连续型字段基于原有的SMOTE算法，在随机样本a和K个近邻样本对于连续数据进行插值，其计算第二样本集的公式(8)如下所示：

其中，对于离散字段，计算随机样本a的K个近邻样本中该离散字段的各取值的频数即第一频数值，选取频数最高的字段作为新样本该离散字段的值即目标频数值。若频数相同，则随机选取一个值作为该字段(即第二样本集)的目标频数值。

场景2，在至少一个近邻样本中包括未属于边界样本集中的样本的情况下，

通过遗传算法中步长变异算法在随机样本和至少一个邻近样本对于连续数据进行差值计算，得到每个样本的第二频数值；

在多个第二频数值中选取满足第二预设频数条件的目标频数值；

将目标频数值确定为第二样本集的频数值。

这里，若每个样本的第二频数值相同，则根据随机选取任意一个第二频数值作为目标频数值。

举例说明，基于步骤120和步骤130中的例子，若K个邻近样本不全为少数类样本，则连续型基于遗传算法中的步长变异算法，生产新的第二样本集，具体实现新的第二样本集Xnew公式(9)和(10)如下：

其中，d为步长。对于离散字段，计算随机样本a的K个近邻中该离散字段的各取值的频数，选取频数最高的字段作为新样本该离散字段的值即目标频数值。若频数相同，则随机选取一个值作为该字段(即第二样本集)的目标频数值。

基于此，步骤140具体可以包括：根据目标频数值、至少一个近邻样本和边界样本集，生成包括少数类样本的第二样本集。

由此，本发明实施例利用GBDT对少数样本计算概率，根据概率值筛选并结合遗传算法选出有效的样本衍生新的样本，根据K个近邻，有选择地利用不同类的样本的信息，避免新生成的样本处于多数类中，提高了第二样本集生成样本的质量，有效避免了现有方案直接采用K近邻衍生目标样本的局限性，有效解决了样本边缘模糊化的问题。另外，本发明实施例中的方法改进了现有采样方案合成的新样本数量一定是少数类样本数目的整数倍的缺陷。本方案可以根据样本比例，生成任意数目的少数类样本，这能准确控制样本生成的数目，提高分类器的性能。

此外，本发明实施例中，为了对上述方法提供数据支持，具体结合现有技术和本发明实施例中提供的方法进行对比说明，具体方法如下所示：

首先，介绍一下对比说明的应用场景：为实现对家庭宽带流失用户的预测，利用1月份的数据构建模型，用2月份的数据测试各个方案的效果。其中，1月样本数据共计988018条，其中1月流失用户38070，正负样本比例为1：24.9，数据存在严重不平衡性.

具体采用的数据处理方法包括下述三种方式：

方式一：对1月份的数据不做任何处理。

方式二：根据现有的SMOTE算法1月份数据做处理，共计生成56924个正样本。

方式三：根据本发明实施例对1月份数据做处理，共计生成56924个正样本。具体过程如上述步骤110-140，重复上述操作56924次，并将第二样本集与第一样本集合并。

然后，对上述三种方式进行建模评估，其中，使用上述三种方式处理后的数据进行模型训练，并对2月份的数据进行预测，通过对比验证，发现本方案相对于SMOTE算法和不做处理的效果，本发明实施例提供的方式较好，具体数据可参照图2所示。

由此，与上述方式一和方式二相比，本发明实施例具有以下的技术优点：

(1)适用性广。本发明实施例利用KNN算法衍生样本的离散字段的值，有效解决了现有方案中无法对离散数据实现过采样的问题；利用one-hot编码对非数值型字段进行衍生，解决了现有的过采样方法不适用于字符型数据；将降维思想应用在SMOTE算法中，降低高纬度灾难的风险，使用范围更加广泛。

(2)准确识别。针对分类中样本数据不平衡的问题，少数类样本识别特征表现不明显的情况，提出的改进的过采样方法，有选择地利用不同类的样本信息，提升了新样本的质量，有效解决了样本不平衡问题下少数类难以识别的问题，使得模型识别的准确率有进一步的提升。

(3)样本数任意。针对现有方案合成的样本数量一定是少数类样本数目的整数倍的问题，本方案可以根据样本比例，生成任意数目的少数类样本，能够准确控制样本生成的数目，提高分类器的性能。

由此，基于上述方法，本发明实施例还提供了一种数据处理装置，具体结合图3进行说明。

图3为本发明实施例提供的一种数据处理装置结构示意图。

如图3所示，该数据处理装置30具体可以包括：

获取模块301，用于获取第一样本集中非数值型和/或离散型的字段数据；

调整模块302，用于对字段数据进行降维，得到与第一样本集相关的边界样本集；

处理模块303，用于根据第一样本集中每个样本的概率值，确定随机样本的至少一个近邻样本；

生成模块304，用于基于至少一个近邻样本和边界样本集，生成包括少数类样本的第二样本集。

其中，本发明实施例中的调整模块302具体可以用于，通过独热编码one-hot对字段数据进行编码，得到编码字段数据；

利用主成分分析PCA对编码字段数据进行降维，得到边界样本集。

在一种可能的实施例中，本发明实施例中的处理模块303还可以确定每个样本的概率值，其中，将第一样本集划分为第一训练集和第一预测集，第一训练集和第二训练集中分别包括多个样本；

通过梯度提升决策树GBDT算法对第一预测集进行预测，得到第一预测集中每个样本的概率值；

将第一样本集确定为第二预测集，以及将第一预测集确定为第二样本集；

通过GBDT算法对第二预测集进行预测，得到第二预测集中每个样本的概率值；

根据第一预测集中每个样本的概率值和第二预测集中每个样本的概率值，确定每个样本的概率值。

进一步地，本发明实施例中的处理模块303具体可以用于，根据第一样本集中每个样本的概率值通过K邻近算法，确定随机样本的至少一个近邻样本。

基于此，处理模块303具体可以用于，根据第一样本集中每个样本的概率值，得到随机数被选中的概率值；

将满足预设条件的概率值对应的随时数确定为随机样本；

根据随机样本确定随机样本的至少一个近邻样本。

此外，该数据处理装置30还可以包括：确定模块305。

在一种可能的实施例中，确定模块305可以用于，在至少一个近邻样本属于边界样本集中的样本的情况下，

通过合成少数类过采样SMOTE算法在随机样本和至少一个邻近样本对于连续数据进行差值计算，得到每个样本的第一频数值；

在多个第一频数值中选取满足第一预设频数条件的目标频数值；

将目标频数值确定为第二样本集的频数值。

在另一种可能的实施例中，确定模块305还可以用于，在至少一个近邻样本中包括未属于边界样本集中的样本的情况下，

通过遗传算法中步长变异算法在随机样本和至少一个邻近样本对于连续数据进行差值计算，得到每个样本的第二频数值；

在多个第二频数值中选取满足第二预设频数条件的目标频数值；

将目标频数值确定为第二样本集的频数值。

其中，若每个样本的第二频数值相同，则根据随机选取任意一个第二频数值作为目标频数值。

在一种可能的实施例中，本发明实施例中的生成模块304具体可以用于根据目标频数值、至少一个近邻样本和边界样本集，生成包括少数类样本的第二样本集。

在另一种可能的实施例中，本发明实施例中的生成模块304具体可以用于根据第一样本集中样本的个数，重复执行确定随机样本的至少一个近邻样本，并基于获得的近邻样本和边界样本集，生成第二样本集；其中，

第二样本集用于筛选任意样本集中的少数类样本；其中，少数类样本包括离网用户的特征数据。

图4为本发明实施例提供的一种终端设备的硬件结构示意图。

该终端设备400包括但不限于：射频单元401、网络模块402、音频输出单元403、输入单元404、传感器405、显示单元406、用户输入单元407、接口单元408、存储器409、处理器410、以及电源411等部件。本领域技术人员可以理解，图4中示出的终端设备结构并不构成对终端设备的限定，终端设备可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。在本发明实施例中，终端设备包括但不限于手机、平板电脑、笔记本电脑、掌上电脑、车载终端、可穿戴设备、以及计步器等。

应理解的是，本发明实施例中，射频单元401可用于收发信息或通话过程中，信号的接收和发送，具体的，将来自基站的下行资源接收后，给处理器410处理；另外，将上行的资源发送给基站。通常，射频单元401包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器、双工器等。此外，射频单元401还可以通过无线通信系统与网络和其他设备通信。

终端设备通过网络模块402为用户提供了无线的宽带互联网访问，如帮助用户收发电子邮件、浏览网页和访问流式媒体等。

音频输出单元403可以将射频单元401或网络模块402接收的或者在存储器409中存储的音频资源转换成音频信号并且输出为声音。而且，音频输出单元403还可以提供与终端设备400执行的特定功能相关的音频输出(例如，呼叫信号接收声音、消息接收声音等等)。音频输出单元403包括扬声器、蜂鸣器以及受话器等。

输入单元404用于接收音频或视频信号。输入单元404可以包括图形处理器(Graphics Processing Unit，GPU)4041和麦克风4042，图形处理器4041对在视频捕获模式或图像捕获模式中由图像捕获装置(如摄像头)获得的静态图片或视频的图像资源进行处理。处理后的图像帧可以显示在显示单元407上。经图形处理器4041处理后的图像帧可以存储在存储器409(或其它存储介质)中或者经由射频单元401或网络模块402进行发送。麦克风4042可以接收声音，并且能够将这样的声音处理为音频资源。处理后的音频资源可以在电话通话模式的情况下转换为可经由射频单元401发送到移动通信基站的格式输出。

终端设备400还包括至少一种传感器405，比如光传感器、运动传感器以及其他传感器。具体地，光传感器包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板4061的亮度，接近传感器可在终端设备400移动到耳边时，关闭显示面板4061和/或背光。作为运动传感器的一种，加速计传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别终端设备姿态(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；传感器405还可以包括指纹传感器、压力传感器、虹膜传感器、分子传感器、陀螺仪、气压计、湿度计、温度计、红外线传感器等，在此不再赘述。

显示单元406用于显示由用户输入的信息或提供给用户的信息。显示单元406可包括显示面板4061，可以采用液晶显示器(Liquid Crystal Display，LCD)、有机发光二极管(Organic Light-Emitting Diode,OLED)等形式来配置显示面板4061。

用户输入单元407可用于接收输入的数字或字符信息，以及产生与终端设备的用户设置以及功能控制有关的键信号输入。具体地，用户输入单元407包括触控面板4071以及其他输入设备4072。触控面板4071，也称为触摸屏，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板4071上或在触控面板4071附近的操作)。触控面板4071可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器410，接收处理器410发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板4071。除了触控面板4071，用户输入单元407还可以包括其他输入设备4072。具体地，其他输入设备4072可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆，在此不再赘述。

进一步的，触控面板4071可覆盖在显示面板4061上，当触控面板4071检测到在其上或附近的触摸操作后，传送给处理器410以确定触摸事件的类型，随后处理器410根据触摸事件的类型在显示面板4061上提供相应的视觉输出。虽然在图4中，触控面板4071与显示面板4061是作为两个独立的部件来实现终端设备的输入和输出功能，但是在某些实施例中，可以将触控面板4071与显示面板4061集成而实现终端设备的输入和输出功能，具体此处不做限定。

接口单元408为外部装置与终端设备400连接的接口。例如，外部装置可以包括有线或无线头戴式耳机端口、外部电源(或电池充电器)端口、有线或无线资源端口、存储卡端口、用于连接具有识别模块的装置的端口、音频输入/输出(I/O)端口、视频I/O端口、耳机端口等等。接口单元408可以用于接收来自外部装置的输入(例如，资源信息、电力等等)并且将接收到的输入传输到终端设备400内的一个或多个元件或者可以用于在终端设备400和外部装置之间传输资源。

存储器409可用于存储软件程序以及各种资源。存储器409可主要包括存储程序区和存储资源区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储资源区可存储根据手机的使用所创建的资源(比如音频资源、电话本等)等。此外，存储器409可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

处理器410是终端设备的控制中心，利用各种接口和线路连接整个终端设备的各个部分，通过运行或执行存储在存储器409内的软件程序和/或模块，以及调用存储在存储器409内的资源，执行终端设备的各种功能和处理资源，从而对终端设备进行整体监控。处理器410可包括一个或多个处理单元；优选的，处理器410可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器410中。

终端设备400还可以包括给各个部件供电的电源411(比如电池)，优选的，电源411可以通过电源管理系统与处理器410逻辑连接，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。

另外，终端设备400包括一些未示出的功能模块，在此不再赘述。

本发明实施例还提供一种计算机可读存储介质，其上存储有计算机程序，当计算机程序在计算机中执行时，令计算机执行本发明实施例的数据处理方法的步骤。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例的方法。

上面结合附图对本发明的实施例进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨和权利要求所保护的范围情况下，还可做出很多形式，均属于本发明的保护之内。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：张玉;张泽;詹灵月;余韦;梁恩磊;杨猛;彭依校;
专利申请人：中移信息技术有限公司;中国移动通信集团有限公司;

上一篇：一种抗菌剂及其制备方法和抗菌组合物
下一篇：一种蔬菜栽种机