数据挖掘过程中：数据预处理-白红宇

数据挖掘过程中：数据预处理

阅读量：5942 次

发布时间：2019-06-19

本文共 2060 字，大约阅读时间需要 6 分钟。

原文：http://www.itongji.cn/article/0Q926052013.html

在之前，我们通常需要先将数据标准化（normalization），利用标准化后的数据进行。数据标准化也就是统计数据的指数化。数据标准化处理主要包括数据同趋化处理和无量纲化处理两个方面。数据同趋化处理主要解决不同性质数据问题，对不同性质指标直接加总不能正确反映不同作用力的综合结果，须先考虑改变逆指标数据性质，使所有指标对测评方案的作用力同趋化，再加总才能得出正确结果。数据无量纲化处理主要解决数据的可比性。数据标准化的方法有很多种，常用的有“最小—最大标准化”、“Z-score标准化”和“按小数定标标准化”等。经过上述标准化处理，原始数据均转换为无量纲化指标测评值，即各指标值都处于同一个数量级别上，可以进行综合测评分析。

数据的标准化过程也是归一化的过程。

数据的标准化（normalization）是将数据按比例缩放，使之落入一个小的特定区间。在某些比较和评价的指标处理中经常会用到，去除数据的单位限制，将其转化为无量纲的纯数值，便于不同单位或量级的指标能够进行比较和加权。

数据归一化的目的是为了把不同来源的数据统一到一个参考系下，这样比较起来才有意义。

1 定义

归一化就是要把你需要处理的数据经过处理后（通过某种算法）限制在你需要的一定范围内。首先归一化是为了后面数据处理的方便，其次是保正程序运行时收敛加快。

2 为什么要用归一化呢？

首先先说一个概念，叫做奇异样本数据，所谓奇异样本数据数据指的是相对于其他输入样本特别大或特别小的样本矢量。

下面举例：

m=[0.11 0.15 0.32 0.45 30;

0.13 0.24 0.27 0.25 45];

其中的第五列数据相对于其他4列数据就可以成为奇异样本数据（下面所说的网络均值bp）。奇异样本数据存在所引起的网络训练时间增加，并可能引起网络无法收敛，所以对于训练样本存在奇异样本数据的数据集在训练之前，最好先进形归一化，若不存在奇异样本数据，则不需要事先归一化。

3 归一化方法

主要有如下几种，供大家参考：（by james）

（1）线性函数转换，表达式如下：

y=(x-MinValue)/(MaxValue-MinValue)

说明：x、y分别为转换前、后的值，MaxValue、MinValue分别为样本的最大值和最小值。

在统计学中，归一化的具体作用是归纳统一样本的统计分布性。归一化在0-1之间是统计的概率分布，归一化在-1--+1之间是统计的坐标分布。

（2）对数函数转换，表达式如下：

y=log10(x)

说明：以10为底的对数函数转换。

进行Log分析时，会将原本绝对化的时间序列归一化到某个基准时刻，形成相对时间序列，方便排查。

通过以10为底的log函数转换的方法同样可以实现归一下，具体方法也可以如下：

看了下网上很多介绍都是x‘=log10(x)，其实是有问题的，这个结果并非一定落到[0,1]区间上，应该还要除以 log10(max)，max为样本数据最大值，并且所有的数据都要大于等于1。

（3）反余切函数转换，表达式如下：

y=atan(x)*2/PI

归一化是为了加快训练网络的收敛性，可以不进行归一化处理

（4）z-score 标准化(zero-mean normalization)

也叫标准差标准化，经过处理的数据符合标准正态分布，即均值为0，标准差为1，其转化函数为：

其中μ为所有样本数据的均值，σ为所有样本数据的标准差。

4 在matlab里面，用于归一化的方法共有三种:

（1）premnmx、postmnmx、tramnmx

（2）prestd、poststd、trastd

（3）是用matlab语言自己编程。

premnmx指的是归一到[－1 1]；prestd归一到单位方差和零均值；关于自己编程一般是归一到[0.1 0.9] 。

5 注意

需要说明的事并不是任何问题都必须事先把原始数据进行规范化,也就是数据规范化这一步并不是必须要做的,要具体问题具体看待,测试表明有时候规范化后的预测准确率比没有规范化的预测准确率低很多.就最大最小值法而言,当你用这种方式将原始数据规范化后,事实上意味着你承认了一个假设就是测试数据集的每一模式的所有特征分量的最大值(最小值)不会大于(小于)训练数据集的每一模式的所有特征分量的最大值(最小值),但这条假设显然过于强,实际情况并不一定会这样.使用平均数方差法也会有同样类似的问题.故数据规范化这一步并不是必须要做的,要具体问题具体看待.

归一化首先在维数非常多的时候，可以防止某一维或某几维对数据影响过大，其次可以程序可以运行更快。方法很多，min-max,z-score,p范数等，具体怎么使用，要根据数据集的特征来选择。

(责任编辑：黑阳)

转载于:https://www.cnblogs.com/zhizhan/p/4676085.html

你可能感兴趣的文章