平均值与标准差
最后更新于
这有帮助吗?
最后更新于
这有帮助吗?
均值,以希腊小写字母μ代表,是统计学家用于描述信号平均值的术语。你可以按你预想的那样求到它:将所有采样点加在一起,然后除以N。它的数学形式是这样的:
总结一下,首先,累加xi,其下标i的取值范围为0至N-1。然后对求得的和除以N。这与此公式相同:μ =(x0 + x1 + x2 + ... + xN-1)/N。如果你不认识用于表示求和的符号∑(大写希腊字母Sigma),请仔细研究此方程式,并与图2-1中展示的计算机程序相比较。这种类型的求和在DSP中使用非常广泛,您需要充分理解这种表示法。在电子产品中,均值通常称为DC(直流)值。同样地,AC值则用于表示信号如何绕均值波动。如果信号时简单的重复波形,例如正弦波或矩形波,则其值可以使用峰峰值幅度来描述。不幸的是,大多数通过采样而来的信号其峰峰值无法明显显示,而是具有随机性,例如图2-1中的信号。在这种情况下,我们必须使用更通用的方法来描述信号的平均值,它就是标准差。
首先,式子|xi-μ|描述了第i个样品点偏离均值的大小。信号的平均偏差,是通过将所有样本点的偏差相加,然后除以样本数N得出的。请注意,在求和之前,我们需要对每个偏差取绝对值。否则,正负项的均值将是0。平均偏差用于代表样本与平均值之间的典型距离。虽然平均偏差方便直接,但平均偏差几乎从未在统计学中使用过。这是因为它与操作信号的物理原理不太吻合。在大多数情况下,重要的参数不是样本与均值之间的变差,而是与均值的偏差所表示的功率。例如,当电子电路中出现随机信号相互组合的情况,产生的噪声等于信号组合后的功率,而不等于信号组合后的幅值。
标准差与均差类似,不同的是,标准差不对幅值求平均,而对功率求平均。这是通过对每个偏差进行平方(请记住,功率∝电压²)之后再取平均值来实现。最后,对其开平方根,以补偿初始的平方。计算标准差的方程式如下:
另一种表示法:sigma = sqrt((x0 -μ)² + (x1 -μ)² + ... + (xN-1 -μ)² / (N-1))。请注意,平均值不是通过除以N,而是通过除以N-1而得到的。这是该公式的一个细微特征,将在下一步分钟讨论。σ²在统计学资料中经常出现,并被命名为方差。标准差是信号与平均值之间的波动幅度的度量。方差代表这种波动的功率。另一个你应该熟悉的术语是RMS(root-mean-square均方根值),常用于电子产品中。根据定义,标准差仅仅测量信号的交流分量,而均方根值则测量了交流和直流分量。如果信号没有直流分量,则其均方根值与其标准差相同。图2-2展示了几种常见波形的标准差与峰峰值之间的关系。
表2-1列出了一个使用2-1和2-2中的公式来计算平均值和标准差的计算机例程。本书中的程序旨在用最直观的方式描述算法;其余的因素均被视为次要因素。如果良好的编程技巧仅能使程序逻辑变得更清晰,则将被忽略。例如:使用BASIC语言的简化版本,包括行号,唯一允许的控制结构是FOR-NEXT循环,没有I/O语句,等等。请将这些程序视为一种可选的用于理解DSP中的方程式的方法。如果你无法掌握其中的一种,或许另一种可能会有所帮助。在BASIC语言中,变量名后的%符号指示其是一个整型变量。其他所有的变量都是浮点型。第四章详细讨论了这些变量的类型。
这种计算均值和标准差的方法足以满足许多应用的需求。但是,它有两个限制。首先,如果均值比标准值大得多,2-2式涉及到减去两个数值非常接近的数字。这可能会导致计算中的舍入误差过大,这是将在第四章中进一步讨论的话题。第二,通常需要在获取新样本并将其添加到已有信号内后重新计算平均值和标准偏差。我们将这种计算称为:运行统计。尽管可以使用式2-1和2-2的方法来进行运行统计,它要求每次计算都要将所有样本点包含在内。这是一种非常低效的使用计算能力和内存的方法。
可以通过修改式2-1和2-2,来提供另一种计算标准差的方法,使上述问题得到解决:
在信号中移动时,运行中的积分表将保持三个参数:(1)已处理的样本数,(2)这些样本的总和,(3)样本平方的总和(即,对每个样本的值求平方,然后将结果与累加值相加)。在处理了任意数量的样本之后,仅使用三个参数的当前值就可以有效地计算出平均值和标准差。表2-2展示了另一个程序,该程序以上述方式持续报告平均值和标准差,同时考虑了每个新样本的值。这是手持计算器中用于查找数字序列统计信息的方法。每次输入数字,并按下∑(求和)键,三个参数都将会更新。然后就可以在需要时快速找到平均值和标准差。
在结束有关平均值和标准差的讨论之前,需要提到另外两个专业术语。在某些情况下,平均值描述了被测量的主要内容,而标准偏差则代表了噪声和其他干扰。在这些情况下,仅与平均值相比,标准差本身并不重要。这就产生了一个术语:信噪比(SNR),它等于平均值除以标准差。还产生了另外一术语:变异系数(CV)。它被定义为标准差除以平均值再乘以100%。例如,CV为2%的信号(或其他组测量值)的SNR为50%。更高质量的数据意味着SNR的值更高,而CV的值更低。