【相关系数r的计算公式】在统计学中,相关系数(Correlation Coefficient)是衡量两个变量之间线性关系密切程度的一个指标。其中,最常用的是皮尔逊相关系数(Pearson Correlation Coefficient),记作 r,其取值范围在 -1 到 1 之间。当 r 接近 1 或 -1 时,表示两个变量之间存在较强的正或负线性关系;当 r 接近 0 时,表示两者之间几乎没有线性关系。
一、相关系数r的计算公式
相关系数r的计算公式如下:
$$
r = \frac{n\sum xy - (\sum x)(\sum y)}{\sqrt{[n\sum x^2 - (\sum x)^2][n\sum y^2 - (\sum y)^2]}}
$$
其中:
- $ n $ 是数据对的数量;
- $ x $ 和 $ y $ 分别是两组数据;
- $ \sum x $ 是x的总和;
- $ \sum y $ 是y的总和;
- $ \sum xy $ 是x与y对应乘积的总和;
- $ \sum x^2 $ 是x的平方和;
- $ \sum y^2 $ 是y的平方和。
二、相关系数r的含义
相关系数r的值 | 含义 |
r = 1 | 完全正相关,所有点都落在一条直线上,且斜率为正 |
0 < r < 1 | 正相关,随着x增加,y也倾向于增加 |
r = 0 | 没有线性相关关系 |
-1 < r < 0 | 负相关,随着x增加,y倾向于减少 |
r = -1 | 完全负相关,所有点都落在一条直线上,且斜率为负 |
三、相关系数r的使用注意事项
1. 仅适用于线性关系:相关系数只能反映变量之间的线性关系,不能说明非线性关系。
2. 受异常值影响大:数据中如果有极端值,可能显著影响相关系数的结果。
3. 因果关系不等于相关关系:相关性并不意味着因果关系,两个变量可能因为第三个变量而相关。
4. 样本大小影响结果:小样本可能导致相关系数不稳定,需结合置信区间分析。
四、示例计算
假设我们有以下两组数据:
x | y |
1 | 2 |
2 | 4 |
3 | 6 |
4 | 8 |
根据公式计算:
- $ n = 4 $
- $ \sum x = 1 + 2 + 3 + 4 = 10 $
- $ \sum y = 2 + 4 + 6 + 8 = 20 $
- $ \sum xy = (1×2) + (2×4) + (3×6) + (4×8) = 2 + 8 + 18 + 32 = 60 $
- $ \sum x^2 = 1² + 2² + 3² + 4² = 1 + 4 + 9 + 16 = 30 $
- $ \sum y^2 = 2² + 4² + 6² + 8² = 4 + 16 + 36 + 64 = 120 $
代入公式:
$$
r = \frac{4×60 - 10×20}{\sqrt{[4×30 - 10^2][4×120 - 20^2]}} = \frac{240 - 200}{\sqrt{(120 - 100)(480 - 400)}} = \frac{40}{\sqrt{20×80}} = \frac{40}{\sqrt{1600}} = \frac{40}{40} = 1
$$
因此,这组数据的相关系数为 r = 1,表示完全正相关。
五、总结
相关系数r是衡量两个变量之间线性关系强度和方向的重要工具。通过合理计算和解读,可以帮助我们更好地理解数据之间的联系。但需要注意,它并不能解释因果关系,也不能处理非线性关系。在实际应用中,应结合图表和其他统计方法进行综合分析。