1 描述统计量
1.1 位置与分散程度的度量
1.1.1 各种中间值
mean
数列的算术平均值,反应了数列的集中趋势,等于有效数值的合除以有效数值的个数
median
等于排序后中间位置的值,当数列长度为偶数时,取中间两个值的均值
mode
等于数列出现次数最多的数字,当多个数字都出现最高次数时,多个数字都是众数
1.1.2 各种平均数
arithmetic mean
population mean
简称 期望 ,是描述随机变量取值平均状况的数字特征。包括 离散型随机变量 的总体均值和连续型随机变量的总体均值。
geometric mean
用于计算增长率或平均利率。
harmonic mean
用于计算平均速度或电阻的平均数。
Note
算数平均数 ≥ 几何平均数 ≥ 调和平均数
1.1.3 数据的离散程度
分位数
- 四分位数 | quartile
- 将数据按从小到大的顺序排列并分成四等份时,位于各个分割点的数值。
- 按顺序排列的一组数据中位于正中间的数。不易受离群值的影响。
- 四分位距
- 第三四分位数与第一四分位数的差。数据越向中位数集中,四分位距就越小。
- 百分位数 | percentile
- 如果将一组数据从小到大排序,并计算相应的累计百分位,则某一百分位所对应数据的值就称为这一组数的百分位数。
偏差 Deviation ? Bias?why
表示的是每个数据与平均数的差
Variance
衡量离散程度的指标。用来衡量样本偏离均值的程度,或者描述数据取值分散性程度一个度量。
Standard Deviation
方差的算术平方根,用 σ 表示。在概率统计中最常使用作为统计分散分布程度上的测量依据。在概率统计中最常使用作为测量一组数值的离散程度之用。
Standard Error
描述平均数抽样分布的离散程度及衡量平均数抽样误差大小的尺度,反映样本平均数之间的变异。
离群值 | Outlier
Coefficient of Variation
标准差与平均数的比。用于比较单位不同的样本之间的离散程度。
1.2 变量的相关性
等级相关系数 | coefficient of rank correlation
测量两个定序变量之间相关程度的指标。等级相关系数中有斯皮尔曼等级相关系数和肯德尔等级相关系数。具体使用哪一个,没有明确的基准。
皮尔逊积矩相关系数 | Correlation - Pearson
- 相关系数 | coefficient of correlation
- …表示两个变量之间的关联(相关)程度的指标。相关系数越接近 1,正相关就越强;越接近 -1,负相关就越强;0 表示不相关。
斯皮尔曼等级相关系数 | Correlation - Spearman
被观测的两个变量的等级的差值
肯德尔等级相关系数