第1章 探索性数据分析
1.1 结构化数据的组成
术语
- 连续型数据:可以在一个区间内取任何值。同义词:区间数据,浮点型数据,数值数据。
- 离散型数据:数据只能取整数,例如计数。同义词:整数型数据,计数型数据。
- 分类型数据:数值只能从特定的集合中取值,表示一系列可能的分类。同义词:枚举数据,列举数据,因子数据,标称数据,多分支数据。
- 二元数据:一种特殊的分类数据,数值只能从两个值中取一个。同义词:二分数据,逻辑型数据,指示性数据,布尔型数据。
- 有序数据:具有明确排序的分类数据。同义词:有序因子数据。
1.2 矩形数据
矩形数据对象是数据科学分析中典型引用结构,矩形数据对象包括电子表格,数据库表格等。
矩形数据本质是一个二维矩阵。通常一行表示一个记录(事例),列表示特征(变量)。数据通常并非一开始就是矩形形式的,先经过处理,才能转换为相应形式。
1.3 位置估计
变量表示了测量数据或者计数数据。探索数据的一个基本步骤就是获取每个特征(变量)的“典型值”。典型值是对数据最常出现位置的估计,即数据的集中趋势。
术语
| 术语 | 定义 | 同义词 |
| ---------- | ---------------------------------------------------------- | ------------ |
| 均值 | 所有数据之和除以数值的个数 | 平均数 |
| 加权均值 | 各数值乘以相应的权重值,相加求和,再除以权重总和。 | 加权平均值 |
| 中位数 | 使得数据集中有一半数据位于该值之上和之下 | 第50百分位数 |
| 加权中位数 | 使得排序数据集中,分别有一半的权重之和位于该值之上和之下。 | |
| 切尾均值 | 从数据集中剔除一定数量的极值后,再求均值。 | 截尾均值 |
| 稳健 | 对极值不敏感 | 耐抗性 |
| 离群值 | 与大部分数值差异很大的数据值。 | 极值 |
度量和估计量
- 统计学的核心在于如何解释不确定度,因而使用估计量(estimate)
- 数据科学则关注如何解决一个具体的商业或企业目标,因而使用度量(metric)。
1.3.1 均值
均值(Mean),又成为__平均值__。均值等于所有值的和除以值的个数。给定n个数据值:,均值计算公式:
通常使用(或者)表示记录值或观测值的总数。在统计学中,用大写字母表示总体;用小写字母表示总体中的一个样本。
- __切尾均值(Trimmed Mean)__是均值的一个变体。如果使用表示一个有序数据集,其中是最小值,是最大值,那么去除 个最大值和个最小值的切尾均值的计算公式为:
切尾均值消除了极值对均值的影响。举例,比赛中评委打分。
- 加权均值(Weighted Mean)
使用加权均值:
- 一些值本质上要比其他的值更为多变,因此需要对多变的观测值赋予较低的权重。
- 所采集的数据可能并未准确地表示我们想要测量的不同群组。
1.3.2 中位数和稳健估计量(Robust Estimates)
-
中位数(median) 是位于有序数据集中间位置处的数值。
-
离群值(Outliers) 是距离数据集中其他所有值都很远的值。我们称中位数为一种对位置的稳健估计量,因为它不会受离群值(极端情况)的影响,而离群值会使结果产生偏差。