【Data Science · Statistics 01】关于统计我们在聊些什么

1.1 统计学是什么？

Statistics is a mathematical body of science that pertains to the collection, analysis, interpretation or explanation, and presentation of data.

1.1.1 定义

统计学是围绕数据展开的科学，涉及数据的收集，处理，分析，解释推断和呈现，并从数据中得出结论。

故也不难解释关于数据科学的系列文章选择从统计学开始讲起。

统计分析的研究对象是来自各领域的数据。数据收集即获取统计数据；数据处理即将获取的统计数据经过整理、筛选、汇总等一系列步骤，用图表等恰当的方式呈现出来；数据分析即选择合适的统计方法研究数据，并从中发现有价值的信息进而得出结论或作出推断。

1.1.2 分类

描述统计（descriptive statistics），描述或总结数据的基本情况，主要处理关于叙述的问题——以数学或图表的形式。基本的数学描述包括平均数、标准差、偏态系数等。基本的图表则包括条形图、饼图、线图、散点图等。

推断统计（inferential statistics），研究如何利用样本数据作出对于总体数据特征的推论。包括假设检验，相关性预测，时间序列预测等。

1.2 统计数据有哪些？

1.2.1 不同的收集方法

观测数据（observational data），通过调查或观测收集到的数据。这类数据通常是在没有对事物实施人为控制的条件下获得的，例如有关于社会经济现象的统计数据几乎都是观测数据。

实验数据（experimental data)，在实验中控制实验对象而收集到的数据，自然科学领域的大多数数据是实验数据，比如针对某种传染疾病的疫苗预防效果的实验数据。

1.2.2 不同的计量尺度

分类数据（categorical data），非数字型，使用分类尺度（nominal scale），按照事物的某种属性对其进行的分类。数据表现为类别，用文字来表述。例如，人口按照性别分为男、女两类。

顺序数据（rank data），非数字型，使用顺序尺度（ordinal scale）。数据表现为有序的类别，用文字来表述。例如，考试成绩可以分为优、良、中、及格、不及格等。与分类数据的区别在于类别是否有序。

为便于统计处理，分类数据和顺序数据都可以用数字代码来表示各个类别。比如用 1 代表分类数据中的“男性”，0 代表“女性”；用 1 代表顺序数据中的“优”，2 代表“良”，3 代表“中”，4 代表“及格“，5 代表”不及格“。值得注意的是，此处的数字无法反应数量关系。

数值型数据（metric data），数值型，使用间隔尺度（interval scale）和比率尺度（ratio scale）。比如2019年6-8月北京地区的每日监测气温及某款冰激凌在北京地区连续三个月的每日销售量，气温使用的是间隔尺度，冰激凌销售量使用的是比率尺度，气温和冰激凌销售量都是数值型数据。（PS：间隔尺度无绝对零点，比率尺度有绝对零点）

分类数据和顺序数据说明的是事物的品质特征，均表现为类别，通常用文字来描述，故可统称为定性数据或品质数据（qualitative data）；数值型数据说明的是现象的数量特征，通常用数值来表现，因此也称为定量数据或数量数据（quantitative data）。

1.2.3 不同的时间状况

截面数据（cross-sectional data），在相同或相似相同的时间点上收集的数据，通常在不同的空间获得，用于描述现象在某一时刻的变化情况。例如，2018年我国各省份地区的国内生产总值。

时间序列数据（time series data），在不同时间节点收集的数据，通常按照时间顺序收集，用于描述现象随时间变化的情况。例如，2013年-2019年全国国内生产总值。

1.3 关于统计我们还需要知道些什么？

1.3.1 总体和样本

总体（population)，又称母体或者整体，是包含所研究的全部个体（数据）的集合，由许多有某种共同性质的事物组成。举个栗子，若要研究2019年“剁手节”三大电商平台某宝、某东、某多多上消费者的平均“剁手金额”，那研究总体便是参与了三大电商平台“剁手节”的全体消费者（可能也包括你这个小可爱）。

总体根据包含的单位数目是否可数可以分为有限总体和无限总体。有限总体的范围能够明确界定，且元素数量是有限可数的，例如上文中参与电商“剁手节”的全体消费者。相对应的，无限总体是指总体中所包括的元素是无限不可数的，比如科研实验中，每组实验结果都可以看做总体的一个元素，如果实验可以无限地进行下去，则由实验结果构成的总体就是一个无限总体。

那为什么要将总体划分为有限总体和无限总体呢？因为这样可以在抽样中判断每次抽取是否独立。对于无限总体，每抽取一个单位，其余下的单位数目仍然是无限的，不会影响下一次的抽样结果，因此每次抽取都可以视为是相互独立的。对于有限总体，抽取一个单位后（且不放回），总体元素的数目减少一个，前一次的抽样结果就会影响下一次的抽样结果，因此每次抽取就是不独立的。这些会影响到抽验推断的结果。

样本（sample）是从总体中抽取的一部分元素的集合，构成样本的元素的数目称为样本量（sample size）。抽样的目的是根据样本提供的信息推断总体的特征。例如，随机抽取三大电商平台的注册用户并发放调查问卷，研究其在“剁手节”的购物成果，那被调查的注册用户即为样本。

1.3.2 参数和统计量

参数（parameter）是用来描述总体特征的概括性数字度量，通常用希腊字母来表示，例如总体平均数（μ）、总体标准差（σ）、总体比例（π）等。

统计量（statistic）是用来描述样本特征的概括性数字度量，通常用英文字母来表示，例如样本平均数（x̄）、样本标准差（s）、样本比例（p）等。

抽样的目的就是要根据样本统计量去估计总体参数。 例如用样本平均数（x̄）去估计总体平均数（μ），用样本标准差（s）去估计总体标准差（σ），用样本比例（p）去估计总体比例（π）等等。

1.3.3 变量

变量（variable）是说明现象某种特征的概念，其特点是从一次观察到下一次观察结果会呈现出差别或变化。变量的具体取值称为变量值。举个栗子，变量可以是“订单金额”、“商品销售额”、“商品销售量”。“订单金额”可以是1元，也可以是10000元，这些数字就是变量值。

变量也可以分类，大致有以下几种类型：分类变量（categorical variable），取值是分类数据；顺序变量（rank variable），取值是顺序数据；数值型变量（metric variable），取值是数值型数据。还有随机变量、非随机变量、经验变量（empirical variable）、理论变量（theoretical variable）。

1.4 思维导图总结

参考资料：
[1] Moses, Lincoln E. (1986) Think and Explain with Statistics, Addison-Wesley, ISBN 978-0-201-15619-5. pp. 1–3
[2] 贾俊平等.,统计学（第七版）[M]，北京，中国人民大学出版社，2018年1月

原创文章，作者：王得宇AIPM，如若转载，请注明出处：https://www.pmtemple.com/silence/10683/