任务0:准备工作


## 学习目标

  • 对数据分析有有一点感性的认知,了解数据分析的用途;
  • 对数据分析中数据处理和可视化软件有初步了解;
  • 理解数据分析的流程和步骤;

## 数据分析

### 数据分析介绍

数据分析是指用适当的统计分析方法对收集来的大量数据进行分析,将它们加以汇总和理解并消化,以求最大化地开发数据的功能,发挥数据的作用。数据分析是为了提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。

数据也称为观测值,是实验、测量、观察、调查等的结果。在我们日常生活中所有的观测值都是数据,可以拿来进行分析。需要注意的是,数据分析是有目的的、有步骤的和有结果的行为。

思考:你知道有哪些数据分析方法和软件吗?

数据分析的具体步骤可分为数据处理与统计和数据可视化,在现有的工具中都或多或少包含上述两种功能。对于数据处理与统计,基本上所有可以完成基本计算的软件都可以用来进行统计。

数据统计的关键指标包括:

  • 均值、中位数、众数体现了数据的集中趋势
  • 极差、方差、标准差体现了数据的离散程度
  • 偏度、峰度体现了数据的分布形状

### 数据分析软件

在上述数据分析软件中,RSASSPSSStata在数学领域使用的较多,SQLPyhton在计算机领域使用的较多。在互联网企业SQL和Python是最为常见的数据处理和分析软件。

由于本次赛题的数据字段众多,有经纬度、日期和订单等复杂类型,因此比较建议使用Python软件进行分析,实现起来比较快速。当然如果想使用R或者SQL来做数据处理也是可以的,但可能会更加费事一些。


## 数据分析与数据类型

我们日常生活中充满了各类数据,也有多种数据类型划分方法:

  • 定性数据与定量数据;
  • 数据类型划分:课将统计数据分为布尔型、类别型、数值型和日期型数据;

不同类型的数据会有不同的数据存储方法和统计方法,也需要不同类型的可视化方法来完成。


## 数据分析与可视化方法

数据可视化方法有非常多种,具体可以根据数据类型、对比方法和展示方法进行细分:


## 数据分析流程

graph LR A(明确分析目的和思路) -->B(收集数据) B -->C(数据统计处理) C -->D(数据分析与可视化) D -->E(报告撰写)
  1. 明确分析目的和思路

  2. 收集数据

  3. 数据统计处理

  4. 数据分析与可视化

  5. 报告撰写

### 描述型数据分析

描述性数据分析(Descriptive Data Analysis,DDA)属于比较初级的数据分析,常见的分析方法包括对比分析法、平均分析法、交叉分析法等。描述性统计分析要对调查总体所有变量的有关数据做统计性描述,主要包括数据的频数分析、数据的集中趋势分析、数据离散程度分析、数据的分布、以及一些基本的统计图形。

  1. 集中趋势的描述性统计量
  • 均值:是指一组数据的算术平均数,描述一组数据的平均水平,是集中趋势中波动最小、最可靠的指标,但是均值容易受到极端值(极小值或极大值)的影响。
  • 中位数:是指当一组数据按照顺序排列后,位于中间位置的数,不受极端值的影响,对于定序型变量,中位数是最适合的表征集中趋势的指标。
  • 众数:是指一组数据中出现次数最多的观测值,不受极端值的影响,常用于描述定性数据的集中趋势。
  1. 离散程度的描述性统计量
  • 最大值最小值:是一组数据中的最大观测值和最小观测值
  • 极差:又称全距,是一组数据中的最大观测值和最小观测值之差,记作R,一般情况下,极差越大,离散程度越大,其值容易受到极端值的影响。
  • 方差标准差:是描述一组数据离散程度的最常用、最适用的指标,值越大,表明数据的离散程度越大。
  1. 分布形态的描述性统计量
  • 偏度:用来评估一组数据的分布呈先的对称程度,当偏度=0时,分布是对称的;当偏度>0时,分布呈正偏态;当偏度<0时,分布呈负偏态。

### 探索型数据分析

探索性数据分析(Exploratory Data Analysis,EDA)主要的工作是:对数据进行清洗,对数据进行描述(描述统计量,图表),查看数据的分布,比较数据之间的关系,培养对数据的直觉,对数据进行总结等。

探索性数据分析(EDA)与传统统计分析(Classical Analysis)的区别:

  • 传统的统计分析方法通常是先假设样本服从某种分布,然后把数据套入假设模型再做分析。但由于多数数据并不能满足假设的分布,因此,传统统计分析结果常常不能让人满意。

  • 探索性数据分析方法注重数据的真实分布,强调数据的可视化,使分析者能一目了然看出数据中隐含的规律,从而得到启发,以此帮助分析者找到适合数据的模型。“探索性”是指分析者对待解问题的理解会随着研究的深入不断变化。

应用传统统计分析方法的数据分析步骤:

graph LR A(提出问题 Problem) -->B(准备数据 Data) B -->C(建模 Model) C -->D(分析 Analysis) D -->E(得出结论 Conclusions)

应用探索性数据分析方法的数据分析步骤:

graph LR A(提出问题 Problem) -->B(准备数据 Data) B -->C(分析 Analysis) C -->D(建模 Model ) D -->E(得出结论 Conclusions)

### 验证型数据分析

验证型数据分析(Confirmatory Data Analysis, CDA)根据数据样本所提供的证据,肯定还是否定有关总体的声明。

假设验证的基本流程:

1.提出零假设(我们希望推翻的结论),及备择假设(我们希望证明的结论)

2.在零假设的前提下,推断目前样本统计量出现的概率 *统计量可符合不同分布,即对应不同的检验方法

3.设定一个拒绝零假设的阈值(常见5%,及统计学意义“显著”,significant),如果目前样本统计量在零假设下出现的概率小于阈值,则拒绝零假设,承认备择假设。


## 学习资源

### 数据分析学习路线

如果学习Python环境下的数据分析,可以参考以下步骤:

  1. Python基础:语法、网络编程基础、爬虫;
  2. PandasNumpy等数据处理软件;
  3. MatplotlibSearbornfoilum等数据可视化软件;

## 课堂任务

  1. 思考一下本节讲过的内容,如果上手做数据分析,还需要哪些知识点?
  2. 不同类型的数据如何进行分布分析?
  3. 你用过上述哪一种分析软件,你感觉哪种比较容易?

## 打卡任务

  1. 比赛官网下载赛题2的数据,注册流程手册
  2. 在本地安装配置好PandasNumpy的环境;
  3. 方差与标准差的区别是什么?




© 2019-2021 coggle.club 版权所有     京ICP备20022947    京公网安备 11030102010643号