数据分析是指用适当的统计分析方法对收集来的大量数据进行分析,将它们加以汇总和理解并消化,以求最大化地开发数据的功能,发挥数据的作用。数据分析是为了提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。
数据也称为观测值,是实验、测量、观察、调查等的结果。在我们日常生活中所有的观测值都是数据,可以拿来进行分析。需要注意的是,数据分析是有目的的、有步骤的和有结果的行为。
思考:你知道有哪些数据分析方法和软件吗?
数据分析的具体步骤可分为数据处理与统计和数据可视化,在现有的工具中都或多或少包含上述两种功能。对于数据处理与统计,基本上所有可以完成基本计算的软件都可以用来进行统计。
数据统计的关键指标包括:
在上述数据分析软件中,R
、SAS
、SPSS
和Stata
在数学领域使用的较多,SQL
和Pyhton
在计算机领域使用的较多。在互联网企业SQL和Python是最为常见的数据处理和分析软件。
由于本次赛题的数据字段众多,有经纬度、日期和订单等复杂类型,因此比较建议使用Python软件进行分析,实现起来比较快速。当然如果想使用R或者SQL来做数据处理也是可以的,但可能会更加费事一些。
我们日常生活中充满了各类数据,也有多种数据类型划分方法:
不同类型的数据会有不同的数据存储方法和统计方法,也需要不同类型的可视化方法来完成。
数据可视化方法有非常多种,具体可以根据数据类型、对比方法和展示方法进行细分:
明确分析目的和思路
收集数据
数据统计处理
数据分析与可视化
报告撰写
描述性数据分析(Descriptive Data Analysis,DDA)属于比较初级的数据分析,常见的分析方法包括对比分析法、平均分析法、交叉分析法等。描述性统计分析要对调查总体所有变量的有关数据做统计性描述,主要包括数据的频数分析、数据的集中趋势分析、数据离散程度分析、数据的分布、以及一些基本的统计图形。
探索性数据分析(Exploratory Data Analysis,EDA)主要的工作是:对数据进行清洗,对数据进行描述(描述统计量,图表),查看数据的分布,比较数据之间的关系,培养对数据的直觉,对数据进行总结等。
探索性数据分析(EDA)与传统统计分析(Classical Analysis)的区别:
传统的统计分析方法通常是先假设样本服从某种分布,然后把数据套入假设模型再做分析。但由于多数数据并不能满足假设的分布,因此,传统统计分析结果常常不能让人满意。
探索性数据分析方法注重数据的真实分布,强调数据的可视化,使分析者能一目了然看出数据中隐含的规律,从而得到启发,以此帮助分析者找到适合数据的模型。“探索性”是指分析者对待解问题的理解会随着研究的深入不断变化。
应用传统统计分析方法的数据分析步骤:
应用探索性数据分析方法的数据分析步骤:
验证型数据分析(Confirmatory Data Analysis, CDA)根据数据样本所提供的证据,肯定还是否定有关总体的声明。
假设验证的基本流程:
1.提出零假设(我们希望推翻的结论),及备择假设(我们希望证明的结论)
2.在零假设的前提下,推断目前样本统计量出现的概率 *统计量可符合不同分布,即对应不同的检验方法
3.设定一个拒绝零假设的阈值(常见5%,及统计学意义“显著”,significant),如果目前样本统计量在零假设下出现的概率小于阈值,则拒绝零假设,承认备择假设。
如果学习Python
环境下的数据分析,可以参考以下步骤:
Python
基础:语法、网络编程基础、爬虫;Pandas
、Numpy
等数据处理软件;Matplotlib
、Searborn
和foilum
等数据可视化软件;© 2019-2023 coggle.club 版权所有 京ICP备20022947 京公网安备 11030102010643号