10周入门数据分析丨不可不知的描述性统计

统计学需要掌握的知识,在数据分析过程中,广泛用于数据质量处理,分析模型构建以及数据挖掘。今天这篇文章将详细讲统计学中最基础的描述统计。

10周入门数据分析

试想,当你拿到一份数据会怎么做?二话不说做个图?
此前也无数次强调,拿到数据需要观察数据情况和数据质量,对数据进行描述统计分析,以发现其内在的规律,再选择进一步分析的方法。

什么是描述性统计?

描述性统计分析要对调查总体所有变量的有关数据做统计性描述,主要包括数据的频数分析、数据的集中趋势分析、数据离散程度分析、数据的分布、以及一些基本的统计图形。
常用的指标有均值、中位数、众数、方差、标准差等等。数据的集中趋势一般采用平均值、中位数表示。数据的离散程度一般采用方差、标准差表示。数据的分布情况一般采用直方图表示。
具体概念前一篇有做详解,就不赘述了。接下来我将用Excel来分别解释每一种统计方法的应用以及这些统计方法在Excel中的实现方式。

Excel数据分析工具库

专业的统计分析工具有SPSS,R或Python,但对于大部分新手一天两天比较难上手。永远不要忘记万能的Excel,Excel 2016 里自带以了一个统计分析工具——“分析工具库”。实际上就是一个外部宏(程序)模块,专门为用户提供一些高级统计函数和实用的数据分析工具。
分析工具库内置了19个模块,可以分为以下几大类:

Excel数据分析工具库.png

加载EXCEL分析工具库

首先你得要有Excel 2016 。( 文末有获取方式 )
安装好2016版后,文件—选项—切换到“加载项”选项卡,在“管理”下拉列表中选择“EXCEL加载项”选项,单击“转到”按钮,跳转到如下“加载宏”对话框,勾选“分析工具库”复选框,再单击“确定”按钮。

加载EXCEL分析工具库.png

以上一波操作后,“数据”选项卡中会显示出添加的“数据分析”功能。

Excel数据分析功能.png

案例分析:

现在有一份北京房价数据:
1)北京市政府为调控房地产价格,希望知道北京各小区房屋价格的分布,请分析房地产价格的集中趋势,并选择合适的图形呈现。
2)房地产商想知道北京各个环线房屋装修状况的对比情况,以便进行产品设计和市场拓展,计算指标并设计合适的图形呈现结果,最后给房地产商一些建议。
3)选择合适的图形反映北京各个区住宅区房屋分布情况

操作步骤:

基本描述统计打开excel数据文件
选择描述统计,单击“确定”按钮。

Excel描述统计.png

随后,就会生成如下的统计分析结果,就省得一个个函数去计算了。

Excel函数计算.png

直方图

根据描述统计的结果,在空白列构造间隔为0.5的等差数列作为接收区域D1:D19,最大值为9,最小值为0。

直方图.png

选择数据,单击“数据”选项卡,选择“数据分析”选项框中的“直方图”选项
输入区域选择房屋价格avgprice列$B$2:$B$186,接收区域选择第一步构造的接收数据,即D1:D19数据。
输出区域选择G3,勾选图表输出,然后单击“确定”按钮。

Excel直方图设置.png

Excel直方图.png

选中整个直方图,右键单击选择“设置数据系列格式”,单击“系列选项”,分类间距设为0。
可以看出,北京的房价普遍分布在2W~4.5W,2.5W占绝大多数。

关于直方图

直方图是描述统计中很常见的一个应用,不同直方图代表的业务意义不同。

直方图规范.png

箱型图

对于数据的离散情况,还有一个更直观的方法,就是箱线图。箱线图利用6个指标描述数据的离散情况。这6个指标分别是最小值,第一四分位数、中位数、第三四分位数与最大值和异常值。

  • 中位数:中位数是一组从小到大排序数据中位置在最中间的一个数据(两个数据取均值)。
  • 第1(下)四分位数:第1四分位数与中位数算法类似,是对一组数据中50%数据再取中位数。一组数据中如果有25%的数据小于这个数,那么这个数是第1四分位数。
  • 第3(上)四分位数:一组数据中如果有75%的数据小于这个数据,那么这个数是第3四分位数。
  • 异常值:异常值是指这个数据与四分位数的差达到5倍的值。箱线图中异常值的表示方法有两种,1.5倍-3倍差之间用空心的点表示。超过3倍的异常值,用实心点表示。
  • 上限和下限数:除了异常值之外,最靠近上边缘和下边缘的两个数值为上限数和下限数。

箱型图.png

现在来了解北京各区的房价分析,把他加工成箱型图,这也是最常用的描述统计图表。
Excel 2016 可以直接制作箱型图。Excel的箱型图定位6个数据:最大值、最小值、中位数、上四分位数、下四分位数、平均值,还有异常值。

操作步骤:

1、选择所要统计的数据,即均价。
2、选择箱型图

Excel插入箱型图.png

3、“选择数据源”中,水平分类轴加上“区域”,如下

Excel选择数据源.png

调整一下样式得到如下箱型图。

房价分布箱型图分析.png

中间黑色出现是各区域中游水平的房价标准(中位数);x是全区域的平均房价水平(平均值);箱型上端代表中上游水平;箱型下端代表中下游水平,以此类推。简而言之,房价分布被四等分了。
我们来解读一下:朝阳区的房价分布范围较广,高低值差异较大,可能和横跨多环有关,整体平均水平位于四区域前列。海淀区平均房价次之,但也不低。丰台区房价分布较为集中且偏态较小,跨度相对较小。通州区很明显整体房价最低。
这张图能一眼看出不少内容,想必大家已经明白箱线图的作用了,它能读出数据的整体分布和倾斜趋势(偏态)。
到这里,描述统计的内容就结束了。描述统计是分析数据的一种技巧,包含数据的集中度量(平均数、中位数、众数)、数据的离散(方差、标准差)、数据的分布(箱线图、条形图、直方图)三块。

文章中的数据,在下方评论获得下载!

此处内容需要评论回复后

专题文章

10周入门数据分析丨学习计划及大纲

> “我是文科生出身,可以学习数据分析吗?” > “我没有编程基础,可以成为数据分析师吗?” > “学习数据分析必须学习R和Python吗?” > …… 其实,数据分析没有想象中那么难,入....


10周入门数据分析丨如何炼就数据分析的思维?

面对数据异常,我们经常会出现“好像是A原因引起的?”“貌似和B原因也相关?”“有可能是C操作不当”的主观臆测。 或者,拿到一个分析议题,分析“11月销售数据下降的原因”,是先从产品层面,还是渠道层面....


10周入门数据分析丨数据分析惯用的5种思维方法

![十周入门数据分析.jpg][1] 在数据分析中,数据分析思维是框架式的指引,实际分析问题时还是需要很多“技巧工具”的。就好比中学里你要解一元二次方式,可以用公式法、配方法、直接开平方法、因式....


10周入门数据分析丨数据分析必备的43个Excel函数

Excel是我们工作中经常使用的一种工具,对于数据分析来说,这也是处理数据最基础的工具。很多传统行业的数据分析师甚至只要掌握Excel和SQL即可。 ![十周入门数据分析.jpg][1] ....


10周入门数据分析丨实操:如何用Excel做一次数据分析

前一篇分享了《[Excel数据分析必掌握的43个公式][1]》,今天这篇讲实操,教大家用Excel做一次简单的分析。一是让大家了解数据分析是一个怎样的流程;其次熟练Excel的操作(学的知识要用起来)....


10周入门数据分析丨写给新人的数据库入门指南

经常有刚从事数据分析的职场萌新,问我做数据分析工作要学些什么,应该怎样规划学习路径。我会告诉他:如果你Excel还用的不溜的话,就先学学Excel,当你用Excel处理和分析一些小数据集没有问题的时候....


10周入门数据分析丨零基础快速自学SQL,2天足矣

SQL全称是 Structured Query Language,翻译后就是结构化查询语言,是一种数据库查询和程序设计语言,用于存取数据以及查询、更新和管理关系数据库系统。 ![十周入门数据分析....


10周入门数据分析丨数据分析必掌握的统计学知识

统计学是数据分析的基石。学了统计学,你会发现很多时候的分析并不靠谱。比如很多人都喜欢用平均数去分析一个事物的结果,但是这往往是粗糙的,不准确的。如果学了统计学,那么我们就能以更多更科学的角度看待数据。....


10周入门数据分析丨不可不知的描述性统计

统计学需要掌握的知识,在数据分析过程中,广泛用于数据质量处理,分析模型构建以及数据挖掘。今天这篇文章将详细讲统计学中最基础的描述统计。 [10周入门数据分析][1] 试想,当你拿到一份数据....


10周入门数据分析丨概率分布,先懂这6个

![40207-7xao1g1bi2n.png](http://www.zuopm.com/usr/uploads/2021/01/3266240098.png) 本文重点介绍分析中常用的六个重....

本文经授权后发布,本文观点不代表立场
-- 展开阅读全文 --
阿里小蜜:知识结构化推动智能客服升级
« 上一篇 06-05
产品逻辑之美:打造复杂的产品系统epub高清电子书
下一篇 » 07-05

发表评论

仅有一条评论

  1. 做产品经理VLv.1 说道:

    Office2016 激活:https://jingyan.baidu.com/article/925f8cb8c9e83bc0dce05648.html

作者信息

热门文章

标签TAG

热评文章