数据分析跟数据打交道,想想是需要大量的数学知识。其实在这个工具丰富的时代,知道一点基础的数学知识,足矣。
把握全局的第一步:集中趋势
把握全局的重点是什么?有人可能会说方差、标准差这样的比较精准的方法。
其实把握全局的重点就是一个字–快!想想看,股票价格已经快到底了,你还在各种噼里啪啦量化分析,结果就错过了时机。天下武功,唯快不破!
快的要诀就是要足够简单。这里重点介绍三个概念:均值、中位数、众数。你可能小学就学过这几个概念,可是你真的理解了吗?
均值
简单来说,均值就是平均数的一般度量。
大家平时接触最多的其实是平均数的概念。计算大量数据的平均数的一个方法是:将所有数字加起来,然后除以数字个数。这是均值的特例,因为每个数字的频数都是1.
均值的符号:μ,这是一个希腊字母(读作“缪(miu)”)
均值公式
有一点确实很重要:在计算均值的时候,要把每个数的频数考虑进去。为了确保自己不忽略这一点,我们可以把它写入公式。
加入频数的均值公式
中位数
中位数是一组数据的中间值,表示典型值。
生活中,我们都会被典型所吸引,典型是区别于普通的重要标志。这就像芸芸众生,人人都喜欢看帅哥、美女。
将n个数字按顺序(升序或降序)排列,无论 n 为奇数还是偶数,中位数的位置都为 (n 1) / 2。
掌握中位数,是进阶四分位数、百分位数的基础。
众数
众数是数据集中的频数最大的一个值(类别)。
通俗一点说就是点个数最多的那个。与均值和中位数不同,众数必须是数据集中的一个值。有时候,数据的众数可以不止一个。如果有一个以上的数值具有最大的频数,则每一个这样的数值都是众数。如果一批数据有两个众数,则我们说这种数据是双峰数据。
掌握着这三个数值,就能快速把握数据的整体情况。但是一定要记住,只看这三个数值,是不能准确下结论的。
给数据下结论的关键信息:距和差
数据分析的核心是什么?当然是下结论,尤其是能帮助业务现状改善的结论。
这里就要介绍另外三个概念:全距、四分位距、箱线图。
全距
全距又叫极差,它能指出数据的扩展范围。计算方法很简单,全距=最大值-最小值。
平均数让我们有办法确定一批数据的中心,却无法知道数据的变动情况。
全距提供了一种对数据集之间进行比较的方法——全距是度量数据分散程度既简单又方便的方法。
全距
四分位距
四分位距是中位数和全距的延伸。四分位,就是把数据集分成四等份;第一四分位数和第三四分位数之间的差值被称为四分位距(IQR)。
全距的主要问题是:仅仅描述了数据的宽度,由于全距是通过数据极值计算得出的,很容易受到两端极值的影响,产生较大偏差。而四分位距就很好地剔除了异常值影响。
四分位距(IQR) = 上四分位数(Q3) – 下四分位数(Q1)
箱线图
箱线图可以清晰地绘制各种“距”,四分位距、十分位距、百分位距……是数据分析最常用的图之一。一图就能清晰准确的表达整个数据集,还可以轻而易举地发现异常值。
箱线图是一种显示各种“距”和四分位数的简明方法
箱线图看上去复杂,其实在Python里,matplotlib或seaborn里的boxplot()函数就能轻松实现。
掌握以上6个概念,基本上就算是数据分析入了门。当然有时,更进一步,我们还需要做预测,就需要一些概率论知识。(下回再介绍)