数据分析之路|面试题整理之统计学基础

1.四分位极差

四分位极差,也称为内距或四分间距,它是上四分位数(QU,即位于75%)与下四分位数(QL,即位于25%)的差。

计算公式为:Qd =QU-QL

四分位差反映了中间50%数据的离散程度,其数值越小,说明中间的数据越集中;其数值越大,说明中间的数据越分散。

2.左右偏分布

左偏态又称负偏态(,以尾部命名,左偏态或者叫负偏态的尾部,主要在左侧;
右偏态又称正偏态,同样地,右偏态或者叫正偏态的尾部,则集中在右侧;

如何判断:是以对称轴来说的,如果对称分布,轴在正中,就是正态.轴在图形的左侧(鼓包部分在右侧),就是左偏.相反,轴在整个图形右侧(大包在左侧),就是右偏。也可以根据尾巴在哪侧就是向哪侧偏判断。

3.p值

P值(P value)就是当原假设为真时所得到的样本观察结果或更极端结果出现的概率。如果P值很小,说明原假设情况的发生的概率很小,而如果出现了,根据小概率原理,我们就有理由拒绝原假设,P值越小,我们拒绝原假设的理由越充分。总之,P值越小,表明结果越显著。但是检验的结果究竟是“显著的”、“中度显著的”还是“高度显著的”需要我们自己根据P值的大小和实际问题来解决。

4.方差分析

用于两个及两个以上样本均数差别的显著性检验,基本思想是:通过分析研究不同来源的变异对总变异的贡献大小,从而确定控制变量对研究结果影响力的大小。

5.主成分分析

是一种降维的思想。通过正交变换将一组可能存在相关性的变量转换为一组线性不相关的变量,转换后的这组变量叫主成分。

6.幸存者偏差

当取得资讯的渠道仅来自于幸存者时(因为死人不会说话),此资讯可能会存在与实际情况不同的偏差。

7. 贝叶斯公式

P(B|A)=P(A|B)\P(B)/P(A)
其中P(A)可以展开为
P(A)=P(A|B1)\P(B1)+P(A|B2)\P(B2)+…+P(A|Bn)\P(Bn)

8. 聚类

聚类之间类的度量是分距离和相似系数来度量的,距离用来度量样品之间的相似性(K-means聚类,系统聚类中的Q型聚类),相似系数用来度量变量之间的相似性(系统聚类中的R型聚类)。

最常用的是K-means聚类,适用于大样本,但需要事先指定分为K个类。
处理步骤:

1)从n个数据对象中任意选出k个对象作为初始的聚类中心

2)计算剩余的各个对象到聚类中心的距离,将它划分给最近的簇

3)重新计算每一簇的平均值(中心对象)

4)循环2-3直到每个聚类不再发生变化为止。

系统聚类适用于小样本。

9. 分类

有监督就是给的样本都有标签,分类的训练样本必须有标签,所以分类算法都是有监督算法。
监督机器学习问题无非就是“minimizeyour error while regularizing your parameters”,也就是在规则化参数的同时最小化误差。最小化误差是为了让我们的模型拟合我们的训练数据,而规则化参数是防止我们的模型过分拟合我们的训练数据,提高泛化能力。

(1)朴素贝叶斯

1)基础思想:对于给出的待分类项,求解在此项出现的条件下各个类别出现的概率,哪个最大,就认为此分类项属于哪个类别。
2)优点: 
可以和决策树、神经网络分类算法相媲美,能运用于大型数据库中。
方法简单,分类准确率高,速度快,所需估计的参数少,对于缺失数据不敏感。
3)缺点: 
假设一个属性对定类的影响独立于其他的属性值,这往往并不成立。(喜欢吃番茄、鸡蛋,却不喜欢吃番茄炒蛋)。
需要知道先验概率。

(2)决策树

1)基础思想:决策树是一种简单但广泛使用的分类器,它通过训练数据构建决策树,对未知的数据进行分类。决策树的每个内部节点表示在一个属性上的测试,每个分枝代表该测试的一个输出,而每个叶结点存放着一个类标号。 

在决策树算法中,ID3基于**信息增益**作为属性选择的度量,C4.5基于**信息增益比**作为属性选择的度量,CART基于**基尼指数**作为属性选择的度量。

2)优点 :
不需要任何领域知识或参数假设。
适合高维数据。
简单易于理解。
短时间内处理大量数据,得到可行且效果较好的结果。
3)缺点: 
对于各类别样本数量不一致数据,信息增益偏向于那些具有更多数值的特征。
易于过拟合。
忽略属性之间的相关性。

(3)支持向量机

1)基础思想:支持向量机把分类问题转化为寻找分类平面的问题,并通过最大化分类边界点距离分类平面的距离来实现分类。

2)优点 :
可以解决小样本下机器学习的问题。
提高泛化性能。
可以解决**文本分类、文字识别、图像分类**等方面仍受欢迎。
避免神经网络结构选择和局部极小的问题。
3)缺点:
缺失数据敏感。
内存消耗大,难以解释。

(4)K近邻

1)基础思想:通过计算每个训练样例到待分类样品的距离,取和待分类样品距离最近的K个训练样例,K个样品中哪个类别的训练样例占多数,则待分类样品就属于哪个类别。
2)优点 :
适用于样本容量比较大的分类问题
3)缺点: 
计算量太大
对于样本量较小的分类问题,会产生误分。

(5)逻辑回归(LR)

1)基础思想:回归模型中,y是一个定型变量,比如y=0或1,logistic方法主要应用于研究某些事件发生的概率。
2)优点 :
速度快,**适合二分类问题。**
简单易于理解,直接看到各个特征的权重。
能容易地更新模型吸收新的数据。
3)缺点: 
对数据和场景的适应能力有局限,不如决策树算法适应性那么强

参考文章

  1. 2017校招数据分析岗笔试/面试知识点
  2. 快速排序全面讲解(含复杂度证明)——即将引出八大排序算法

------------------本文结束感谢您的阅读------------------
坚持原创技术分享,您的支持将鼓励我继续创作!