一、描述性统计
描述性统计是用来描述数据特征的一种分析方法,主要包括数据的频数分析、集中趋势分析、离散程度分析、数据的分布以及一些基本的统计图形。
在数据预处理部分,一般可以采用频数分析和交叉频数分析来检验异常值。
集中趋势分析则常用于反映数据的一般水平,常用指标有平均值、中位数和众数等。
数据的离散程度分析主要是用于反映数据之间的差异程度,通常会用到方差和标准差等指标。
许多统计方法都要求数值服从正态分布或近似服从正态分布,因此,在对样本进行分析前,通常要对样本所属整体的分布进行正态分布 ,然后利用偏度和峰度指标来检验样本数据是否符合正态分布。
二、回归分析
回归分析其实就是研究X和Y相关性的分析,多用于建模预测和探索检验假设。
1、线性回归分析
线性回归分析是人们学习建模的首选。其中,该模型要求因变量是连续的正态分布变量,且自变量和因变量呈线性关系。它的最佳的拟合直线(也就是回归线)是建立因变量 (Y) 和一个或多个自变量 (X) 之间的联系。表示为: Y=a+b*X + e
其中a 代表截距,b 代表直线的倾斜率,e 是误差项。这个等式可以依据已知的单个或多个预测变量来预测目标变量的值。
2、Logistic回归分析
Logistic回归是一种概率型非线性回归模型,是一种研究二分类观测结果与某种影响因素之间关系的多变量分析方法。通常用于研究某种因素条件下某个结果是否会发生。比如:医学中会依据病人的一些症状来判段病人是否患有某种疾病。
三、方差分析
1、单因素方差分析:是用来研究一个控制变量的不同水平是否对观测变量有显著影响。
2、多因素方差分析:用来研究两个及两个以上控制变量是否对观测变量有显著影响。
3、协方差分祈:主要是在排除了人为难以控制的控制变量(协变量)对观测变量的影响下,分析控制变量对观测变量的作用。
四、假设检验
假设检验是用来判断样本与样本,样本与总体之间的差异是由抽样误差所致还是由于本质差别引起的统计推断方法。其基本原理是先对样本总体的特征作出某种假设,然后通过抽样研究的统计推理,判断应该接受原假设还是拒绝。
1、参数检验
(1)T检验:用于两组样本均数或一组样本均数与总体均数之间的比较,面向于小样本数据(n<30)。适用于统计量服从正态分布,但方差未知的情况。
(2)Z检验:面向总体和大样本数据。
2、非参数检验
针对不符合正态分布的数据。
(1)卡方检验:从样本数据中推断出整体总体分布是否与期望分布或理论分布是否有明显差别。
(2)二项分布检验:现实生活中有很多数据的取值是二值的,大家通常将这样的二值分别用1或0表示。做n次相同的结果为二值的实验,结果出现1或0的次数可以用离散型随机变量X来描述。如果将随机变量X为1的概率设为P,那么随机变量X值为0的概率Q则等于1-P。我们称此为二项分布。二项分布检验正是要通过样本数据来检验样本来自的总体是否服从指定的概率为P的二项分布。
五、相关分析
相关分析研究的是关于两种或多种现象之间是否存在某种依存关系,并探讨具有依存关系的两种或多种现象之间的相关方向及相关程度。
根据自变量的多少可以将相关分析划分为单相关和复相关。根据相关形式的不同可以划分成线性相关和非线性相关(曲线相关)。根据相关关系的方向划分为正相关和负相关。根据相关关系的程度则可以划分为不相关、完全相关、不完全相关。
六、聚类分析
聚类分析是将数据分到不同的类或者簇,使得同类(簇)中的对像具有很大相似性而不同类(簇)之间的对象差异很大的分析方法。
七、判别分析
判别分析,是指按照一定的判别标准,依据某一研究对象的各种特征值对其进行分类识别的统计判别和分组技术。它与聚类分析最大的不同就在于判别分析必须先知道研究对象的类别并通过大量的历史资料去建立判别函数,然后才能进行分类。
八、因子分析
因子分析是指研究从变量组中提取共性因子的多变量分析技术,即在海量数据中找到它们内在的联系即共性因子来支持决策。因子分析主要分成两类:探索性因子分析和验证性因子分析。
九、主成分分析(PCA)
主成分分析是指通过正交变换将一组可能存在相关性的变量数据转换为一组线性不相关的变量(即主成分)的多变量统计方法。它的主要思想是降维,将n维特征映射到k维上(k小于n),k维是全新的正交特征。这个k维特征称为主元,是重新构造出来的k维特征,而不是简单地从n维特征中去除其余n-k维特征。
|