今天偶然看到一个分享这个方法的博文,就顺手做了个表格来实现了一下这个功能,基本上都是全自动的,不需要别的操作,特此分享。
探索性因子分析(Exploratory Factor Analysis,EFA)是一种多元统计分析方法,也是常用的数据降维技术,通过减少数据中的冗余信息以提升数据的可解释性。简而言之,就是通过因子分析识别出影响观测变量的公共因子,从而解释原始数据的信息内容。
首先要明白,有些因子是不可直接观测的、受到多个可观测变量影响的潜在因子。比如:一个人的睡眠质量与工作压力、家庭氛围、个人性格、生活习惯、晚上最后一把游戏胜负(笑)等均相关,这个因子可通过别的可观测的变量来显示出来。
因此,探索性因子分析的主要目的是从一组相关变量中提取出少数几个公共因子,以揭示变量间潜在的结构关系。它试图用较少的、有实际意义的因子来概括和解释原有较多变量中的大部分信息。
本次分析使用的数据如下:
问题为:探究上述省份中哪些省份的铁路运输能力如何。
显然,这个所谓的铁路运输能力并不能直接从数据中体现出来,但却与图中的六个变量相关。
因此可进行探索性因子分析,步骤如下:
1)数据标准化
其中ave为数据的均值(也可表示为Mean),x为变量,为标准差(也可表示为Std,方差开根号);
由于数据的指标和量纲不同,因此要进行标准化处理,此处SPSSAU会自动处理,不必理会。
2)适用性检验
在进行因子分析之前要进行适用性检验,通常包括KMO检验和Bartlett球形检验。
即要证明所产生的因子与其他变量之间存在相关性(如果生成的探索性因子与上边的6个变量没有相关性,即没有关系,那这个因子也就不能代表各个因子,来解释问题)。
-
KMO检验:用于检查变量间的相关性,取值为0~1。KMO值越接近于1,变量间的相关性越强,一般KMO值大于0.6即可进行因子分析。
-
Bartlett球形检验:原假设是变量间是独立的,如果拒绝原假设(p值小于0.05),则说明变量之间存在相关性,数据适合进行因子分析。
如上图所示,KMO为0.559,p值也小于0.05,符合条件。
两个检验方法的具体理论不在赘述,我也不会,后续有机会可能更一下,有兴趣者自行查阅资料文献。
3)提取公因子,因子旋转
以特征根大于1为标准提取公因子,得到累计方差解释率(即这些公因子能够表示多少%的原六个指标的信息),通过因子旋转,使得载荷变大,结果更为直观清楚。
如上图所示,存在三个特征根大于1的公因子,且累计方差解释率为90.36%,即代表这三个因子可代表90.36%的上述6个指标的信息。
因子旋转是探索性因子分析(EFA)中的一个重要步骤。在 EFA 中,初始提取出的因子结构往往不够清晰,因子对变量的解释性不强。因子旋转的目的就是要对因子轴进行旋转,使因子载荷矩阵的结构更加简单和有意义,以便更好地对因子进行解释和命名,通过因子旋转,可以使每个因子上的载荷在某些变量上变得更大,而在其他变量上变得更小,从而使每个因子能够更清晰地对应到具体的产品属性上。
4)公因子命名和解释
针对上述提出来的公因子进行命名和解释,为了理解公因子的实际意义以及方便对公因子进行命名,需要继续进行因子旋转。旋转常用方法为最大方差法。
旋转后的因子载荷矩阵可以直观反映各个变量对公因子的贡献程度,一个变量在某个公因子上的载荷系数的绝对值越大,说明变量与该公因子越具有相关性。
可看出,针对因子1,铁路货运总量、铁路营业里程、铁路货物总周转量、铁路运输职工数的因子载荷系数均大于0.4,即因子1可有效表示这四个变量的指标信息。同理,因子2、因子3也可有效表示某些变量的指标信息。这个载荷系数(蓝色字体)越大,也就表明该因子所表明的该变量指标的有效性越强。
可对这三个因子(因子1、2、3)分别命名为:货运因子、客运因子、营业因子。
5)计算因子得分和总得分,得出结果。
确定三个因子后,可通过成分得分矩阵来计算各个因子的得分情况。
所以,三个因子得分函数为:
货运因子(因子1)=-0.213*铁路客运量-0.155*铁路旅客周转量+0.490*铁路货运总量+0.272*铁路营业里程+0.310*铁路货物总周转量+0.173*铁路运输职工数
客运因子(因子2)=0.650*铁路客运量-0.044*铁路旅客周转量-0.107*铁路货运总量-0.197*铁路营业里程+0.015*铁路货物总周转量+0.496*铁路运输职工数
营业因子(因子3)=0.026*铁路客运量+0.699*铁路旅客周转量-0.248*铁路货运总量+0.384*铁路营业里程+0.120*铁路货物总周转量-0.242*铁路运输职工数
当然,也可用变量来表示这六个指标。
计算后得:
如下图所示,三个因子计算得分与总因子得分均可得到。
综合因子得分计算方式为:
其中、、为分别为因子1、2、3,系数则为之前计算的各个因子的方差解释率与总方差解释率的商。
通过对总因子综合得分进行排序,可知:
辽宁的总因子综合得分最高,即铁路运输能力最强。(数据仅供分析参考,并不真实)
使用方法:打开网站-上传数据-按照如下点击即可-形成结果(手动)
(1)在SPSSAU分析页面左侧选择【探索性因子分析】;
(2)将变量拖拽到右侧分析框中;
(3)选择因子个数若不确定则按特征根大于1自动提取公因子;
(4)勾选“因子得分”与“综合得分”,点击开始分析按钮,得到分析结果。