《R语言实战》自学笔记71-主成分和因子分析_语言综合

主成分分析

主成分分析（(Principal Component Analysis，PCA）是一种数据降维技巧，它能将大量相关变量转化为一组很少的不相关变量，这些无关变量称为主成分（原来变量的线性组合）。整体思想就是化繁为简，抓住问题关键，也就是降维思想。

主成分分析法是通过恰当的数学变换，使新变量——主成分成为原变量的线性组合，并选取少数几个在变差总信息量中比例较大的主成分来分析事物的一种方法。主成分在变差信息量中的比例越大，它在综合评价中的作用就越大。

因子分析

探索性因子分析法（Exploratory Factor Analysis，EFA）是一系列用来发现一组变量的潜在结构的方法。它通过寻找一组更小的、潜在的或隐藏的结构来解释已观测到的、显式的变量间的关系。

PCA与EFA模型间的区别

参见图14-1。主成分（PC1和PC2）是观测变量（X1到X5）的线性组合。形成线性组合的权重都是通过最大化各主成分所解释的方差来获得，同时还要保证个主成分间不相关。相反，因子（F1和F2）被当做是观测变量的结构基础或“原因”，而不是它们的线性组合。

R的基础安装包提供了PCA和EFA的函数，分别为princomp()和factanal()。

最常见的分析步骤

(1)数据预处理。PCA和EFA都根据观测变量间的相关性来推导结果。用户可以输入原始数据矩阵或者相关系数矩阵到principal()和fa()函数中。若输入初始数据，相关系数矩阵将会被自动计算，在计算前请确保数据中没有缺失值。

(2)选择因子模型。判断是PCA（数据降维）还是EFA（发现潜在结构）更符合你的研究目标。如果选择EFA方法，你还需要选择一种估计因子模型的方法（如最大似然估计）。

(3)判断要选择的主成分/因子数目。

(4)选择主成分/因子。

(5)旋转主成分/因子。

(6)解释结果。

(7)计算主成分或因子得分。

PCA的目标是用一组较少的不相关变量代替大量相关变量，同时尽可能保留初始变量的信息，这些推导所得的变量称为主成分，它们是观测变量的线性组合。如第一主成分为：

它是k个观测变量的加权组合，对初始变量集的方差解释性最大。第二主成分也是初始变量的线性组合，对方差的解释性排第二，同时与第一主成分正交（不相关）。后面每一个主成分都最大化它对方差的解释程度，同时与之前所有的主成分都正交。理论上来说，你可以选取与变量数相同的主成分，但从实用的角度来看，我们都希望能用较少的主成分来近似全变量集。

主成分与原始变量之间的关系

（1）主成分保留了原始变量绝大多数信息。

（2）主成分的个数大大少于原始变量的数目。

（3）各个主成分之间互不相关。

（4）每个主成分都是原始变量的线性组合。

数据集USJudgeRatings包含了律师对美国高等法院法官的评分。数据框包含43个观测，12个变量。

用来判断PCA中需要多少个主成分的准则：

根据先验经验和理论知识判断主成分数；

根据要解释变量方差的积累值的阈值来判断需要的主成分数；

通过检查变量间k × k的相关系数矩阵来判断保留的主成分数。

最常见的是基于特征值的方法。每个主成分都与相关系数矩阵的特征值相关联，第一主成分与最大的特征值相关联，第二主成分与第二大的特征值相关联，依此类推。

Kaiser-Harris准则建议保留特征值大于1的主成分，特征值小于1的成分所解释的方差比包含在单个变量中的方差更少。Cattell碎石检验则绘制了特征值与主成分数的图形。这类图形可以清晰地展示图形弯曲状况，在图形变化最大处之上的主成分都可保留。最后，你还可以进行模拟，依据与初始矩阵相同大小的随机数据矩阵来判断要提取的特征值。若基于真实数据的某个特征值大于一组随机数据矩阵相应的平均特征值，那么该主成分可以保留。该方法称作平行分析。

图形解读：线段和x符号组成的图（蓝色线）：特征值曲线；

红色虚线：根据100个随机数据矩阵推导出来的平均特征值曲线；

绿色实线：特征值准则线（即：y=1的水平线）

判别标准：特征值大于平均特征值，且大于y=1的特征值准则线，被认为是可保留的主成分。根据判别标准，保留1个主成分即可。

faparallel函数学习

faparallel(data,nobs=,fa=”pc”/”both”,niter=100,showlegend=T/F)

data：原始数据数据框；

nobs：当data是相关系数矩阵时，给出原始数据（非原始变量）个数，data是原始数据矩阵时忽略此参数；

fa：“pc”为仅计算主成分，“fa”为因子分析，“both”为计算主成分及因子；

niter：模拟平行分析次数；

showlegend：显示图例。

principal(r, nfactors = , rotate = , scores = )

r：相关系数矩阵或原始数据矩阵；

nfactors：设定主成分数（默认为1）；

rotate：指定旋转的方法，默认最大方差旋转（varimax）。

scores：设定是否需要计算主成分得分（默认不需要）。

PC1栏包含了成分载荷，指观测变量与主成分的相关系数。如果提取不止一个主成分，那么还将会有PC2、PC3等栏。成分载荷（component loadings）可用来解释主成分的含义，解释主成分与各变量的相关程度。

h2栏为成分公因子方差，即主成分对每个变量的方差解释度。

u2栏为成分唯一性，即方差无法被主成分解释的部分（1-h2）。

SS loadings包含了与主成分相关联的特征值，其含义是与特定主成分相关联的标准化后的方差值，即可以通过它来看90%的方差可以被多少个成分解释，从而选出主成分（即可使用nfactors=原始变量个数来把所有特征值查出，当然也可以直接通过eigen函数对它的相关矩阵进行查特征值）。

Proportion Var表示每个主成分对整个数据集的解释程度。

Cumulative Var表示各主成分解释程度之和。

Proportion Explained及Cumulative Proportion分别为按现有总解释方差百分比划分主成分及其累积百分比。

结果解读：第一主成分（PC1）与每个变量都高度相关，也就是说，它是一个可用来进行一般性评价的维度。ORAL变量991%的方差都可以被PC1来解释，仅仅有091%的方差不能被PC1解释。第一主成分解释了11个变量92%的方差。

结果解读：通过碎石图可以判定选择的主成分个数为2个。

结果解读：从结果Proportion Var： 058和022可以判定，第一主成分解释了身体测量指标58%的方差，而第二主成分解释了22%，两者总共解释了81%的方差。对于高度变量，两者则共解释了其88%的方差。

旋转是一系列将成分载荷阵变得更容易解释的数学方法，它们尽可能地对成分去噪。旋转方法有两种：使选择的成分保持不相关（正交旋转），和让它们变得相关（斜交旋转）。旋转方法也会依据去噪定义的不同而不同。最流行的正交旋转是方差极大旋转，它试图对载荷阵的列进行去噪，使得每个成分只是由一组有限的变量来解释（即载荷阵每列只有少数几个很大的载荷，其他都是很小的载荷）。结果列表中列的名字都从PC变成了RC，以表示成分被旋转。

当scores = TRUE时，主成分得分存储在principal()函数返回对象的scores元素中。

如果你的目标是寻求可解释观测变量的潜在隐含变量，可使用因子分析。

EFA的目标是通过发掘隐藏在数据下的一组较少的、更为基本的无法观测的变量，来解释一

组可观测变量的相关性。这些虚拟的、无法观测的变量称作因子。（每个因子被认为可解释多个

观测变量间共有的方差，因此准确来说，它们应该称作公共因子。）

其中是第i个可观测变量（i = 1…k），是公共因子（j = 1…p），并且p<k。是变量独有的部分（无法被公共因子解释）。可认为是每个因子对复合而成的可观测变量的贡献值。

碎石检验的前两个特征值（三角形）都在拐角处之上，并且大于基于100次模拟数据矩阵的特征值均值。对于EFA，Kaiser-Harris准则的特征值数大于0，而不是1。

结果解读：PCA结果建议提取一个或者两个成分，EFA建议提取两个因子。

fa(r, nfactors=, nobs=, rotate=, scores=, fm=)

 r是相关系数矩阵或者原始数据矩阵；

 nfactors设定提取的因子数（默认为1）；

 nobs是观测数（输入相关系数矩阵时需要填写）；

 rotate设定旋转的方法（默认互变异数最小法）；

 scores设定是否计算因子得分（默认不计算）；

 fm设定因子化方法（默认极小残差法）。

与PCA不同，提取公共因子的方法很多，包括最大似然法（ml）、主轴迭代法（pa）、加权最小二乘法（wls）、广义加权最小二乘法（gls）和最小残差法（minres）。统计学家青睐使用最大似然法，因为它有良好的统计性质。

结果解读：两个因子的Proportion Var分别为046和014，两个因子解释了六个心理学测试60%的方差。

结果解读：阅读和词汇在第一因子上载荷较大，画图、积木图案和迷宫在第二因子上载荷较大，非语言的普通智力测量在两个因子上载荷较为平均，这表明存在一个语言智力因子和一个非语言智力因子。

正交旋转和斜交旋转的不同之处。

对于正交旋转，因子分析的重点在于因子结构矩阵（变量与因子的相关系数），而对于斜交旋转，因子分析会考虑三个矩阵：因子结构矩阵、因子模式矩阵和因子关联矩阵。

因子模式矩阵即标准化的回归系数矩阵。它列出了因子预测变量的权重。因子关联矩阵即因子相关系数矩阵。

图形解读：词汇和阅读在第一个因子（PA1）上载荷较大，而积木图案、画图和迷宫在第二个因子（PA2）上载荷较大。普通智力测验在两个因子上较为平均。

与可精确计算的主成分得分不同，因子得分只是估计得到的。它的估计方法有多种，fa()函数使用的是回归方法。

R包含了其他许多对因子分析非常有用的软件包。FactoMineR包不仅提供了PCA和EFA方法，还包含潜变量模型。它有许多此处我们并没考虑的参数选项，比如数值型变量和类别型变量的使用方法。FAiR包使用遗传算法来估计因子分析模型，它增强了模型参数估计能力，能够处理不等式的约束条件，GPArotation包则提供了许多因子旋转方法。最后，还有nFactors包，它提供了用来判断因子数目的许多复杂方法。

主成分分析

1数据导入

数据结构：对10株玉米进行了生物学性状考察，考察指标有株高，穗位，茎粗，穗长，秃顶，穗粗，穗行数，行粒数。

结果解读：选择2个主成分即可保留样本大量信息。

3提取主成分

结果解读：主成分1可解释44%的方差，主成分2解释了26%的方差，合计解释了70%的方差。

4获取主成分得分

5主成分方程

PC1 = 027 株高 - 004 穗位 + 029 茎粗 - 001 穗长 - 021 秃顶 - 013 穗粗 + 016 穗行数 + 024 行粒数

PC2 = -001 株高 + 036 穗位 - 010 茎粗 + 041 穗长 - 008 秃顶 + 043 穗粗 - 015 穗行数 + 001 行粒数

图形解读：此图反映了变量与主成分的关系，三个蓝点对应的RC2值较高，点上的标号2，4，6对应变量名穗位，穗长，穗粗，说明第2主成分主要解释了这些变量，与这些变量相关性强；黑点分别对应株高，茎粗，穗行数，行粒数，说明第一主成分与这些变量相关性强，第一主成分主要解释的也是这些变量，而5号点秃顶对于两个主成分均没有显示好的相关性。

因子分析

图解：可以看到需要提取4个因子。

2提取因子

结果解读：因子1到4解释了80%的方差。

3获取因子得分

图解：可以看出，因子1和因子2的相关系数为04，行粒数，株高，茎粗，秃顶在因子1的载荷较大，穗长，穗位在因子2上的载荷较大；因子3只有穗行数相关，因子4只有穗粗相关。

参考资料：

在SPSS中，主成分分析是通过设置因子分析中的抽取方法实现的，如果设置的抽取方法是主成分，那么计算的就是主成分得分，另外，因子分析和主成分分析尽管原理不同，但是两者综合得分的计算方法是一致的。

层次分析法根据问题的性质和要达到的总目标，将问题分解为不同的组成因素，并按照因素间的相互关联影响以及隶属关系将因素按不同层次聚集组合，

形成一个多层次的分析结构模型，从而最终使问题归结为最低层(供决策的方案、措施等)相对于最高层(总目标)的相对重要权值的确定或相对优劣次序的排定。

扩展资料：

主成分分析法是一种降维的统计方法，它借助于一个正交变换，将其分量相关的原随机向量转化成其分量不相关的新随机向量，这在代数上表现为将原随机向量的协方差阵变换成对角形阵，在几何上表现为将原坐标系变换成新的正交坐标系，

使之指向样本点散布最开的p 个正交方向，然后对多维变量系统进行降维处理，使之能以一个较高的精度转换成低维变量系统，再通过构造适当的价值函数，进一步把低维系统转化成一维系统。

-主成分分析法

cronbach’s alpha系数，一般翻译成克隆巴赫alpha系数，效度用探索性因子分析(KMO和Bartlett)。

alpha等于测验题目数/(测验题目数－1) 乘 {1 - 各被试在该题目上的方差的和 / 所有被试总分的方差 }

K即第一个公式的n，代表题目数量。

小sigma方即第一个公式的S方，代表方差。

然后直接调用就可以。

参考文献：

道客巴巴

qq_43157351 R语言与克朗巴哈alpha系数

用R语言实现Cronbach 值的计算

λi表示题目i在潜变量ξ上的负荷, δi是误差项, 误差之间不相关。整个测验分数X=x1+x2+…xp的合成信度如上图 (叶宝娟, 温忠麟, 2011;Brown, 2006;Yang&Green, 2010)

假设一个单维测验由p个题目组成, 测量了一个因子F, 测验施测后, p个题目的标准化变量为 (i=1, 2, , p) ，可以按照以下方式计算。

其中, εi是只和i有关的特殊因子 (也称为误差项) , λi是第i个变量i在因子F上的负荷。假设题目误差不相关, 如果整份测验的分数相加有意义, 则单维测验整份测验X=1+2++p的合成信度为：

其中, θi为i的误差方差, (2) 式也可计算多维测验单个维度的合成信度。如果用固定方差法指定因子测量单位, 即var (F) =1, 则上式变为:

因为X i 是标准化变量, 所以Σ θ=p-Σ λ2则 (3) 式变为:

上图这个表达式更易懂一些，也更容易计算。

λ为因子载荷量，p为题目个数。

计算出因子载荷量之后可以通过函数计算ρ

参考文献：

杨强叶宝娟温忠麟(2014) 用SPSS软件计算单维测验的合成信度中国临床心理学杂志: 22(03), 496-498

温忠麟(2011) 单维测验合成信度三种区间估计的比较

一、内在效度(content related validity)：研究者的发现与事实相符合的程度，即研究结果是不是真的在测量事实的真相的能力。

二、内容效度的评估方法：1专家判断法; 2统计分析法(评分者信度\复本信度\折半信度\再测法); 3经验推测法 (实验检验)

提高内部效度的方法：

1．三角检定法：多元的搜集资料方式，包括不同的资料来源(报章、官方文件、会议记录)，访谈不同人员(如教师、行政人员、学者专家)，及采用不同资料的搜集方法(如访谈、观察、非正式讨论)等，来相互验证资料与实施的相符程度。

2．研究对象的核查：和被研究者一起讨论定稿，以确定自己记录的是其所叙的。

3．持续的观察

来自：qiuyaofeng2012 信度和效度经典例子_第四节个案研究的效度与信度 CSDN

一、构想效度：测验能够测量到理论上的构想或特质的程度，即测验的结果是否能证实或解释某一理论的假设、术语或构想，其解释的程度如何。

二、构想效度的估计方法：1 对测验本身的分析（用内容效度来验证构想效度）；2 测验间的相互比较：相容效度（与已成熟的相同测验间的比较）、区分效度（与近似或应区分测验间的比较）、因素分析法；3 效标效度的研究证明；4 实验法和观察法证实

衡量测验有效性的参照标准，指的是可以直接而且独立测量的我们感兴趣的行为。

又称 实证效度 ，反映的是测验对个体的预测在某种情境下的有效性程度(所测情况与实际情况之间的相关)。

根据效标资料是否与测验分数同时获得，又可分为 同时效度 (实际士气高和士气低的人在士气测验中的得分一致性。)和 预测效度 两类。

1相关法：效度系数、效标效度常用方法。以皮尔逊积差相关系数来表示，反映测验分数与效标测量之间的相关程度。

当测验成绩是连续变量，而效标资料是二分变量时，计算效度系数可用点二列相关公式或二列相关公式；

当测验分数为连续变量，效标资料为等级评定时，可用贾斯朋多系列相关公式计算。

2区分法：检验 测验分数 能否有效地区分 由效标所定义的团体 。

进行t检验，若差异显著，说明该测验能够有效地区分由效标定义的不同团体(如抑郁 测验得分 的高低可以区分出 真正的 高抑郁组和 真正的 低抑郁组)，

重叠百分比可以通过计算每一组内得分超过（或低于）另一组平均数的人数百分比得出；

另外，还可以计算两组分布的共同区的百分比。重叠量越大，说明两组分数差异越小，即测验的效度越差。

3命中率法：是当测验用来做取舍的依据时，用其正确决定的比例作为效度指标的一种方法。命中率的计算有两种方法，一是计算总命中率，另一种是计算正命中率。

4、预期表法：是一种双向表格，预测分数排在表的左边，效标排在表的顶端。从左下至右上对角线上各百分数字越大，而其它的百分数字越小，表示测验的效标效度越高；反之，数字越分散，则效度越低。

命中率法和预期表法相似。详细可参照戴海琦，张锋<心理与教育测量>第五章：测量效度

一般在研究中用到的效度指标是结构效度，测量题与测量变量之间的对应关系。可以使用探索性因素分析(exploratory factor analysis，EFA)和验证性因子分析(comfirmatory factor analysis，CFA)

计算协方差矩阵/相关系数矩阵。可以利用cov2cor()将协方差转化为相关系数矩阵，也可利用cor2cov()转化回来

· KMO值：如果此值高于08，则说明效度高；如果此值介于07 08之间，则说明效度较好；如果此值介于06 07，则说明效度可接受，如果此值小于06，说明效度不佳

· 巴特球形检验：其对应巴特球形值，对应P值一定需要小于005，这样才能说明通过巴特球形检验

· 特征根：此值是判断因子（维度）个数的标准的信息量，由于已经设置好因子（维度）个数，因而此值意义较小可忽略；

· 方差解释率值：代表各维度可解释整体量表的信息量；

· 累积方差解释率值：所有维度可解释整体量表的信息量；

· 因子载荷系数值：分析项与维度之间的相关关系情况；此值非常非常重要，可用于判断分析项与维度的对应关系情况，下述会有说明；

· 共同度值：分析项可以被提取出的信息量情况，比如为0617，可以理解为该项有617%的信息可被最终提取出来。

1、原理不同：

主成分分析是利用降维（线性变换)的思想，在损失很少信息的前提下把多个指标转化为几个不相关的综合指标（主成分)，即每个主成分都是原始变量的线性组合，使得主成分比原始变量具有某些更优越的性能，从而达到简化系统结构，抓住问题实质的目的。

而因子分析更倾向于从数据出发，描述原始变量的相关关系，是由研究原始变量相关矩阵内部的依赖关系出发，把错综复杂关系的变量表示成少数的公共因子和仅对某一个变量有作用的特殊因子线性组合而成。

2、线性表示方向不同：

主成分分析中是把主成分表示成各变量的线性组合，而因子分析是把变量表示成各公因子的线性组合。

3、假设条件不同：

主成分分析不需要有假设条件；而因子分析需要一些假设。因子分析的假设包括：各个共同因子之间不相关，特殊因子之间也不相关，共同因子和特殊因子之间也不相关。

4、主成分的数量不同

主成分分析的主成分的数量是一定的，一般有几个变量就有几个主成分（只是主成分所解释的信息量不等），实际应用时会根据碎石图提取前几个主要的主成分。而因子分析的因子个数需要分析者指定，指定的因子数量不同而结果也不同。

5、应用范围不同

在实际的应用过程中，主成分分析常被用作达到目的的中间手段，而非完全的一种分析方法，提取出来的主成分无法清晰的解释其代表的含义。而因子分析就是一种完全的分析方法，可确切的得出公共因子。

-因子分析

-主成分分析

人类识别管理对象和管理办法的层次性的方法是推行分层次管理的基础，这些识别方法和识别过程可以运用自然科学的成果，特别是统计学、数学成果。如同质性的管理对象的成组或成对差异显著性分析、相关性分析、主成份分析法、聚类分析法、层次分析法等方法，用于对管理对象和管理方法的分层，并对影响分层次的主要因素进行深入分析，揭示形成层次的根本所在，为策划对应的管理层次提供条件。

一般而言，对常规的、比较容易识别管理对象的差异性，可以直接地进行管理对象分层次，按受教育程度划分其层次，如研究生、本科生、专科生、中专生、高中生、小学生等；按管理目的不同划分其层次，设计不同的管理措施，来实现管理目标，如中国区域经济发展的宏观管理；按经济发达差异划分，可以把中国划分为东部沿海地区、东北老工业基地、中部地区、西部地区等，以各地区又好又快发展为目标，需要对各地区进行分层次制订发展政策，推行有区别的分层次管理。

在日常管理中，有时管理对象的差异性难以用简单判断方法进行识别，这时就需要应用数学方法和计算机技术进行识别，帮助区分层次。通常可以从三个角度展开，用数学方法进行技术处理：其一以管理对象的空间范围大小进行层次划分；其二是从数量、规模、尺度的角度进行管理层次划分；其三是以质量等级划分管理对象的层次。（1）以空间范围大小划分管理对象与方法

这一划分角度，强调了不同空间范围的管理对象具有不同质性，其对管理的要求存在明显的差异。本部分内容以自然界、人类社会、家庭和个人管理为例。

在自然界管理层面上，有一种客观力量管理世界，实现自然界的平衡、稳定和有序。霍金在其《时间简史》中，暗示了能量管理自然的观点，宇宙是在不断的爆炸中创造了时间，在不同的时间段，能量在不断变化，并不断创造物质。能量按其内在的规律主宰着整个宇宙的发展变化，人类企图“征服自然和改选自然”，但只能一个小范围内有效。另外，太阳及其热量分布决定了地球生态群落的存在层次。地表上的一切生物在不同的群落中生存、发展，必然受此环境层次的影响与制约，并因此产生了不同温度带的人类生存与发展模式，包括不同区域的人类的习俗规范、文化行为、社会行为、政治行为、经济行为、精神行为的层次性和差异性，呈现文明的多样性和多元化。从宇宙到星际至地球，自然界的管理也存在层次性，也需要分层次管理，由于人类对大自然的管理还没有足够的智慧，其管理理念与方法主要表现为：“各从其类”和“道法自然”上。

把管理视角从自然转到人类社会，其本质是人与人关系的总和，关键强调为人类服务的关系管理。这种关系至少可以划分为五大层次：其一为人类与自然的关系；其二不同地区的人类关系；其三为不同国家的人类关系；其四为部门或单位的人际关系；其五为家庭内的人际关系，不同层次的关系需要不同的管理手段与方法。中国先哲孔子、孟子认为人类社会管理是“德”层面上的管理，强调“十四人一条心”，即强调人的目标的一致性，人的包容性和人类友好相处的和谐氛围。

从社会角度进入到具体部门或单位。官员管理政府、经理人管理公司、家长管理家庭、个人管理自己的事务，不同的管理对象存在明显的层次差异性，需要分层次管理。政府需要公共服务为主的全局性管理；公司需要有效率、有效益的个性化、创新性管理；家庭需要创造幸福温馨的亲情管理；个人需要成功的、有效的事务管理，只有这样，才能实现不同层次管理对象所要达到的管理目标。

当代管理理论是从上世纪初诞生的管理科学开始的，其诞生环境层次决定了其理论功能主要服务于工业化目标，是以提高企业效益和效率为目的的管理理论体系。面对自然界、人类社会、部门与个人的不同存在的空间范围，当前的管理理论难以适应上述层次的管理需要。所以，需要对自然界、人类社会、部门与个人的各个层次的管理对象，进行层次分析，构建相应的管理理论、方法，提高管理水平和效能。

（2）以数量规模尺度划分管理对象与方法

从数量、规模、尺度的角度划分管理对象的层次容易被人们所接受，其划分一般具有量的规定性，其差异性更容易形成共识。一般而言，对可度量的管理对象，比较容易被分层，一般可用下一节的数学方法加以识别和分层。

（3）以质量等级划分管理对象与方法

对定性的管理对象的层次划分，需要运用模糊数学的工具，先将不确定的管理属性，如质量、等级等进行定量评分，实现其性质的区分。以下以虚拟分层标杆管理为例，对这类管理对象进行分层。一个地区在进行标杆管理时，应首先对其进行层次分析，其次针对不同层次寻找不同的标杆。另外，对每一个层次的标杆，当把标杆分成各个组成部分时，一般情形下，并不是每个组成部分都具有标杆的特性，因此，能否给出一个整体及其组成部分都可以作为标杆的标杆是一个非常值得研究的问题。对几个单元作为标杆的，通常采取不同的部分向不同的单元学习组合形式来完成标杆管理。当“待学单元”的各个组成部分是相互独立时，即视为做法可行，但当各个组成部分不相互独立，每个部分的改变将使其它部分也随之改变，向多个标杆学习就难以得到协调一致的效果，并导致投入产出关系的混乱，从而很难做出优化的学习决策。为了解决上述问题，尝试性提出一个地区性的“待学单元”怎样在分层的情况下，根据不同单元的最佳部分组成一个协调一致的整体——分层虚拟标杆。由于整体与其组成部分都可以作为标杆的标杆，在现实中很难找到，故称其为分层虚拟标杆。

虚拟标杆的建立。以海南省经济发展为例，研究分层虚拟标杆管理理论。主要过程是，首先对待学习单元（海南省的经济发展）进行分层研究；其次针对不同层次构建虚拟标杆；依据每层的具体情况与虚拟标杆建立每层最佳决策模型。

主要管理工作有：待学习单元的分层研究，在调查和整理待学习单元（海南省的经济发展）数据集基础上，应用聚类分析进行初步分类、用主成份分析法找到主要影响成份、用多层统计模型找到高层影响变量、以主要成份和高层影响变量为主进行分层。

每层虚拟标杆的构造方法。首先利用可拓学建立海南省经济发展的物元模型，对物元模型中的不同名称、特征以及特征值利用物元的发散性在全球范围内寻找其同名、同征、同值以及同征同值的物元，并收集相应数据，针对数据的定量与定性的不同情况分别利用DEA和层次分析法确定特征与特征值的标杆。如果所有特征与特征值的标杆都集中于一个整体，那么该整体就是海南省经济发展的标杆。如果不是所有特征标杆都集中于一个整体，以集中较多的特征与特征值的标杆的整体作为初始标杆；其次运用方差分析方法和对数线性模型方法分析没有进入初始标杆的特征的独立与交互影响性，依据特征与特征值是独立还是交互影响的并根据系统在采用该特征时对其它量带动的百分比向初始标杆整合，当相互独立时，取各个部分带动的百分比的最大值加到初始标杆上，当有交互作用时，取交互作用带动的百分比最大值再加到上述标杆上，一直作下去当所有的特征都整合完时就得到每层的虚拟标杆。

每层最佳决策模型。在构造好虚拟标杆基础上，如何给出海南省经济发展最佳决策，有如下做法：利用DEA方法把定量的待学习单元向虚拟标杆做投影，待决策单元投影值与虚拟标杆中定性部分共同组成的集合便是最佳决策。 221主成分分析

主成分分析方法，首先是由K皮尔森对非随机变量引入的，尔后H霍特林将此方法推广到随机向量的情形。其原理是：设法将原来变量重新组合成一组新的互相无关的几个综合变量，同时根据实际需要从中可以取出几个较少的总和变量尽可能多地反映原来变量的信息的统计方法，也是数学上处理降维的一种方法。

主成分分析是对于原先提出的所有变量，建立尽可能少的新变量，使得这些新变量是两两不相关的，而且这些新变量在反映课题的信息方面尽可能保持原有的信息，样本信息的大小通常用离差平方和或方差来衡量。

这一分析方法是将多个变量通过线性变换，选出较少个重要变量的一种多元统计分析方法。在管理对象的差异分析时，往往会提出很多与此有关的变量，因为每个变量都在不同程度上反映管理对象某些信息，统计分析方法能从太多变量个数中，找出变量个数较少而得到的信息较多结果。

其基本思想是：主成分分析是设法将原来众多具有一定相关性（比如P个指标），重新组合成一组新的互相无关的综合指标来代替原来的指标。通常数学上的处理就是将原来P个指标作线性组合，作为新的综合指标。最经典的做法就是用F1（选取的第一个线性组合，即第一个综合指标）的方差来表达，即Var(F1)越大，表示F1包含的信息越多。因此在所有的线性组合中选取的F1应该是方差最大的，故称F1为第一主成分。如果第一主成分不足以代表原来P个指标的信息，再考虑选取F2即选第二个线性组合，为了有效地反映原来信息，F1已有的信息就不需要再出现再F2中，用数学语言表达就是要求Cov(F1, F2)=0，则称F2为第二主成分，依此类推可以构造出第三、第四，……，第P个主成分。

主要分析步骤如下：第一步，指标数据标准化（SPSS软件自动执行）；第二步，指标之间的相关性判定；第三步，确定主成分个数m；第四步，主成分Fi表达式；第五步，主成分Fi命名。

这一方法在分层次管理应用上，可借助IT技术对数据进行处理，能更有效地做出信息判断，分划出管理对象和管理方法的层次。

222因子分析法

因子分析法是研究从变量群中提取共性因子的统计技术，最早由英国心理学家CE斯皮尔曼提出。他发现学生的各科成绩之间存在着一定的相关性，一科成绩好的学生，往往其他各科成绩也比较好，从而推想是否存在某些潜在的共性因子，或称某些一般智力条件影响着学生的学习成绩。因子分析可在许多变量中找出隐藏的具有代表性的因子，将相同本质的变量归入一个因子，可减少变量的数目，还可检验变量间关系的假设。

因子分析与主成分分析有很大的不同，主成分分析不能作为一个模型来描述，它只能作为一般的变量变换，主成分是可测的原始变量的线性组合，而因子分析需要构造一个因子模型，公共因子一般不能表示为原始变量的线性组合。因子分析的基本思想是根据变量相关性的大小把变量分组，使得同组内的变量之间相关性较高，但不同组内的变量的相关性较低每组变量代表一个基本结构，这个基本结构称为公共因子。对于所研究的问题，就可以试图用最少个数的不可观测的所谓公共因子的线性函数与特殊因子之和来描述原来观测的每一个分量。因子分析可用于对变量或样品的分类处理。可根据因子的得分值，在因子轴所构成的空间中把变量或样品构画出来，形象直观地达到分类的目的。研究变量的相互关系的因子分析称为R型因子分析，而研究样品之间的相互关系的因子分析称为Q型因子分析。

以人力资源管理为例，如2家公司对48名应聘者进行面试，并给出他们在15个方面所得的分数。这15个方面是：申请书的形式、外貌、专业能力、讨人喜欢、自信心、精明、诚实、推销能力、经验、积极性、抱负、理解能力、潜力、交际能力和适应性。通过因子分析，可把这15个方面归结为应聘者的外露能力、讨人喜欢的程度、经验、专业能力和外貌这五个因子，为选用人才提供了差异性识别方法。在实际应用中，通过因子得分可以得出不同因子的重要性指标，而管理者则可根据这些指标的重要性来决定首先管理对象的分层和相应层次的管理对策。

223聚类分析方法

管理对象的聚类分析是指对管理对象的集合分组，成为由类似对象组成的多个类的分析过程。聚类是将数据分类到不同的类或者簇这样的一个过程，所以同一个簇中的对象有很大的相似性，而不同簇间的对象有很大的相异性。

从统计学的观点看，聚类分析是通过数据建模简化数据的一种方法。传统的统计聚类分析方法包括系统聚类法、分解法、加入法、动态聚类法、有序样品聚类、有重叠聚类和模糊聚类等，采用k-均值、k-中心点等算法的聚类分析工具已被加入到许多著名的统计分析软件包中，如SPSS、SAS等。

从分层次管理的应用角度看，聚类分析是通过数据挖掘来识别管理对象的层次的有效方法之一，通过聚类观察到管理对象的特征，集中对特定层次的管理对象进行分析。

此方法的主要步骤有：1数据预处理；2为衡量数据点间的相似度定义一个距离函数；3聚类或分组；4评估输出。具体方法运用可借助统计专业知识和人才，对管理对象和管理方法进行聚类分层。

因子分析的核心问题有两个：一是如何构造因子变量；二是如何对因子变量进行命名解释。因此，因子分析的基本步骤和解决思路就是围绕这两个核心问题展开的。

（i）因子分析常常有以下四个基本步骤：

⑴确认待分析的原变量是否适合作因子分析。

⑵构造因子变量。

⑶利用旋转方法使因子变量更具有可解释性。

⑷计算因子变量得分。

（ii）因子分析的计算过程：

⑴将原始数据标准化，以消除变量间在数量级和量纲上的不同。

⑵求标准化数据的相关矩阵；

⑶求相关矩阵的特征值和特征向量；

⑷计算方差贡献率与累积方差贡献率；

⑸确定因子：

设F1，F2，…， Fp为p个因子，其中前m个因子包含的数据信息总量（即其累积贡献率）不低于80%时，可取前m个因子来反映原评价指标；

⑹因子旋转：

若所得的m个因子无法确定或其实际意义不是很明显，这时需将因子进行旋转以获得较为明显的实际含义。

⑺用原指标的线性组合来求各因子得分：

采用回归估计法，Bartlett估计法或Thomson估计法计算因子得分。

⑻综合得分

以各因子的方差贡献率为权，由各因子的线性组合得到综合评价指标函数。

F = (w1F1+w2F2+…+wmFm)/(w1+w2+…+wm )

此处wi为旋转前或旋转后因子的方差贡献率。

⑼得分排序：利用综合得分可以得到得分名次。

在采用多元统计分析技术进行数据处理、建立宏观或微观系统模型时，需要研究以下几个方面的问题：

· 简化系统结构，探讨系统内核。可采用主成分分析、因子分析、对应分析等方法，在众多因素中找出各个变量最佳的子集合，从子集合所包含的信息描述多变量的系统结果及各个因子对系统的影响。“从树木看森林”，抓住主要矛盾，把握主要矛盾的主要方面，舍弃次要因素，以简化系统的结构，认识系统的内核。

· 构造预测模型，进行预报控制。在自然和社会科学领域的科研与生产中，探索多变量系统运动的客观规律及其与外部环境的关系，进行预测预报，以实现对系统的最优控制，是应用多元统计分析技术的主要目的。在多元分析中，用于预报控制的模型有两大类。一类是预测预报模型，通常采用多元线性回归或逐步回归分析、判别分析、双重筛选逐步回归分析等建模技术。另一类是描述性模型，通常采用聚类分析的建模技术。

· 进行数值分类，构造分类模式。在多变量系统的分析中，往往需要将系统性质相似的事物或现象归为一类。以便找出它们之间的联系和内在规律性。过去许多研究多是按单因素进行定性处理，以致处理结果反映不出系统的总的特征。进行数值分类，构造分类模式一般采用聚类分析和判别分析技术。

如何选择适当的方法来解决实际问题，需要对问题进行综合考虑。对一个问题可以综合运用多种统计方法进行分析。例如一个预报模型的建立，可先根据有关生物学、生态学原理，确定理论模型和试验设计；根据试验结果，收集试验资料；对资料进行初步提炼；然后应用统计分析方法（如相关分析、逐步回归分析、主成分分析等）研究各个变量之间的相关性，选择最佳的变量子集合；在此基础上构造预报模型，最后对模型进行诊断和优化处理，并应用于生产实际。

欢迎分享，转载请注明来源：内存溢出

原文地址:https://www.54852.com/langs/11670032.html

《R语言实战》自学笔记71-主成分和因子分析

发表评论

评论列表（0条）