kitty153153 发表于 2008-2-29 16:48

偏最小二乘(PLS)的基本概念

PLS 提供了一种多对多线性回归建模的方法。特别当变量的个数很多,且都
存在多重相关性,而观测数据的数量又较少时。用偏最小二乘建立的模型具有
传统的经典回归分析等方法所没有的优点。PLS 方法中用的是潜变量,其数学基
础为主成分分析,因此也有人说,偏最小二乘回归 ≈ 多元线性回归分析+典型
相关分析+主成分分析。
       PLS 的目的是揭示变量空间里寻找某些线形组合,以能更好地解释自变量的
变异信息。该方法同时从因变量与自变量中提取两组主成分,它们分别是因变
量与自变量的线性组合,满足以下两个条件:一、两组潜变量分别最大限度地
承载自变量和因变量的变异信息;二、对应的自潜变量与因潜变量之间协方差
最大化.
       与传统多元线性回归模型相比,PLS 的特点是:一、能够在自变量存在严重
多重相关性的条件下进行回归建模;二、允许在样本点个数少于变量个数的条
件下进行回归建模;三、PLS 在最终模型中将包含原有的所有自变量;四、偏
PLS 模型更易于辨识系统信息与噪声(甚至一些非随机性的噪声);五、PLS 模
型中,每一个自变量的回归系数将更容易解释。
    与其他建模方法相比,如神经网络等,PLS 具有简单稳定、计算量小等优
点.模型参数估计时,无论是采用迭代法,还是SVD 法,一般只需几步就可得
到参数估计.预测未知样本时,计算量很小,精度也较高.然而,PLS 一般用于
建立预测回归方程,对于未知参数分布特性的确定无能为力,它所给出自变量
和因变量之间结构关系过于抽象。
      PLS 与PCA 很相似,其差别在于描述变量Y 中因子的同时也用于描述变量
X,为了实现这一点,在数学上是以矩阵Y 的列去参与矩阵X 因子的计算,数
学模型为:
      X = TP'+E
      以及
      Y =UQ'+F
      其中T 和U 的矩阵元——X 和Y 的得分,P 和Q 的矩阵元——X 和Y 的载
荷;E 和F——运用偏最小二乘模型法去拟合X 和Y 所引起的误差。
在理想的情况下,X 中误差的来源和Y 中的误差来源完全相同,即影响X
与Y 的因素相同。但实际上, X 中的误差与Y 中的误差t 和u 并不相关,因此
当两个矩阵同时用于确定因子时,X 和Y 具有如下关系:
      u = bt + e
      式中b 所表征的就是u 和t 的内在关系。

The_Rock 发表于 2010-7-27 05:07

谢谢楼主,新手正好要学习PLS~:@D
页: [1]
查看完整版本: 偏最小二乘(PLS)的基本概念