PCA(主成分分析) 一

研究一个问题,必须考虑许多指标,这些指标能从不同的侧面反映我们所研究的对象的特征,但在某种程度上存在信息的重叠,具有一定的相关性。这种信息的重叠有时甚至会抹杀事物的真正特征与内在规律。

主成分分析是利用降维的思想, 在力求数据信息丢失最少的原则下,对高维的变量空间降维,即在众多变量中找出少数几个综合指标(原始变量的线性组合),并且这几个综合指标将尽可能多地保留原来指标变异方面的信息,且这些综合指标互不相关。这些综合指标就称为主成分。主成分的数目少于原始变量的数目。

主成分分析是一种数学变换方法,它把给定的一组变量通过线性变换转换为一组不相关的变量。在这种变换中,保持变量的总方差不变,同时,使第一主成分具有最大方差,第二主成分具有次大方差,依此类推。

主成分与原始变量间的关系

(1)每一个主成分是原始变量的线性组合。

(2)主成分的数目少于原始变量的数目。

(3)主成分保留了原始变量的大多数变异信息。

(4)各主成分间互不相关。

假定只有二维,即只有两个变量,由横坐标和纵坐标所代表;每个观测值都有相应于这两个坐标轴的坐标值。如果这些数据形成一个椭圆形状的点阵(这在二维正态的假定下是可能的)该椭圆有一个长轴和一个短轴。在短轴方向上数据变化较少。在极端的情况,短轴如退化成一点,长轴的方向可以完全解释这些点的变化,由二维到一维的降维就自然完成了。

由图可以看出这些样本点无论是沿着xl轴方向或x2轴方向都具有较大的离散性,其离散的程度可以分别用观测变量xl的方差和x2的方差定量地表示。显然,如果只考虑x1和x2中的任何一个,那么包含在原始数据中的经济信息将会有较大的损失。

当坐标轴和椭圆的长短轴平行,那么代表长轴的变量就描述了数据的主要变化,而代表短轴的变量就描述了数据的次要变化。但是,坐标轴通常并不和椭圆的长短轴平行。因此,需要寻找椭圆的长短轴,并进行变换,使得新变量和椭圆的长短轴平行。如果长轴变量代表了数据包含的大部分信息,就用该变量代替原先的两个变量(舍去次要的一维),降维就完成了。椭圆的长短轴相差得越大,降维也越有道理。

将xl轴和x2轴先平移,再同时按逆时针方向旋转θθ角度,得到新坐标轴Fl和F2。Fl和F2是两个新变量。根据旋转变换的公式:

旋转变换的目的是为了使得n个样品点在F1轴方向上的离散程度最大,即F1的方差最大。变量Fl代表了原始数据的绝大部分信息,在研究某经济问题时,即使不考虑变量F2也无损大局。经过上述旋转变换原始数据的大部分信息集中到Fl轴上,对数据中包含的信息起到了浓缩作用。

F1, F2除了可以对包含在Xl,X2中的信息起着浓缩作用之外,还具有不相关的性质,这就使得在研究复杂的问题时避免了信息重叠所带来的虚假性。二维平面上的个点的方差大部分都归结在F1轴上,而F2轴上的方差很小。 F1和F2称为原始变量x1和x2的综合变量。

X1 X2 ... Xp共计p个变量,现在将这p个变量线性组合组成新的变量F1 F2 ... Fk ,其中k<p。按照保留主要信息量的原则充分反映原指标的信息,并且相互独立。

由讨论多个指标降为少数几个综合指标的过程在数学上就叫做降维。主成分分析通常的做法是,寻求原指标的线性组合Fi。

第一主成分

第二主成分

说明主成分分析把p个随机变量的总方差分解成为p个不相关的随机变量的方差之和。协方差矩阵ΣΣ的对角线上的元素之和等于特征根之和。

本文来自作者[怜蕾]投稿,不代表米乐号立场,如若转载,请注明出处:https://milekids.com/ds/2908.html

(38)

文章推荐

  • 揭秘欧洲双面沙皇亚历山大一世:“战神”和“懦夫”

    网上有关“揭秘欧洲双面沙皇亚历山大一世:“战神”和“懦夫””话题很是火热,小编也是针对揭秘欧洲双面沙皇亚历山大一世:“战神”和“懦夫”寻找了一些与之相关的一些信息进行分析,如果能碰巧解决你现在面临的问题,希望能够帮助到您。一面是跃马香榭丽舍大街的战神,一面是屈服于农奴主的好好先生,缺乏对内的魄力让

    2025年07月28日
    44
  • 杨姓女孩高分名字的起名技巧介绍

    一个完美的名字,不仅需要名字有意义、好听,还需要符合孩子的八字命理。那么在给孩子取名的时候,我们可以用什么样的命名方法呢?如果你对起名还不够了解,那么我们可以列举一些相关的起名技巧和名字,或者可以直接参考我们应该如何起名最合适最好听?选择芳香的词语如果你希望一个女生的名字脱俗,或者给人耳目一新的感觉

    2025年08月03日
    31
  • 曹操为什么杀孔融

    网上有关“曹操为什么杀孔融”话题很是火热,小编也是针对曹操为什么杀孔融寻找了一些与之相关的一些信息进行分析,如果能碰巧解决你现在面临的问题,希望能够帮助到您。曹操杀孔融的原因是因为孔融与曹操的政治想法不一致。建安十三年(208年),孔融再次出任太中大夫。孔融已经看到曹操奸雄诡诈渐渐显露,愈发不能忍受

    2025年08月05日
    38
  • 读《俗世奇人》品世间百态!

    这几天估计是由于生理期的原因吧,干什么都没精神,而且莫名其妙的发个小火,首先遭殃的是我的先生薛某,横看竖看就是不顺眼。整个人快要崩溃了!昨天偶然瞧见班里的图书柜里躺着一本冯骥才的《俗世奇人》。心想翻开看看吧!不看不知道,一看心一惊,书中讲的每一个短故事太有意思了。于是乎一口气读完了整本书。01

    2025年08月06日
    35
  • 《水浒传》中浪子燕青简介?

    燕青,又名燕小乙,绰号浪子,北京大名府人氏,自幼父母双亡,由卢家抚养长大,是卢俊义的心腹家仆。他遍体花绣,善用弩箭,精通相扑,武艺高强,而且多才多艺,吹弹唱舞、各路乡谈、诸行百艺,无有不精。他文武双全,多才多艺,在梁山大聚义时,排第三十六位,上应“天巧星”,担任步军头领。曾在东京李师师处面见宋徽宗,

    2025年08月07日
    36
  • 气象局回应南昌现不明飞行物是怎么回事-

    南昌很多居民在经过八一大桥时,看到了天空中令人震惊的一幕:一个拖着长长尾巴的白色不明飞行物划过天空。有网友认为是外星飞船,也有比较理性的网友认为可能是用于人工增雨的抛射物。然而很快就被推翻了。因为视频中的飞船,是一种横向飞行。如果发射出去,它可以垂直向上飞。它在到达高空之前不会在空中飞行。一、随即内

    2025年08月08日
    35
  • 网上怎么买票的呢怎么操作

    法律分析:买票的方法有两种,可以到人工售票窗口买票,也可以在网上购买车票,然后到自动取票机进行取票,这样操作会更加方便,但如果遇到出行高峰,排队取票会非常耽误时间。法律依据:《铁路旅客运输规程》第三十四条旅客不能按票面指定的日期车次乘车时,在列车有能力的前提下可以办理一次提前或改晚乘车签证手续。办

    2025年08月09日
    36
  • 感恩医生的简短文案

    感恩医生的简短文案(精选48句)1.您的健康,我的快乐,您的微笑是对我们最好的鼓励与奖励。2.不宽恕众生,不原谅众生,是苦了你自己。3.安全,安全,安全是人们生存的基本。4.我们心中藏着天使的翅膀,张开翅膀用爱的羽翼呵护每一位病人。5.严谨:勤奋:求精:奉献。6.付出是满足,给予是快乐

    2025年10月29日
    32
  • 实惠也有高品质 戴尔灵越14笔记本详评

    网上有关“实惠也有高品质戴尔灵越14笔记本详评”话题很是火热,小编也是针对实惠也有高品质戴尔灵越14笔记本详评寻找了一些与之相关的一些信息进行分析,如果能碰巧解决你现在面临的问题,希望能够帮助到您。IT168评测近期,随着戴尔全新一代的Inspiron系列笔记本上市,包括Inspiron13

    2025年10月30日
    33
  • 日本福冈买什么便宜?

    日本福冈买什么便宜,福冈购物必买清单\x0d\日本买东西退税的金额,每人不能超过5000人民币,否则在入境中国时有机会会被抽查,然后就打税呗。\x0d\珂润卸妆_喱\x0d\这支卸妆凝胶真的是便宜又好用!拥有神经酰胺功能成分,锁住肌肤水分,有效解决肌肤干燥困扰。作为卸妆_喱,可将难以卸除的毛孔深处粉

    2025年11月05日
    37

发表回复

本站作者后才能评论

评论列表(4条)

  • 怜蕾
    怜蕾 2026年01月12日

    我是米乐号的签约作者“怜蕾”!

  • 怜蕾
    怜蕾 2026年01月12日

    希望本篇文章《PCA(主成分分析) 一》能对你有所帮助!

  • 怜蕾
    怜蕾 2026年01月12日

    本站[米乐号]内容主要涵盖:生活百科,小常识,生活小窍门,知识分享

  • 怜蕾
    怜蕾 2026年01月12日

    本文概览:研究一个问题,必须考虑许多指标,这些指标能从不同的侧面反映我们所研究的对象的特征,但在某种程度上存在信息的重叠,具有一定的相关性。这种信息的重叠有时甚至会抹杀事物的真正特征与内...

    联系我们

    邮件:米乐号@sina.com

    工作时间:周一至周五,9:30-18:30,节假日休息

    关注我们