1.1 算法简介
主成分分析是一种简化数据集的技术,它旨在利用降维的思想,把多个指标转化为少数几个综合指标。它通过一个线性变换,把数据变换到一个新的坐标系统中,降维后的之指标既能代表原始的绝大多数信息,又互不相关,并且在新的综合指标的基础上,可以进一步的统计分析。例如衡量学生成绩时,成绩表里有语文、数学、物理、化学。可是化学老师勤快,一学期测验过好多次,所以这里就有多个化学成绩。那么计算总分的时候,为了避免信息的重叠导致结果失真,就需要把几个化学成绩降维成一个化学成绩。
1.2 算法适用场景
算法优缺点:
优点:
1) 利用降维技术用少数几个综合变量来代替原始多个变量,这些综合变量集中了原始变量的大部分信息。
2) 通过计算综合主成分函数得分,对客观经济现象进行科学评价。
3) 在应用上侧重于信息贡献影响力综合评价。
缺点:
上面是主成分分析的应用结果,可以看出,处理后的因子有正有负,当主成分的因子负荷的符号有正有负时,综合评价函数意义就不明确,命名清晰性低。
算法适用场景:
在实际分析问题时,研究者往往选择很多的指标。这些指标之间经常会存在一定程度的线性相关,这样就会导致信息的重叠。直白说就是用多个指标分析一个问题,由于某些指标反映的是问题的同一方面,这样如果把全部指标都同等地纳入模型,就会导致结果失真。这种情况下就要用主成分分析,对数据进行降维处理。把多个指标综合成少数几个指标,用这几个综合的指标进一步分析。