### dhu机器学习PCA大作业知识点总结 #### 一、PCA绿萝数据分析 **1. 程序环境** - **编程语言:** Python 3.7 (64位) - **开发工具:** Spyder (Anaconda自带) **2. 编程步骤概述** - **数据加载:** 加载绿萝数据集 - **数据预处理:** 计算向量均值并进行中心化 - **协方差矩阵计算:** 计算中心化后的数据协方差矩阵 \(C_X\) - **特征值分解:** 对协方差矩阵 \(C_X\) 进行特征值分解,选取前两个最大特征值对应的特征向量(第一部分)或前三、第四个最大特征值对应的特征向量(第二部分) - **降维:** 使用选取的特征向量 \(P\) 进行数据降维,计算 \(Y = PX\) - **可视化:** 绘制二维或三维散点图 **3. 代码实现与结果** - **二维散点图:** 使用前两个主成分构建二维散点图,直观展示了数据降维后的分布情况。 - **三维散点图:** 在三维空间中展示数据,通过对程序进行调整,实现了不同角度下的数据可视化。 **4. 结果分析** - **二维图分析:** 降维后的二维图呈现出椭圆形分布,具有一定的聚类效果,部分区域较为密集,另一些区域则相对稀疏。 - **三维图分析:** 三维图显示数据呈现出类似椭圆柱的形状,中心区域密集而边缘分散。俯视图与二维图相符。 **5. 问题与优化** - **编译器限制:** 使用Spyder时,图形显示存在局限性,如无弹窗、图片大小问题。为解决这些问题,作者尝试使用了Jupyter Notebook进行优化。 - **多角度观察:** 通过调整绘图程序,实现了不同角度的可视化展示,解决了无弹窗导致的视角限制问题。 - **细节增强:** 为了更好地分析数据,对程序进行了调整,例如仅绘制XY平面投影来增强俯视效果的清晰度。 #### 二、迭代式PCA对片状三维数据拟合平面 **1. 程序环境** - **编程语言:** Python 3.7 (64位) - **开发工具:** Spyder (Anaconda自带) **2. 编程步骤概述** - **数据生成:** 随机生成包含噪声的片状三维数据集 - **迭代算法:** 选取中心点,计算PCA并找到最小特征值对应的主成分方向作为法向量,拟合平面,然后根据距离阈值筛选数据点,直至数据集稳定。 **3. 代码实现与结果** - **数据生成:** 通过随机过程生成含噪声的片状三维数据集。 - **平面拟合:** 实现了完整的迭代PCA算法,并绘制了每一步迭代过程中的拟合平面。 **4. 结果分析** - **拟合效果:** 经过多次迭代后,拟合平面能够较好地覆盖数据集,仅有少量离群点。 - **随机性:** 由于数据集随机生成,每次实验结果会有所差异。 **5. 问题与优化** - **迭代终止条件:** 设定固定的迭代次数,便于控制迭代过程和后续绘图。 - **阈值动态调整:** 随着迭代次数增加逐步减小阈值,可提高拟合精度。 #### 思考题: 其他方法拟合平面 **1. 方法选择: RANSAC (Random Sample Consensus)** - **方法步骤概述:** - 从数据集中随机选取三个不共线的点来拟合一个初始平面。 - 计算所有数据点到该平面的距离,并将距离小于阈值的点标记为内点。 - 重复上述过程,寻找内点最多的平面,并以此为最终拟合结果。 **2. 方法优势** - **鲁棒性:** 能够有效应对数据集中的噪声和异常值。 - **迭代优化:** 通过不断迭代改进平面拟合,提高模型准确性。 **总结:** 本作业报告详细介绍了PCA降维技术在绿萝数据集上的应用,包括二维和三维可视化,以及迭代式PCA对片状三维数据拟合平面的方法。通过理论结合实践的方式,不仅展示了Python编程技巧,还深入探讨了数据可视化和模型优化等方面的内容。此外,报告还引入了RANSAC算法作为补充,进一步拓宽了解决实际问题的思路。
































- 粉丝: 8
我的内容管理 展开
我的资源 快来上传第一个资源
我的收益
登录查看自己的收益我的积分 登录查看自己的积分
我的C币 登录后查看C币余额
我的收藏
我的下载
下载帮助


最新资源
- 大数据视角下的语文课堂提问方法探究.docx
- 云计算市场与技术发展趋势.doc
- 通信工程施工管理概述.doc
- 关于强电线路对通信线路的影响及其防护.doc
- 集团大数据平台安全方案规划.docx
- Matlab基于腐蚀和膨胀的边缘检测.doc
- 网络监控系统解决方案酒店.doc
- 电动机智能软起动控制系统的研究与方案设计书(PLC).doc
- jAVA2程序设计基础第十三章.ppt
- 基于PLC的机械手控制设计.doc
- 医院his计算机信息管理系统故障应急预案.doc
- 企业运用移动互联网进行青年职工思想政治教育路径.docx
- 数据挖掘的六大主要功能.doc
- 大数据行政尚在跑道入口.docx
- 用Proteus和Keil建立单片机仿真工程的步骤.doc
- Internet技术与应用网络——资源管理与开发.doc


