机器学习算法与投资策略的可视化探索
立即解锁
发布时间: 2025-08-17 00:17:56 订阅数: 2 

### 机器学习算法与投资策略的可视化探索
#### 1. 机器学习分类算法概述
介绍了GLC - L、GLC - IL、GLC - AL和GLC - DRL算法,这些算法可用于交互式解决n维机器学习分类任务中的知识发现。通过来自计算机辅助医学诊断、图像处理和金融(股票市场)三个领域的数据进行了五个案例研究,评估了这些算法的实用性。
这些算法具有以下优点:
- 以图形形式在二维中无损(可逆)可视化n维数据。
- 图形无自交叉(平面图)。
- 维度可扩展性,案例研究显示在484维上取得成功。
- 案例数量可扩展性,交互式数据聚类增加了可处理的数据案例数量。
- 集成自动和交互式可视化手段。
- 达到分析方法的准确性水平。
- 有机会证明线性和非线性模型,而非猜测预测模型的类别。
- 易于机器学习非专家理解,主题专家在数据科学家的最少支持下即可完成。
- 支持多类分类。
- 线性函数的直观视觉隐喻。
- 适用于发现模式、选择数据子集、分类数据、聚类和降维。
#### 2. 案例研究结果
以下是三个案例研究在70 - 30%数据分割下的最佳分类准确率:
|案例研究|运行次数|训练准确率(%)|验证准确率(%)|
| ---- | ---- | ---- | ---- |
|威斯康星乳腺癌数据|1|96.86|96.56|
| |2|96.65|97.05|
| |3|97.91|96.56|
| |4|96.45|96.56|
| |5|97.07|96.57|
| |6|97.91|96.07|
| |7|97.07|96.56|
| |8|97.49|98.04|
| |9|97.28|98.03|
| |10|96.87|97.55|
| |平均|97.16|96.95|
|帕金森病数据|1|89.05|74.13|
| |2|85.4|84.48|
| |3|84.67|94.83|
| |4|84.67|84.48|
| |5|85.4|77.58|
| |6|84.67|93.1|
| |7|84.67|86.2|
| |8|87.59|87.93|
| |9|86.13|82.76|
| |10|83.94|87.93|
| |平均|85.62|85.34|
|MNIST子集数据|1|98.17|98.33|
| |2|94.28|94.62|
| |3|95.07|94.81|
| |4|97.22|96.67|
| |5|94.52|93.19|
| |6|92.85|91.48|
| |7|96.03|95.55|
| |8|94.76|94.62|
| |9|96.11|95.56|
| |10|95.43|95.17|
| |平均|95.44|95.00|
#### 3. 算法实验分析
在所有实验中,50个模拟周期足以获得可接受的结果。这50个周期对应于计算500个目标函数(准确率)的值,因为每个周期有十种训练和验证数据版本。数据快速收敛的可能原因是数据集中可能存在许多“好”的判别函数,能够准确分离类别,包括具有宽边界的情况。在这种情况下,少量的模拟就能找到“好”的函数。
GLC - AL算法的可能贡献在于随机生成系数向量{K},这可以快速覆盖超立方体[ - 1, 1]n + 1中的K范围,并捕获能快速产生高精度的K。少量的模拟次数是一个具有多个值的典型模糊集,在实验中这个次数约为50次迭代。构建这个模糊集的完整隶属函数是未来对多个不同数据集研究的主题。
#### 4. 过拟合与欠拟合问题及解决思路
过拟合会将相关案例视为无关案例而拒绝,欠拟合则会将无关案例视为相关案例而接受。所描述的可视化分析有助于改善学习算法中欠拟合(过度泛化)和过拟合的控制,即所谓的偏差 - 方差困境。
常见的处理过拟合的方法是在成本函数中添加正则化项,惩罚判别函数的复杂性,如要求其平滑性
0
0
复制全文
相关推荐









