- 基于传统机器学习训练出的模型优劣在很大程度上取决于样本数量,而在不平衡的小样本数据集中,正类数据量不足的问题成为了阻碍传统机器学习在解决不平衡数据集分类问题上的关键。
→\to→ 句子太长
→\to→ 词组重复率过高
→\to→ 究竟是样本少,还是不平衡问题?其实并没有解决样本少的问题。
→\to→ 在实际应用中,我们注重把多少正类样本正确地选出,而不是把多少负类样本错误地选出。
在微生物数据集中,正类样本比例小但价值高,如何进行代价敏感分类是机器学习的核心问题。 - 降维模块,利用KPCA对原始数据集中的特征进行降维,降维的主要目的为降低GAN网络生成数据时的难度及分类器分类的难度
→\to→ 不要把 GAN 这些后面的事情拿到前面来说
降维模块指在获得数据更好、更简洁、更抽象的表示。
论文修改建议 (Zhang XM 20210922)
最新推荐文章于 2025-08-15 23:13:00 发布