论文修改建议 (Zhang XM 20210922)

本文探讨了在小样本不平衡数据集上应用传统机器学习所面临的挑战,特别是针对正类样本稀缺的情况。重点介绍了在微生物数据集这类特殊场景下进行代价敏感分类的方法,并讨论了通过KPCA等手段进行数据降维以提升后续处理效率的技术。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

  1. 基于传统机器学习训练出的模型优劣在很大程度上取决于样本数量,而在不平衡的小样本数据集中,正类数据量不足的问题成为了阻碍传统机器学习在解决不平衡数据集分类问题上的关键。
    →\to 句子太长
    →\to 词组重复率过高
    →\to 究竟是样本少,还是不平衡问题?其实并没有解决样本少的问题。
    →\to 在实际应用中,我们注重把多少正类样本正确地选出,而不是把多少负类样本错误地选出。
    在微生物数据集中,正类样本比例小但价值高,如何进行代价敏感分类是机器学习的核心问题。
  2. 降维模块,利用KPCA对原始数据集中的特征进行降维,降维的主要目的为降低GAN网络生成数据时的难度及分类器分类的难度
    →\to 不要把 GAN 这些后面的事情拿到前面来说
    降维模块指在获得数据更好、更简洁、更抽象的表示。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值