影响逻辑斯蒂回归性能的因素

最新推荐文章于 2024-01-08 13:29:21 发布

相门码农

最新推荐文章于 2024-01-08 13:29:21 发布

阅读量1.1k

点赞数

CC 4.0 BY-SA版权

分类专栏：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/chinachenyadong/article/details/45047999

机器学习专栏收录该内容

2 篇文章

订阅专栏

本文探讨了逻辑斯蒂回归在步长、迭代次数、默认类别存在与否、二元与多元分类、损失函数比率及归一化等方面对模型性能的影响。通过实验发现，包含默认类别、适中的步长、迭代次数、优化的损失函数比率以及适当的归一化都能提升模型准确率。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

我们考察步长、迭代次数、是否包含默认类别、二元或多元、损失函数比率，归一化等因素。并与最大熵分类器进行对比。

1. 是否包含默认类别，就是说在进行K元分类时，是否包含第K+1个默认类别。

包含默认类别的输出h(x) = exp (W*X) / {1.0 + sum_exp (W*X)}，对于iClassIndex <= K；h(x) = 1.0 / {1.0 + sum_exp (W*X)}，对于iClassIndex == K+1。

不包含默认类别的输出h(x) = exp (W*X) / {1.0 + sum_exp (W*X)}，对于iClassIndex <= K-1；h(x) = 1.0 / {1.0 + sum_exp (W*X)}，对于iClassIndex == K。

性能对比：多元分类包含 92.78% 不包含 92.46%

二元分类包含 100% 不包含 98.91%

2. 多元分类下步长的影响。迭代次数固定为100

0.003 89.34%

0.01 92.46%

0.03 92.46%

0.1 89.67%

3. 多元分类下迭代次数的影响。步长固定为0.01

50次 89.34%

100次 89.34%

150次 89.34%

4. 用多元分类器对二元问题进行分类。

二元分类（不包含默认类别） 98.92% 多元分类(包含默认类别) 100% 多元分类(不包含默认类别) 98.91%

5. 与MALLET的最大熵分类器进行多元分类的对比。

最大熵 91.15% 逻辑斯底回归 92.78%

6. 损失函数比率的计算公式为dImproveRatio = (dPreCost - dCost) / dPreCost，初始化dPreCost=100, dCost=0。固定步长为0.01，最大迭代次数为100次。

dImproveRatio = 0.01 89.67% 迭代停止在25次

dImproveRatio = 0.003 91.31% 迭代停止在69次

dImproveRatio = 0.001 92.78% 迭代停止在100次

7. 归一化的影响。dValue = (dValue - dMin) / (dMax - dMin)

对于没有归一化的数据集：归一化 80% 没有归一化 58%

对于已经归一化的数据再次归一化：归一化(步长0.01) 88% 归一化(步长0.1) 91% 没有归一化 92%

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。