
python机器学习
使用python语言对机器学习程序构写
枭玉龙
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
加载停用词
加载停用词原创 2021-03-03 17:51:48 · 198 阅读 · 1 评论 -
NLP案例
运用朴素贝叶斯进行分类,使用到了停用词原创 2023-09-12 15:54:01 · 80 阅读 · 0 评论 -
特征预处理,K-紧邻API
特征工程,特征预处理 就是通过一些转换函数将特征数据转换成更加适合算法模型的特征数据过程 特征的单位或者大小相差较大,或者某特征的方差比其他特征要打出几个数量级, 容易影响(支配的结果),使得一些算法无法学习到其他的特征原创 2023-09-12 15:56:23 · 86 阅读 · 0 评论 -
Numpy科学技算库
Numpy:用于快速处理任意维度的数组,支持常见的数组和矩阵操作 Ndarray:对象是一个快速而灵活的大数据容器 np.array(【【】,【】】)用于存储 ndarray在存储数据的时候数据与数据的地址都是连续的,这样就给使得批量操作数组元素时时速度更快 ndarray中的所有元素的类型都是相同的,可以省掉很多的循环语句 ndarray支持并行化运算(向量化运算) ndarray的属性 ndarray的属性 数组属性反映了数组本身固有的信息。 属性名字 属性解释 n原创 2020-08-17 16:39:15 · 185 阅读 · 0 评论 -
机器学习理论基础---1
机器学习理论基础 机器学习工作流程的总结 获取数据集: 要有多少的样本每个样本的特征,根据特征再进行归类成相应的目标值 1:数据要有代表性,否者会过拟合,(数据集尽量差异大,提取会更好)。 2:对数据的分类问题,数据偏斜不能过严重,不同类别的数据数量不要有数量级的差距。 3:对数据集的量级做一个评估,多少个样本,多少个特征,可以估算出内存的消耗, 太大放不下就要考虑改进算法和做一些降维的技巧,如果数据集太大,就要考虑做分布式的处理方式。 数据集的基本处理: 1:数据的清洗很关键的一步,原创 2020-07-12 16:05:13 · 1045 阅读 · 1 评论