
大数据
糖人豆丁
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
机器学习实战——机器学习基础
机器学习用到了统计学知识 机器学习就是把无序的数据转换成有用的信息 如何从数据集中选取特征? 通常的做法是测量所有可测属性,而后再挑出重要部分。 机器学习的主要任务就是分类。为了测试机器学习算法的效果,通常使用两套独立的样本集,训练数据和测试数据。当机器学习程序开始运行时,使用训练样本集作为算法的输入,训练完成后输入测试样本。输入测试样本时并不提供测试样本的目标变量,由程序决定样本属于那个类...翻译 2018-03-29 21:41:17 · 556 阅读 · 0 评论 -
大数据学习笔记——Hadoop生态系统
Hadoop的核心主要包括两部分:分布式文件系统(HDFS)和MapReduce。其中HDFS解决的是数据存储问题,而MapReduce针对的则是数据处理、分析等。原创 2018-03-25 15:40:24 · 311 阅读 · 0 评论 -
numpy中的tile函数的使用说明
numpy中的tile函数网上讲解的有很多,但大概都是一带而过,这里参照官方文档进行一下说明。 def tile(A, reps): “”” Construct an array by repeating A the number of times given by reps. If reps has length d, the result wi...原创 2018-04-08 22:38:06 · 315 阅读 · 0 评论 -
机器学习如何处理数据中的缺失值
处理数据缺失值的常见做法: 使用可用特征的均值来填补缺失值 使用特殊值来填补缺失值,如-1 忽略有缺失值的样本 使用相似样本的均值填补缺失值 使用机器学习算法预测缺失值 ...原创 2018-04-17 16:07:26 · 1353 阅读 · 0 评论 -
支持向量机SVM
一、简介 SVM被有的人认为是目前最好的现成(现成是指分类器不加修改即可直接使用)的算法之一,这意味着在数据上应用基本形式的SVM分类器就可以得到低错误率的结果。SVM能对训练集之外的数据点做出很好的分类决策。 二、概念解释 分隔超平面:即分类的决策边界,分布在超平面一侧的所有数据都属于某个类别,而分布在另一侧的所有数据则属于另一个类别。 构建分类器:数据点离决策边界越远,那么其最后的...原创 2018-04-17 22:11:39 · 192 阅读 · 0 评论 -
机器学习元算法
元算法将不同的分类器组合起来,具体使用有多种形式,可以是不同算法的集成,也可以是不同算法在不同设置下的集成,还可以是数据集不同部分分配给不同分类器之后的集成。 一、bagging:基于数据随机重抽样的分类器构建算法 自举汇聚法(bootstrap aggregating),也称为bagging方法,是在从原始数据集选择S次后得到S个新数据集的一种技术。新书记集和原始数据集大小相等。每个数据集都...原创 2018-04-19 14:48:57 · 2107 阅读 · 0 评论