
机器学习
文章平均质量分 86
沸点数据
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
K-Means聚类算法原理
K-Means算法是无监督的聚类算法,它实现起来比较简单,聚类效果也不错,因此应用很广泛。K-Means基于欧式距离认为两个目标距离越近,相似度越大。1. 牧师-村民模型2. K-Means原理初探K-Means算法的思想很简单,对于给定的样本集,按照样本之间的距离大小,将样本集划分为k个簇。让簇内的点尽量紧密的连在一起,而让簇间的距离尽量的大。质心:均值,即向量各维取平均即可。 直接求解上式的最小值困难,这是np难...原创 2021-11-23 15:43:27 · 7019 阅读 · 0 评论 -
XGBoost
XGBoost (eXtreme Gradient Boosting)极限梯度提升算法1、安装#windowspip install xgboost #安装xgboost库pip install --upgrade xgboost #更新xgboost库#MACbrew install gcc@7pip3 install xgboost2、原创 2020-07-03 13:54:01 · 164 阅读 · 0 评论 -
数据预处理与特征工程
1、数据预处理与特征工程数据挖掘的5大流程:获取数据 数据预处理 数据预处理是从数据中检测、纠正或删除损坏、不准确或不适用于模型记录的过程。 可能问题:数据类型不同,比如有的是文字,有的是数字,有的含时间序列,有的连续,有的间断;也可能,数据质量不行,有噪声,有异常,有缺失,数据出错,量纲不一,有重复,数据是偏态,数据量太大或太小。 数据预处理的目的:让数据适应模型,匹配模型的需求。 3.特征工程 特征工程:是将原始数据转换为更能代表预测模型的...原创 2020-05-17 11:09:46 · 914 阅读 · 0 评论 -
朴素贝叶斯进行新闻分类
朴素贝叶斯# coding=utf8from sklearn.naive_bayes import MultinomialNBfrom sklearn.datasets import fetch_20newsgroupsfrom sklearn.model_selection import train_test_splitfrom sklearn.feature_extraction...原创 2020-04-03 10:12:03 · 395 阅读 · 0 评论 -
贝叶斯拼写检查器
求解:argmaxc P(c|w) -> argmaxc P(w|c) P(c) / P(w)P(c), 文章中出现一个正确拼写词 c 的概率, 也就是说, 在英语文章中, c 出现的概率有多大 P(w|c), 在用户想键入 c 的情况下敲成 w 的概率. 因为这个是代表用户会以多大的概率把 c 敲错成 w argmaxc, 用来枚举所有可能的 c 并且选取概率最大的# 要是遇到我...原创 2020-04-02 21:12:01 · 262 阅读 · 0 评论 -
numpy科学计算库
原文参考:https://www.runoob.com/numpy/numpy-tutorial.htmlNumPy(Numerical Python) 是 Python 语言的一个扩展程序库,支持大量的维度数组与矩阵运算,此外也针对数组运算提供大量的数学函数库。NumPy 是一个运行速度非常快的数学库,主要用于数组计算,包含:一个强大的N维数组对象 ndarray 广播功能函数 ...原创 2020-04-02 10:51:01 · 308 阅读 · 0 评论 -
matplotlib绘图
matplotlib 最流行的Python底层绘图库,主要做数据可视化图表,名字取材于MATLAB,模仿MATLAB构建1、假设一天中每隔两个小时(range(2,26,2))的气温(℃)分别是[15,13,14.5,17,20,25,26,26,27,22,18,15]import matplotlib.pyplot as pltfrom matplotlib import font...原创 2020-04-01 15:10:49 · 335 阅读 · 0 评论 -
机器学习之指标和评分:量化预测的质量
文章参考:https://scikit-learn.org/stable/modules/model_evaluation.html#clustering-metrics1、分类指标 Classification Metricssklearn.metrics 模块实现了一些损失、评分和实用函数衡量分类的性能。一些指标可能需要对正类、置信度值、或二进制决策值的概率估计。大部分实现都允许每个样...原创 2020-03-31 16:25:57 · 1607 阅读 · 0 评论 -
jieba
原文转载自:https://github.com/fxsjy/jiebajieba“结巴”中文分词:做最好的 Python 中文分词组件特点支持四种分词模式 精确模式,试图将句子最精确的切开,适合文本分析; 全模式,把句子中所有的可以成词的词语都扫描出来,速度非常快,但是不能解决歧义; 搜索引擎模式,在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词。...转载 2020-03-29 22:01:34 · 742 阅读 · 1 评论 -
机器学习--K近邻算法
1、定义:如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别。KNN算法最早是由Cover和Hart提出的一种分类算法。两个样本的距离通过欧式距离计算2、sklearn K-近邻算法APIsklearn.neighbors.KNeighborsClassifier(n_neighbors=5,algorithm='aut...原创 2020-03-29 16:41:22 · 280 阅读 · 0 评论 -
机器学习之转换器和估计器
1、转换器2、估计器在sklearn中,估计器estimator是一个重要角色,分类器和回归器都属于estimator,是一类实现了算法的API。(1)用于分类的估计器:sklearn.neighbors k-近邻算法 sklearn.naive_bayes 贝叶斯 sklearn.linear_model.LogisticRegression 逻辑回归 sklea...原创 2020-03-29 15:51:21 · 360 阅读 · 0 评论 -
sklearn之datasets
sklearn之datasetssklearn.datasets模块提供了导入、在线下载及本地生成数据集的付费,通过dir或help命令查看:(1)datasets.load_<dataset_name>() : sklearn自带的小数据集datasets.load_iris() # 鸢尾花数据集datasets.load_boston() # 波士顿房价数据集d...原创 2020-03-29 15:34:35 · 520 阅读 · 0 评论 -
sklearn.model_selection中的train_test_split
train_test_split()是sklearn.model_selection中的分离器函数,用户将数组或矩阵拆分为训练集和测试集,函数样式为:X_train,X_test,y_train,y_test=train_test_split(train_data,train_target,test_size,random_state,shuffle)参数解释:train_data :...原创 2020-03-29 13:36:15 · 692 阅读 · 0 评论