
机器学习
python 机器学习
嘻哈吼嘿呵
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
TextRank学习笔记
首先介绍原理与概念TextRank 算法是一种用于文本的基于图的排序算法。其基本思想来源于谷歌的 PageRank算法(其原理在本文在下面), 通过把文本分割成若干组成单元(单词、句子)并建立图模型, 利用投票机制对文本中的重要成分进行排序, 仅利用单篇文档本身的信息即可实现关键词提取、文摘。和 LDA、HMM 等模型不同, TextRank不需要事先对多篇文档进行学习训练, 因其简洁有效而得...转载 2019-09-17 10:19:12 · 906 阅读 · 0 评论 -
TF-IDF算法介绍及实现
1、TF-IDF算法介绍 TF-IDF(term frequency–inverse document frequency,词频-逆向文件频率)是一种用于信息检索(information retrieval)与文本挖掘(text mining)的常用加权技术。 TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要...转载 2019-09-17 10:28:24 · 3855 阅读 · 0 评论 -
卡方检验
目录01 什么是卡方检验:02 投硬币03 投筛子04 电商中消费者的性别和购买生鲜卡方检验,统计学的方法,现在机器学习看变量的时候也会用到。很多不知道的人,一听到这个名词,会马上联想到,啊?还要拿张卡来检验吗?其实卡方检验是英文Chi-Square Test 的谐音。在大数据运营场景中,通常用在某个变量(或特征)值是不是和应变量有显著关系。我常听到运营和分析师...转载 2019-10-01 20:01:53 · 435 阅读 · 0 评论 -
均值、方差、标准差、协方差的概念及意义
1、均值和方差(1)统计学里最基本的概念就是样本的均值、方差、标准差。首先,我们给定一个含有n个样本的集合,下面给出这些概念的公式描述:均值:标准差:方差:(2)均值描述的是样本集合的中间点。(3)标准差给我们描述的是样本集合的各个样本点到均值的距离之平均。(4)示例以两个集合为例,[0, 8, 12, 20] 和 [8, 9, 11, 12]两个集合的均值都...原创 2019-10-01 20:52:06 · 7464 阅读 · 0 评论 -
Pearson 相关系数
1、基本介绍(1)Pearson's r,称为皮尔逊相关系数(Pearson correlation coefficient),用来反映两个随机变量之间的线性相关程度。(2)pearson是一个介于 -1 和1 之间的值。(3)当两个变量的线性关系增强时,相关系数趋于1或-1;(4)当一个变量增大,另一个变量也增大时,表明它们之间是正相关的,相关系数大于0;(5)如果一个变量增...原创 2019-10-01 21:01:48 · 13563 阅读 · 0 评论 -
PCA的数学原理
目录一、数据的向量表示及降维问题二、向量的表示及基变换1、内积与投影2、基3、基变换的矩阵表示4、协方差矩阵及优化目标5、方差6、协方差7、协方差矩阵8、协方差矩阵对角化9、算法及实例10、进一步讨论PCA(Principal Component Analysis)是一种常用的数据分析方法。PCA通过线性变换将原始数据变换为一组各维度线性无关的表...转载 2019-10-02 13:33:00 · 652 阅读 · 0 评论