聚类相关

归一化:可以将大量重复特征聚合为单一特征,降低重复带来的相似度差异。方法: Vx = Vx /abs(v1)+...abs(Vn)

词干处理:(变形词,同意词,近义词聚合) 减少特征的重复性 imaging-images buy-bought 我-俺 早餐-早饭.......

停用词:(弱特征)大量出现的没有实际特征意义的虚词,副词,语气词等  I ,am, is ,a,an,always 我,啊,了,个,的.........

停用词兴奋剂:(词频-反转文档频率(TF-IDF)) 大量的停用词出现在某部分文档中而极少出现在其它地方,反而成为某部分文档的强特征。


扁平聚类:将对象分为一系列相互之间没有关联的簇。每个簇中的的对象之间非常相似。

层次聚类:相似的对象聚集到一个簇中,相似的簇进一步聚集到一个超级簇中,逐步递归到形成一个簇。


k均值:不断调整质心和簇的分配,反复迭代到某一阈值时,聚类收敛成功。

其它相似度衡量方法:Cosin,Pearson,Jaccard系数等。


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值