没有合适的资源?快使用搜索试试~ 我知道了~
温馨提示
k-means算法是简单而有效的统计聚类算法,使机器能够将具有相同属性的样本归置到一块儿。与分类不同,对于一个分类器,通常需要告诉它“这个样本被分成哪些类”这样一些标签,在最理想的情况下,一个分类器会从所得到的训练集中进行“学习”,我们将这种提供训练的过程称为“监督学习”。但是在聚类下,我们并不关心某一类是什么,我们的目的是想将相似的样本归置在一起,这样,一个聚类算法通常只要知道如何计算样本间的相似的样本归并到一起就可以操作了,因此聚类通常并不需要使用训练数据进行学习,这在机器学习中被称作“无监督学习”。K-means算法就是这种用于统计的无监督类技术。它是一种聚类算法,所谓聚类,即根据相似性原装额,将具有较高相似度的数据对象划分至同一类簇,将具有较高相异度的数据对象划分至不同类簇。聚类与分类最大的区别在于,聚类过程为无监督过程,即待处理数据对象没有任何先验知识,而分类过程为有监督过程,即存在有先验知识的训练数据集。K-means算法中的k代表类簇个数,means代表类簇内数据对象的均值(这种均值是一种对类簇中心的描述),因此,k-means算法又称为k均值算法。
资源推荐
资源详情
资源评论
































1
xxx 大学信息与电气工程学院 2017-2018 学年第 2 学期
《数据挖掘(研)》课程论文
课程号:220121160-01
任课教师 xxx 成绩
论文题目:(可指定题目,也可说明题目范围。)
基于 k-means 算法的城市划分问题
论文要求:(对论文题目、内容、行文、字数等作出判分规定。)
1、结合自己感兴趣的实际应用领域,自拟题目,并使用本学期
数据挖掘课程中所学习的基本数据分析和处理方法,包括数据预处
理、探索性分析、数据仓库、相似度计算、决策树分类、最近邻分
类、朴素贝叶斯分类、逻辑回归、支持向量机、神经网络、关联规
则、K-means 聚类、层次聚类和密度聚类等知识,对所解决的实际问
题从基本理论、数学原理、算法设计、数据描述和实验结果与分析
等角度展开描述。
2、要求论文结构清晰、语言通顺、图文并茂,字数不少于 5000
字。正文首行缩进 2 个汉字,多倍行距设置为 1.25,字体要求汉字
为宋体,英文为 Times New Roman,大小为小四。论文一定要亲自
撰写,自己动手设计算法和编写程序,如发现论文来自网上,或是
抄袭他人,按作弊处理,本门课程考核总成绩计 0 分。
3、上交论文电子版时每人提交一个文件夹,里面包含论文电子
版和程序文件夹;文件夹和论文电子版的命名格式统一为“学号-姓
名-班级-论文题目”。此外,必须上交论文的打印稿,并要与电子稿
的内容一致,不规范者将酌情扣分。
教师评语:
教师签字:
年 月 日
正文
摘要:
数据挖掘是现在处理信息和数据库方面热门的研究课题,是最具有发展潜力的关
键技术之一。聚类分析算法是数据挖掘中的一个重要方法,用于发现数据库中未知数
据的分类,有着广泛的应用。本文结合 k-mean 方法的实际应用尽心了详尽的解释。
近年来,随着信息技术和计算机技术的快速发展,数据库技术得到了迅猛发展,目前,
数据库已经在人们的生活中广泛应用。产生越来越多的数据,如文本、图像、视频以
及音频数据等,这些资料的范围广复杂度高,很难准确的形容和有效的利用,因此如
何从中提取有用的信息和知识,成为了人们的一项艰巨的任务。为了解决用户从这些
挑选出其间所蕴含的具有价值的知识,人们结合了统计学,数据库,计算机和人工智
能等技术提出了数据挖掘技术。
基本理论:
k-means 算法是简单而有效的统计聚类算法,使机器能够将具有相同属性的样本
归置到一块儿。与分类不同,对于一个分类器,通常需要告诉它“这个样本被分成哪
些类”这样一些标签,在最理想的情况下,一个分类器会从所得到的训练集中进行
“学习”,我们将这种提供训练的过程称为“监督学习”。但是在聚类下,我们并不关
心某一类是什么,我们的目的是想将相似的样本归置在一起,这样,一个聚类算法通
常只要知道如何计算样本间的相似的样本归并到一起就可以操作了,因此聚类通常并
不需要使用训练数据进行学习,这在机器学习中被称作“无监督学习”。K-means 算
法就是这种用于统计的无监督类技术。它是一种聚类算法,所谓聚类,即根据相似性
原装额,将具有较高相似度的数据对象划分至同一类簇,将具有较高相异度的数据对
象划分至不同类簇。聚类与分类最大的区别在于,聚类过程为无监督过程,即待处理
数据对象没有任何先验知识,而分类过程为有监督过程,即存在有先验知识的训练数
据集。K-means 算法中的 k 代表类簇个数,means 代表类簇内数据对象的均值(这种
均值是一种对类簇中心的描述),因此,k-means 算法又称为 k 均值算法 k-means 算法
是一种基于划分的聚类算法,以距离作为数据对象间相似度量的标准,即数据对象间
的距离越小,则它们的相似性越高,则它们越有可能在同一个类簇。数据对象间距离
的计算有很多种,k-means 算法通常采用欧式距离来计算数据对象间的距离。
k-mean 算法实现步骤:
k-means 算法的基本思想是初始随机给定 k 个簇中心,按照最邻近原则把待分类
学院__信电__专业_计算机科学与技术__班级_计本 1501__本专 学号_20152805316__姓名_xxx_______
密封线 学生须将文字写在此线以下
资源评论


passionSnail
- 粉丝: 681
上传资源 快速赚钱
我的内容管理 展开
我的资源 快来上传第一个资源
我的收益
登录查看自己的收益我的积分 登录查看自己的积分
我的C币 登录后查看C币余额
我的收藏
我的下载
下载帮助


最新资源
- 项目管理之会议管理.docx
- 电信增值业务短信平台软件技术实施方案.doc
- 智慧城市建设与发展.docx
- 软件工程师考评表模板.doc
- 互联网+时代动画模型设计工具应用研究.docx
- 软件工程常考简答题.doc
- OBE教育模式下高职计算机网络课程的改革探究.docx
- 软件评测师考试习题.doc
- 局域网络组网技术大学本科方案设计书.doc
- 营销型网站建设营销型网站策划.ppt
- 新课程理念下的信息化课程设计.doc
- 线上+线下混合式学习在中职计算机基础课程教学中的应用研究.docx
- MATLAB自适应滤波去噪.doc
- 以信息化为核心加强医院后勤设备管理的思考.doc
- Viterbi改进算法研究.docx
- 单片机课件设计—HC译码器实验.doc
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈



安全验证
文档复制为VIP权益,开通VIP直接复制
