目录
前言
不知不觉就步入了研究生的大门,蓦然回首,大学四年时光如流水,正如歌词唱的那样,转眼就各奔东西。工作的工作,升学的升学。时间真的很快!留不住的时间,珍惜眼前吧!
简介
数据挖掘,一门计算机科学课程,一种计算机科学技术,一种针对大数据的处理手段,一种通过各种算法来搜索隐藏于大数据中的巨大潜在价值的过程。通过统计、在线分析处理、情报检索、机器学习、专家系统和模式识别等方法来实现。
在如今数据爆炸的时代,大数据越来越“大”,蕴藏在大数据中的潜在价值也越来越高,相应的,获取潜在价值的难度也越来越大。所以,市场上迫切需要一个优秀的获取潜在价值的工具。需求驱动发展,数据挖掘孕育而生。将杂乱无章的数据转换成有用的信息和知识,涉及到多种行业的应用,如市场分析、商务管理、科学探索、工程设计和生产控制等等。
数据挖掘是人工智能和数据库领域研究的热点问题。数据挖掘就是指从数据库中的大量数据中揭示出未知的并具有潜在价值的信息的过程,是一种决策支持过程,它主要基于人工智能、机器学习、模式识别、统计学、数据库、可视化技术等,高度自动化地分析数据,作出归纳性的推理,从中挖掘出潜在价值的模式。数据挖掘可以与用户或知识库交互。
数据挖掘是通过分析每个数据,从大量数据中寻找其中的规律的技术。主要有数据准备、规律寻找和结果展示。数据准备:从相关的数据源中选取所需的数据并整合成用于数据挖掘的数据集;规律寻找:就是数据挖掘,通过某种方法来寻找数据集中数据的规律;结果展示:将找到的规律,尽可能使用用户可以理解的方法(如可视化、语言文字等)将规律结果展示出来。数据挖掘的任务有关联分析、聚类分析、分类分析、异常分析、特异群组分析和演变分析等。
数据挖掘利用了来自如下一些领域的思想:①来自统计学的抽样、估计和假设检验;②人工智能、模式识别和机器学习的搜索算法、建模技术和学习理论。数据挖掘也迅速地接纳了来自其他领域的思想,这些领域包括最优化、进化计算、信息论、信号处理、可视化和信息检索。一些其他领域也起到重要的支撑作用。特别地,需要数据库系统提供有效的存储、索引和查询处理支持。源于并行计算的技术在处理海量数据集方面是非常重要的。分布式技术也能帮助处理海量数据,并且当数据不能集中到一起处理时更是至关重要。
挖掘对象
面向的数据类型可以是结构化的、半结构化的或者是异构化的,挖掘的方法可以是数学的、非数学的或者是归纳的,挖掘出的数据可以用于信息管理、查询优化、决策支持和数据自身的维护工作等。
数据挖掘的对象可以是任意类型的数据源。关系型数据库(包含结构化数据的数据源)、数据仓库、文本、多媒体文件、空间数据、时序数据和Web数据等。