数据挖掘(英语:Data mining),又译为资料探勘、数据采矿。它是数据库知识发现(英语:Knowledge-Discovery in Databases,简称:KDD)中的一个步骤。数据挖掘一般是指从大量的数据中通过算法搜索隐藏于其中信息的过程。数据挖掘通常与计算机科学有关,并通过统计、在线分析处理、情报检索、机器学习、专家系统(依靠过去的经验法则)和模式识别等诸多方法来实现上述目标。
数据挖掘学习的主要方向在于,挖掘的算法,使用什么算法能够得到最好的结果。
国际权威的学术组织the IEEE International Conference on Data Mining (ICDM) 2006年12月评选出了数据挖掘领域的十大经典算法:C4.5, k-Means, SVM, Apriori, EM, PageRank, AdaBoost, kNN, Naive Bayes, and CART.
数据分析是指用适当的统计分析方法对收集来的大量数据进行分析,提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。这一过程也是质量管理体系的支持过程。在实用中,数据分析可帮助人们作出判断,以便采取适当行动。
数据分析的工具:
Excel作为常用的分析工具,可以实现基本的分析工作,在商业智能领域Cognos、Style Intelligence、Microstrategy、Brio、BO和Oracle以及国内产品如Yonghong Z-Suite BI套件等。
非要说数据挖掘和分析的区别可分为以下几点:
1、“数据分析”的重点是观察数据,而“数据挖掘”的重点是从数据中发现“知识规则”KDD(Knowledge Discover in Database);
2、“数据分析”得出的结论是人的智能活动结果,而“数据挖掘”得出的结论是机器从学习集(或训练集、样本集)发现的知识规则;
3、“数据分析”得出结论的运用是人的智力活动,而“数据挖掘”发现的知识规则,可以直接应用到预测。
4、“数据分析”不能建立数学模型,需要人工建模,而“数据挖掘”直接完成了数学建模。如传统的控制论建模的本质就是描述输入变量与输出变量之间的函数关系,“数据挖掘”可以通过机器学习自动建立输入与输出的函数关系,根据KDD得出的“规则”,给定一组输入参数,就可以得出一组输出量。
|