Introduction

互联网的迅猛发展催生了数据的爆炸式增长。面对海量数据,如何挖掘数据的架子,成为一个越来越重要的问题。首先,对于数据挖掘的概念,目前比较广泛认可的一种解释如下:数据挖掘是一种通过分析海量数据,从数据中提取潜在的但是非常有用的模式的技术。

数据挖掘的任务可以分为预测性任务和描述性任务,预测性任务主要是预测可能出现的情况;描述性任务则是发现一些人类可以解释的模式或者规律。数据挖掘中比较常见的任务包括分类、聚类、关联规则挖掘、时间序列挖掘、回归等,其中分类、回归属于预测性任务,聚类、关联规则挖掘、时间序列分析等则都是解释性任务。

机器学习即是指能够帮你从数据中寻找到感兴趣的部分而不需要编写特定的问题解决方案的通用算法的集合。通用的算法可以根据你不同的输入数据来自动地构建面向数据集合最优的处理逻辑。举例而言,算法中一个大的分类即分类算法,它可以将数据分类到不同的组合中。而可以用来识别手写数字的算法自然也能用来识别垃圾邮件,只不过对于数据特征的提取方法不同。相同的算法输入不同的数据就能够用来处理不同的分类逻辑。

换一个形象点的阐述方式,对于某给定的任务 T,在合理的性能度量方案 P 的前提下,某计算机程序可以自主学习任务 T 的经验 E;随着提供合适、优质、大量的经验 E,该程序对于任务 T 的性能逐步提高。即随着任务的不断执行,经验的累积会带来计算机性能的提升。

mindmap