定义
从大量的,不完全的,有噪音的,模糊的,随机的数据中提取出存在潜在价值信息和知识的过程。
数据,信息,知识的关系
数据>信息>情报>知识>智慧(越小越精炼,越牛)
数据挖掘流程
数据--(筛选)--目标数据--(预处理)--已处理数据--(变换)--变换后数据--(数据挖掘)--模式
关联规则挖掘
通过样本数据来预测-------买面包后是否买牛奶的问题
分类和聚类
分类:有标签的学习(有对数据的明确定义,然后在对数据贴标签)
聚类:有学习的标签(先对数据进行学习,后面在判断并贴上标签)
eg:人的认识是从聚类到分类的过程