数据挖掘基础
数据挖掘概述
1. 什么是数据挖掘
数据挖掘是从大量数据中提取出隐含的、先前未知的、潜在有用的信息和知识的过程。它是数据库、统计学、机器学习、模式识别等多个领域的交叉学科。
# 数据挖掘的基本定义 数据挖掘 = 数据 + 挖掘 - 数据:结构化、半结构化、非结构化数据 - 挖掘:发现模式、关联、趋势、异常等 # 数据挖掘的特点 1. 自动性:自动发现模式 2. 有效性:发现的知识必须是有用的 3. 新颖性:发现的知识必须是新的 4. 可理解性:发现的知识必须是可以理解的 5. 可操作性:发现的知识必须是可以应用的
2. 数据挖掘的发展历史
数据挖掘的发展历程。
# 数据挖掘发展历程 1. 早期阶段(1960-1980) - 统计分析方法 - 机器学习算法 - 专家系统 2. 发展阶段(1980-2000) - 数据库技术发展 - 数据仓库出现 - 商业智能兴起 3. 成熟阶段(2000-至今) - 大数据时代 - 深度学习应用 - 云计算支持 - 实时分析需求
3. 数据挖掘的基本流程
数据挖掘的标准流程。
# CRISP-DM流程 1. 业务理解 - 确定业务目标 - 评估现状 - 确定数据挖掘目标 - 制定项目计划 2. 数据理解 - 收集初始数据 - 描述数据 - 探索数据 - 验证数据质量 3. 数据准备 - 选择数据 - 清洗数据 - 构建数据 - 整合数据 - 格式化数据 4. 建模 - 选择建模技术 - 设计测试方案 - 构建模型 - 评估模型 5. 评估 - 评估结果 - 回顾过程 - 确定下一步 6. 部署 - 计划部署 - 计划监控和维护 - 生成最终报告 - 项目回顾