聚类分析
聚类分析基本概念
1. 基本定义
聚类分析是一种无监督学习方法,用于将相似的数据对象分组。
# 基本概念 1. 聚类(Clustering) - 将数据分组为簇 - 簇内相似度高 - 簇间相似度低 2. 距离度量 - 欧氏距离 - 曼哈顿距离 - 余弦相似度 3. 评估指标 - 轮廓系数 - 戴维斯-波尔丁指数 - 卡林斯基-哈拉巴斯指数 # 示例 数据集: X = [ [1, 2], [2, 1], [8, 9], [9, 8] ] 聚类结果: 簇1: [[1, 2], [2, 1]] 簇2: [[8, 9], [9, 8]]
2. 聚类类型
聚类算法可以根据不同的特征进行分类。
# 聚类类型 1. 基于划分 - K-means - K-medoids - PAM算法 2. 基于层次 - 凝聚层次聚类 - 分裂层次聚类 - BIRCH算法 3. 基于密度 - DBSCAN - OPTICS - DENCLUE 4. 基于模型 - 高斯混合模型 - 自组织映射 - 谱聚类 # 特点比较 1. K-means - 优点:简单、高效 - 缺点:需要指定簇数 2. 层次聚类 - 优点:不需要指定簇数 - 缺点:计算复杂度高 3. DBSCAN - 优点:可以发现任意形状 - 缺点:对参数敏感
3. 应用场景
聚类分析在各个领域都有广泛的应用。
# 应用场景 1. 客户分群 - 市场细分 - 个性化推荐 - 精准营销 2. 图像分割 - 目标检测 - 场景理解 - 图像压缩 3. 异常检测 - 欺诈检测 - 入侵检测 - 故障诊断 4. 文本分析 - 文档聚类 - 主题发现 - 情感分析 # 实际案例 1. 电商用户分群 - 基于购买行为 - 基于浏览历史 - 基于人口统计 2. 医疗诊断 - 疾病分类 - 症状聚类 - 治疗方案