层次聚类-猿圈-程序猿的知识社区

层次聚类也叫分层聚类，对数据进行逐层划分，最终形成树状的聚类结构。

数据集的划分可采用 “自顶向下” 的分割策略，也可采用 “自下而上” 的聚合策略。

聚合法-AGNES 算法

采用自下而上的聚合策略，初始每个样本为一个簇，然后每步找到距离最近的两个簇，并将它们融合，依次进行下去，直到所有样本在一个簇，或者到达指定类别数。

最短距离可以有多种定义

最小距离：两个簇中距离最近的样本之间的距离；用最小距离的层次聚类被称为单链接

最大距离：两个簇中距离最远的样本之间的距离；用最大距离的层次聚类被称为全链接

平均距离：两个簇中所有样本的距离的平均值；用平均距离的层次聚类被称为均链接

还有其他的距离计算方式，汇总如下

具体算法如下

分割法-DIANA 算法

采用自上而下的分割策略，初始所有样本为一个簇，每步将一个簇分成两个簇，使得这两个簇尽可能远离，递归的分割下去，直到每个样本为一个簇或者到达指定类别数。

道理非常简单，实现类似聚合法，具体不再赘述

层次聚类的优缺点

优点：距离定义简单；可以不预先设定类别数；可以发现类别间的层次关系；可以生成非球形簇

缺点：计算量大；对异常值敏感；很可能聚类成链状

python - API

方法1

from sklearn.cluster import AgglomerativeClustering
import numpy as np
X = np.array([[1, 2], [1, 4], [1, 0],
              [4, 2], [4, 4], [4, 0]])
clustering = AgglomerativeClustering().fit(X)

print clustering.labels_        # [1 1 1 0 0 0]

方法2

from scipy.cluster.hierarchy import dendrogram, linkage,fcluster
from matplotlib import pyplot as plt
X = [[i] for i in [2, 8, 0, 4, 1, 9, 9, 0]]
# X = [[1,2],[3,2],[4,4],[1,2],[1,3]]
Z = linkage(X, 'ward')
f = fcluster(Z,4,'distance')
fig = plt.figure(figsize=(5, 3))
dn = dendrogram(Z)
plt.show()

总结

层次聚类多用于轨迹或者 GPS 数据。

参考资料：

https://scikit-learn.org/stable/modules/generated/sklearn.cluster.AgglomerativeClustering.html　　sklearn 层次聚类

https://blog.csdn.net/tan_handsome/article/details/79371076　　　　scipy 层次聚类

菜单 学习猿地 - LMONKEY

开通学习猿地VIP

尊享10项VIP特权 持续新增

知识通关挑战

打卡带练！告别无效练习

接私单赚外块

VIP优先接，累计金额超百万

学习猿地私房课免费学

大厂实战课仅对VIP开放

你的一对一导师

每月可免费咨询大牛30次

领取更多软件工程师实用特权

Java开发工程师

何以解忧，唯有 Java！

Python开发工程师

人生苦短我要学Python！

PHP开发工程师

PHP是世界上最好的编程语言!

GO开发工程师

想优雅的写程序，赶紧GO!

大数据开发工程师

弄大数据，就是在搞革命!

前端开发工程师

不仅最好，而且最全!

UI开发工程师

这个世界从来不缺少美，缺少你来创造美!

Linux运维工程师

不只是说说而已！

WEB前端1+X

不仅为考证，轻松做开发

计算机二级（C语言）

一切只为考证！

猿工手册

各种工具精挑细选

猿材料

各种工具精挑细选

猿代码

各种工具精挑细选

猿著课件

各种工具精挑细选

知识题库

知识闯关节节高，刷题涨知识！

阶段练习

单元测试知识学习状况秒掌握！

期末考试

期末测试，学习情况即刻知道！

面试题库

最新的企业技术人员招聘真题练习！

Java专区

2948篇 ｜ 24.5万人浏览

Python专区

2593篇 ｜ 19.5万人浏览

大数据专区

2948篇 ｜ 18.5万人浏览

PHP专区

3953篇 ｜ 27.5万人浏览

Go专区

1382篇 ｜ 12.5万人浏览

Web前端专区

1453篇 ｜ 31.5万人浏览

Linux云计算

1230篇 ｜ 4.5万人浏览

其他专区

53232篇文章 ｜ 11.5万人浏览

搜索

历史记录 清除记录

近期热搜

项目开发全程实录（电商EW_Shop）

8680 人 1年前

轻松学会Laravel-项目篇（商城API）

2022 人 1年前

Python数据分析2.0-金融

325 人 1年前

Python办公自动化2.0

241 人 1年前

使用账号登录

启用更安全省心的  微信登录

Java开发工程师

何以解忧，唯有 Java！

Python开发工程师

菜单学习猿地 - LMONKEY

尊享10项VIP特权持续新增

2948篇｜ 24.5万人浏览

2593篇｜ 19.5万人浏览

2948篇｜ 18.5万人浏览

3953篇｜ 27.5万人浏览

1382篇｜ 12.5万人浏览

1453篇｜ 31.5万人浏览

1230篇｜ 4.5万人浏览

53232篇文章｜ 11.5万人浏览

历史记录清除记录

2948篇｜ 24.5万人浏览

2593篇｜ 19.5万人浏览

2948篇｜ 18.5万人浏览

3953篇｜ 27.5万人浏览

1382篇｜ 12.5万人浏览

1453篇｜ 31.5万人浏览

1230篇｜ 4.5万人浏览

53232篇文章｜ 11.5万人浏览