机器学习笔记十之聚类

技术2024-04-05 128

本节目录：

无监督学习K-均值聚类优化目标随机初始化选择聚类树

1 无监督学习无监督学习，即让计算机学习无标签数据。上边的一系列点，没有任何标签信息，我们需要的是找到一个算法，让它为我们找找这个数据的内在结构，以上图数据为例，也就是把他们分成两个分开的点集。这个能够找到圈出这些点集的算法就是聚类算法。无监督学习算法用于市场分割、社交网络分析等。 2.K-均值聚类算法该算法接受一个未标记的数据集，然后将数据聚类成不同组。 K-均值是一个迭代算法，假设我们想要将数据聚类成 n 个组，其方法为: （1）首先选择𝐾个随机的点，称为聚类中心（cluster centroids）；（2）对于数据集中的每一个数据，按照距离𝐾个中心点的距离，将其与距离最近的中心点关联起来，与同一个中心点关联的所有点聚成一类。（3）计算每一个组的平均值，（4）将该组所关联的中心点移动到平均值的位置。重复步骤 2-4 直至中心点不再变化。下面是聚类示例： 3 优化目标 4 随机初始化 5 选择聚类数没有所谓最好的选择聚类数的方法，通常是需要根据不同的问题，人工进行选择的。选择的时候思考我们运用 K-均值算法聚类的动机是什么，然后选择能最好服务于该目的标聚类数。当人们在讨论，选择聚类数目的方法时，有一个可能会谈及的方法叫作“肘部法则”。关于“肘部法则”，我们所需要做的是改变𝐾值，也就是聚类类别数目的总数。我们用一个聚类来运行 K 均值聚类方法。这就意味着，所有的数据都会分到一个聚类里，然后计算成本函数或者计算畸变函数𝐽。 𝐾代表聚类数字。我们可能会得到一条类似于这样的曲线。像一个人的肘部。这就是“肘部法则”所做的，让我们来看这样一个图，看起来就好像有一个很清楚的肘在那儿。好像人的手臂，如果你伸出你的胳膊，那么这就是你的肩关节、肘关节、手。这就是“肘部法则”。你会发现这种模式，它的畸变值会迅速下降，从 1 到 2，从 2 到 3 之后，你会在 3 的时候达到一个肘点。在此之后，畸变值就下降的非常慢，看起来就像使用 3 个聚类来进行聚类是正确的，这是因为那个点是曲线的肘点，畸变值下降得很快，𝐾 = 3之后就下降得很慢，那么我们就选𝐾 = 3。当你应用“肘部法则”的时候，如果你得到了一个像上面这样的图，那么这将是一种用来选择聚类个数的合理方法。

Processed: 0.016, SQL: 9