机器学习笔记十之聚类

    技术2024-04-05  106

    本节目录:

    无监督学习K-均值聚类优化目标随机初始化选择聚类树

    1 无监督学习 无监督学习,即让计算机学习无标签数据。 上边的一系列点,没有任何标签信息,我们需要的是找到一个算法,让它为我们找找这个数据的内在结构,以上图数据为例,也就是把他们分成两个分开的点集。 这个能够找到圈出这些点集的算法 就是聚类算法。 无监督学习算法用于市场分割、社交网络分析等。 2.K-均值聚类算法 该算法接受一个未标记的数据集,然后将数据聚类成不同组。 K-均值是一个迭代算法,假设我们想要将数据聚类成 n 个组,其方法为: (1)首先选择𝐾个随机的点,称为聚类中心(cluster centroids); (2)对于数据集中的每一个数据,按照距离𝐾个中心点的距离,将其与距离最近的中心点关联起来,与同一个中心点关联的所有点聚成一类。 (3)计算每一个组的平均值, (4)将该组所关联的中心点移动到平均值的位置。 重复步骤 2-4 直至中心点不再变化。 下面是聚类示例: 3 优化目标 4 随机初始化 5 选择聚类数 没有所谓最好的选择聚类数的方法,通常是需要根据不同的问题,人工进行选择的。选择的时候思考我们运用 K-均值算法聚类的动机是什么,然后选择能最好服务于该目的标聚类数。 当人们在讨论,选择聚类数目的方法时,有一个可能会谈及的方法叫作“肘部法则”。关 于“肘部法则”,我们所需要做的是改变𝐾值,也就是聚类类别数目的总数。我们用一个聚类来运行 K 均值聚类方法。这就意味着,所有的数据都会分到一个聚类里,然后计算成本函数或者计算畸变函数𝐽。 𝐾代表聚类数字。 我们可能会得到一条类似于这样的曲线。像一个人的肘部。这就是“肘部法则”所做的, 让我们来看这样一个图,看起来就好像有一个很清楚的肘在那儿。好像人的手臂,如果你伸 出你的胳膊,那么这就是你的肩关节、肘关节、手。这就是“肘部法则”。你会发现这种模式, 它的畸变值会迅速下降,从 1 到 2,从 2 到 3 之后,你会在 3 的时候达到一个肘点。在此之 后,畸变值就下降的非常慢,看起来就像使用 3 个聚类来进行聚类是正确的,这是因为那个 点是曲线的肘点,畸变值下降得很快,𝐾 = 3之后就下降得很慢,那么我们就选𝐾 = 3。当你 应用“肘部法则”的时候,如果你得到了一个像上面这样的图,那么这将是一种用来选择聚类 个数的合理方法。

    Processed: 0.029, SQL: 9