sheng的学习笔记-AI-半监督聚类

AI目录：sheng的学习笔记-AI目录-CSDN博客

半监督学习：sheng的学习笔记-AI-半监督学习-CSDN博客

聚类：sheng的学习笔记-AI-聚类(Clustering)-CSDN博客

均值算法：sheng的学习笔记-AI-K均值算法_k均值算法怎么算迭代两次后的最大值-CSDN博客

什么是半监督聚类

聚类是一种典型的无监督学习任务，然而在现实聚类任务中我们往往能获得一些额外的监督信息，于是可通过半监督聚类(semi-supervised clustering)来利用监督信息以获得更好的聚类效果。

聚类任务中获得的监督信息大致有两种类型。

第一种类型是“必连”(must-link)与“勿连”(cannot-link)约束，前者是指样本必属于同一个簇，后者是指样本必不属于同一个簇；
第二种类型的监督信息则是少量的有标记样本。

约束 k 均值算法

什么是约束k均值

约束k均值(Constrained k-means)算法是利用第一类监督信息的代表。

给定样本集D={x1,x2,...,xm}以及“必连”关系集合M和“勿连”关系集合C，(xi,xj)∈M表示xi与xj必属于同簇，(xi,xj)∈C表示xi与xj必不属于同簇。

该算法是K均值算法的扩展，它在聚类过程中要确保M与C中的约束得以满足，否则将返回错误提示

算法

解释如下

数据表现

令样本x4与x25,x12与x20,x14与x17之间存在必连约束，x2与x21,x13与x23,x19与x23之间存在勿连约束，即

M={(x4,x25),(x25,x4),(x12,x20),(x20,x12),(x14,x17),(x17,x14)},

C={(x2,x21),(x21,x2),(x13,x23),(x23,x13),(x19,x23),(x23,x19)}。

设聚类簇数K=3,随机选取样本x6,x12,x27作为初始均值向量

图13.8 西瓜数据集4.0上约束K均值算法(K=3)在各轮迭代后的结果。

样本点与均值向量分别用“∙”与“+”表示，必连约束和勿连约束分别用实线段与虚线段表示，红色虚线显示出簇划分。

显示出约束K均值算法在不同迭代轮数后的聚类结果。经5轮迭代后均值向量不再发生变化（与第4轮迭代相同），于是得到最终聚类结果

C1={x3,x5,x7,x9,x13,x14,x16,x17,x21};

C2={x6,x8,x10,x11,x12,x15,x18,x19,x20};

C3={x1,x2,x4,x22,x23,x24,x25,x26,x27,x28,x29,x30}。

约束种子 k 均值算法

什么是约束种子 k 均值

约束种子 k 均值Constrained Seed k-means算法是利用第二类监督的代表。

给定样本集D={x1,x2,...,xm}，假定少量的有标记样本为，其中为隶属于第k个聚类簇的样本。

这样的监督信息利用起来很容易：直接将它们作为“种子”，用它们初始化k均值算法的k个聚类中心，并且在聚类簇迭代更新过程中不改变种子样本的簇隶属关系。这样就得到了约束种子k均值(Constrained Seedk-means)算法

算法代码

解释如下

数据表现

仍以西瓜数据集4.0为例，

假定作为种子的有标记样本为S1={x4,x25},S2={x12,x20},S3={x14,x17}。

以这三组种子样本的平均向量作为初始均值向量，图13.10显示出约束种子k均值算法在不同迭代轮数后的聚类结果。经4轮迭代后均值向量不再发生变化（与第3轮迭代相同），于是得到最终聚类结果

C1={x1,x2,x4,x22,x23,x24,x25,x26,x27,x28,x29,x30};

C2={x6,x7,x8,x10,x11,x12,x15,x18,x19,x20};

C3={x3,x5,x9,x13,x14,x16,x17,x21}。

图13.10 西瓜数据集4.0上约束种子k均值算法(k=3)在各轮迭代后的结果。

样本点与均值向量分别用“∙”与“+”表示，种子样本点为红色，红色虚线显示出簇划分。

参考文章

12.半监督学习 - 五、半监督聚类 - 《AI算法工程师手册》 - 书栈网 · BookStack

14 半监督学习 - 14.4 半监督聚类 - 《周志华《机器学习》学习笔记》 - 书栈网 · BookStack

书：机器学习

sheng的学习笔记-AI-半监督聚类

什么是半监督聚类

约束 k 均值算法

什么是约束k均值

算法

数据表现

约束种子 k 均值算法

什么是约束种子 k 均值

算法代码

数据表现

参考文章

最新新闻

热搜词