Birch概述
Birch(利用层次方法的平衡迭代规约和聚类):就是通过聚类特征(CF)形成一个聚类特征树,root层的CF个数就是聚类个数。
相关概念
聚类特征(CF):每一个CF是一个三元组,可以用(N,LS,SS)表示。其中N代表了这个CF中拥有的样本点的数量;LS代表了这个CF中拥有的样本点各特征维度的和向量,SS代表了这个CF中拥有的样本点各特征维度的平方和。
图解过程
对于上图中的CF Tree,限定了B=7,L=5, 也就是说内部节点最多有7个CF(CF90下的圆),而叶子节点最多有5个CF(CF90到CF94)。叶子节点是通过双向链表连通的。
Birch算法函数
sklearn.cluster.Birch
主要参数
n_clusters :聚类的目标个数;(可选)
threshold :扫描半径(个人理解,官方说法比较绕口),设置小了分类就多;
branches_factor:每个节点中CF子集群的最大数量,默认为50;
labels_ :每个数据点的分类。
分享“TES工作室”公众号内容到3个500人以上的学校群聊或者朋友圈展示24小时,截图给客服,可以获取Python具体实现过程案例。
若有疑问可扫描文末二维码进群咨询。
出品/TES工作室
推荐阅读: