网站首页 > 技术文章 正文
聚类任务的定义
“物以类聚,人以群分”,聚类就是找出事物内在性质和隐性的规律,然后把具有相同或者相似性质的事物聚集在一 起的过程。
在无监督学习中,样本的标记是未知的,聚类任务的目标就是将数据集中的样本划分为若干个通常不相交的子集,通过对无标记样本的训练来发现数据的内在性质和隐性的规律。
举个例子,我们通过A班级学生的身高和体重数据,这里样本假定不知道是男生还是女生,也就是无监督学习中男女生标记是未知的,这样就可以通过聚类任务得到哪些样本最可能是男生,哪些样本最可能是女生。
聚类的相似性度量
欧氏距离(Euclidean Distance)是聚类相似性计算距离的一种方法,来自几何数学中计算两点间的距离公式。
两个n维向量a(x11,x12,…,x1n)与 b(x21,x22,…,x2n)间的欧氏距离如下图:
K均值聚类(K-means) 算法
K均值算法伪代码,来自周志华《机器学习》
图解分析
我们现在结合图例和python代码一步一步分析,帮助大家理解。
A班级学生样本数据如下(20名同学),其中性别0代表女,1代表男,我们先假设性别未知。
代码如下
- 先根据学生的性别数得到聚类簇数k=2(男和女)。
- 先根据k=2随机选取两个样本身高作为初始的均值向量,为了说明方便,这里假定选取前两个样本x1和x2,即当前均值向量u1=x1=(156,50),u2=x2=(160,60) 。
- 根据K均值算法先计算x1=(156,50)与当前均值向量u1,u2的距离分别为0,10.77,显然x1和u1距离最短,因此x1暂被归入类0中。
- 对数据集中的所有样本遍历一遍,即计算x2,x3......xm与当前均值向量u1,u2的距离。
- 得到当前类簇 类0 ={1 6 7},类1 ={2 3 4 5 8 9 10 11 12 13 14 15 16 17 18 19 20}。
- 从类0和类1中再得到新的均值向量u1,u2。
- 更新均值向量后,重复上述步骤3到步骤6,直到算法达到停止条件(一般是均值不再更新)。
- 经过4轮迭代后得到最终的类划分,如下图所示。
大家对代码还有哪些不明白或者需要源代码的请关注加私信联系,我尽可能回复。
机器学习对数学基础和理论要求较高,我尽量避免复杂的数学公式推导,利用代码和图例和大家讲解,代码也避免使用sklearn、scipy、tensorflow等封装好的函数直接得出结果,那样会隐藏很多实现细节。
下次再结合代码和图例讲解原型聚类的另外一个算法---学习向量量化(LVQ)。
- 上一篇: python:抽样和抽样方法
- 下一篇: python天天练(列表最大值、最小值、求和,求积,平均值)
猜你喜欢
- 2025-01-14 整理20个Pandas统计函数
- 2025-01-14 一文带您精通Python 函数:全方位指南
- 2025-01-14 python机器学习:线性回归中的哑变量转换
- 2025-01-14 Python启航:30天编程速成之旅(第21天)- random
- 2025-01-14 字节跳动全链路压测(Rhino)的实践
- 2025-01-14 一次Java和Python的简单且直观的比较
- 2025-01-14 关于Python函数,你应该知道以下几点基础知识
- 2025-01-14 Python实现概率分布,学数据统计的需要收藏
- 2025-01-14 Python方差分析
- 2025-01-14 文本聚类分析(一)-python
- 05-25Python 3.14 t-string 要来了,它与 f-string 有何不同?
- 05-25Python基础元素语法总结
- 05-25Python中的变量是什么东西?
- 05-25新手常见的python报错及解决方案
- 05-2511-Python变量
- 05-2510个每个人都是需要知道Python问题
- 05-25Python编程:轻松掌握函数定义、类型及其参数传递方式
- 05-25Python基础语法
- 257℃Python短文,Python中的嵌套条件语句(六)
- 257℃python笔记:for循环嵌套。end=""的作用,图形打印
- 256℃PythonNet:实现Python与.Net代码相互调用!
- 251℃Python操作Sqlserver数据库(多库同时异步执行:增删改查)
- 251℃Python实现字符串小写转大写并写入文件
- 106℃原来2025是完美的平方年,一起探索六种平方的算吧
- 91℃Python 和 JavaScript 终于联姻了!PythonMonkey 要火?
- 81℃Ollama v0.4.5-v0.4.7 更新集合:Ollama Python 库改进、新模型支持
- 最近发表
- 标签列表
-
- python中类 (31)
- python 迭代 (34)
- python 小写 (35)
- python怎么输出 (33)
- python 日志 (35)
- python语音 (31)
- python 工程师 (34)
- python3 安装 (31)
- python音乐 (31)
- 安卓 python (32)
- python 小游戏 (32)
- python 安卓 (31)
- python聚类 (34)
- python向量 (31)
- python大全 (31)
- python次方 (33)
- python桌面 (32)
- python总结 (34)
- python浏览器 (32)
- python 请求 (32)
- python 前端 (32)
- python验证码 (33)
- python 题目 (32)
- python 文件写 (33)
- python中的用法 (32)