程序员文章、书籍推荐和程序员创业信息与资源分享平台

网站首页 > 技术文章 正文

用Python进行机器学习(16)-内容总结

hfteth 2025-05-22 10:31:51 技术文章 3 ℃

对于用Python进行机器学习的内容,到这里就要做一个阶段性总结啦,后续再写的文章就是关于深度学习的了,算是对该部分内容的进阶版。对于机器学习,我们主要介绍了五个方面的内容:

第一个就是分类算法,主要包括逻辑回归、决策树、随机森林、KNN算法、梯度提升树、SVM算法等内容,分类算法的主要目的就是对已有的数据划分成几个类别。

第二个就是回归算法,虽然很多用于分类的算法也都可以用于回归,比如SVM、决策树等,但是在我们这个系列的教程中给出完整示例的只有线性回归,这也是稍显遗憾的地方,后续如果再写的话会进行完善。

第三个就是聚类算法,这里主要就是介绍了K-Means算法,主要是因为这个算法太出名了,而且非常简单易于理解,对于更深入的聚类算法没有进行介绍。

第四个就是降维算法,这里主要介绍了PCA和SVD这两种,由于降维算法通常是做为其他算法的一个环节出现,所以并不太单独用,所以它跟上面三类也不太一样。

第五个就是模型评估和数据预处理,在数据预处理中主要介绍的是数据归一化、数据标准化,在模型评估主要介绍了分类模型的准确率、精确率、召回率、F1分数、ROC曲线及AUC值,还有回归模型的MSE和R^2,其实每种算法都会有它的模型评估参数,比如聚类算法的轮廓系数、肘部法则等,还有降维算法的保留方差百分比等,这部分内容细节很多,所以只挑了重点内容介绍一下。

这个系列的篇幅通常并不长,主要还是文章写的太长了怕大家看不下去,所以特意做了适当的简化,通常都在几百字所有,基本几分钟就可以看完,主要是介绍下核心概念和主要用法,算是做到了短小精悍,当然并不能面面俱到。

这个系列的内容都有可视化的部分,所以即使不懂代码,也可以看懂个大概,知道这个系列的教程在干什么,不至于只有内行才能看得懂,外行就什么都看不懂,希望对大家成长的路上有一些帮助。

其实机器学习的算法是一部分,对于不同数据的调参是另一部分,线性数据是最好处理的一类,其他的比如像环形数据、月牙形数据就要难一点了,这里具体看一下数据的分布吧,比如下面这种就是环形数据,或者也叫圆形数据,如下所示:

再比如这种类似月牙形的数据,效果图如下:

鉴于实际情况的复杂性,实际处理问题时的难度要大得多,但是好处就是对这些问题的处理和深入研究,可以从根本上提升我们的能力,不过这样介绍起来篇幅要长的多,在这个教程里我们就暂时没有进行。

不管怎么说,传统的机器学习暂时就告一段落了,接下来就是深度学习的内容了,深度学习的可解释性要差一些,而且深度学习的计算量也要大很多,它也更加依赖GPU加速,但是不可否认的是,它解决问题的能力也要强很多。

最近发表
标签列表