2025-05-18 486ab80e94ee7d4271fe79e701b7ecd7 99+ 10 分钟 1.4 k0次访问

机器学习基础知识总结

本文总结了机器学习中的核心概念、算法分类与应用案例。

Machine_Learning（1）

1. 机器学习的分类

机器学习主要分为 有监督学习 和 无监督学习 两大类。

有监督学习（Supervised Learning）

定义：
有监督学习是一种机器学习任务，其中每个训练样本都带有对应的标签（目标值）。模型通过学习这些“输入—输出”对，来预测新数据的输出。

典型任务：

分类（Classification）：预测离散标签，如垃圾邮件识别；
回归（Regression）：预测连续数值，如房价预测。

常见算法及说明：

线性回归（Linear Regression）

用途： 用于预测连续型数值，如房价、温度等。

原理： 建立输入特征与输出变量之间的线性关系模型

模型通过最小化均方误差（MSE）进行拟合。

逻辑回归（Logistic Regression）

用途： 用于二分类问题，输出事件发生的概率。

原理： 先计算线性组合（通过线性函数进行计算），再通过 Sigmoid 函数转换为概率。

支持向量机（SVM）

用途： 用于分类或回归，在高维空间中表现良好。

原理： SVM（支持向量机）是一种监督学习方法，其原理是通过在特征空间中构造一个最优超平面，将不同类别的样本最大间隔地分开，以提高模型的泛化能力；对于不可线性可分的情况，SVM通过核函数将数据映射到高维空间，使其在高维空间中线性可分，从而实现非线性分类。
K近邻（KNN）

用途： 用于分类与回归，基于样本相似度做预测。

原理： KNN（K-近邻算法）是一种基于距离度量的监督学习方法，其核心思想是：对一个待分类或预测的样本，给定已有的标记样本，找到训练集中距离它最近的K个样本，根据这些邻居的多数类别（投票）（分类）或平均数值（回归）来决定该样本的预测结果。

无监督学习（Unsupervised Learning）

定义：
无监督学习是一种机器学习任务，其中训练数据没有标签，模型需要自行发现数据中的模式、结构或分布。

典型任务：

聚类（Clustering）：将数据分成相似的组。
降维（Dimensionality Reduction）：压缩数据特征，减少冗余。

常见算法及说明：

K-Means 聚类

用途： 用于将样本自动划分为预设的 K 个簇（类），常用于客户分群、图像分割等。

原理： 随机初始化 K 个聚类中心，然后迭代以下两个步骤直到收敛：
1. 将每个样本分配给距离其最近的中心点；
2. 更新每个簇的中心点为簇内所有样本的平均值。

特点：

简单高效，适用于大规模数据；
必须提前指定聚类数 K；
对初始中心敏感，可能陷入局部最优。
层次聚类（Hierarchical Clustering）

用途： 通过构建一个聚类的层次结构，实现自顶向下或自底向上的聚类，可视化强。

原理：
- 自底向上（凝聚型）：每个点开始作为一个单独簇，逐步合并最近的簇；
- 自顶向下（分裂型）：从一个整体出发，逐步分裂成更小的簇。
最终结果通常以树状图（Dendrogram）方式展示，可观察不同聚类层级。

特点：
- 不需要提前指定 K 值；
- 可生成多层次结构；
- 计算复杂度较高，不适合超大数据集。
主成分分析（PCA, Principal Component Analysis）

用途： 用于降维，压缩特征空间同时保留数据的主要信息，常用于可视化和特征提取。

原理：
- 通过线性变换找到一组新的正交坐标轴（主成分）；
- 第一个主成分具有最大方差，第二个主成分与第一个正交，且具有次大方差，依此类推；
- 最终保留前 K 个主成分，用于表示数据。

特点：

降维效果好，计算效率高；
可去除特征冗余、提高模型泛化能力；
属于线性方法，难以处理非线性特征关系。

2. 应用实例对比

类别	应用示例	输入数据类型	输出结果
有监督学习	邮件分类	邮件内容（文本）	是否为垃圾邮件
有监督学习	房价预测	房屋面积、地段等	房价（连续值）
无监督学习	客户分群	用户购买记录、访问频率	用户分类
无监督学习	图像降维	像素矩阵	降维后向量表示

3. 总结

有监督学习 适合解决“有标签”的任务，如分类与回归；
无监督学习 更注重发现数据内部结构；
掌握它们的区别，有助于我们在实际场景中选择合适的算法。

机器学习基础知识总结

https://garyaacm.github.io/2025/05/18/Machine_Learning(1)/

作者

Gary

发布于

2025-05-18

更新于

2025-05-19

机器学习基础知识总结

Machine_Learning（1）

1. 机器学习的分类

有监督学习（Supervised Learning）

无监督学习（Unsupervised Learning）

2. 应用实例对比

3. 总结

作者

发布于

更新于

许可协议

链接

最新评论

最新文章

分类

归档

标签

订阅更新