机器学习基础知识总结

本文总结了机器学习中的核心概念、算法分类与应用案例。

Machine_Learning(1)

1. 机器学习的分类

机器学习主要分为 有监督学习无监督学习 两大类。


有监督学习(Supervised Learning)

定义:
有监督学习是一种机器学习任务,其中每个训练样本都带有对应的标签(目标值)。模型通过学习这些“输入—输出”对,来预测新数据的输出。

典型任务:

  • 分类(Classification):预测离散标签,如垃圾邮件识别;
  • 回归(Regression):预测连续数值,如房价预测。

常见算法及说明:


  • 线性回归(Linear Regression)

    用途: 用于预测连续型数值,如房价、温度等。

    原理: 建立输入特征与输出变量之间的线性关系模型

    模型通过最小化均方误差(MSE)进行拟合。


  • 逻辑回归(Logistic Regression)

    用途: 用于二分类问题,输出事件发生的概率。

    原理: 先计算线性组合(通过线性函数进行计算),再通过 Sigmoid 函数转换为概率。


  • 支持向量机(SVM)

    用途: 用于分类或回归,在高维空间中表现良好。

    原理: SVM(支持向量机)是一种监督学习方法,其原理是通过在特征空间中构造一个最优超平面,将不同类别的样本最大间隔地分开,以提高模型的泛化能力;对于不可线性可分的情况,SVM通过核函数将数据映射到高维空间,使其在高维空间中线性可分,从而实现非线性分类。

  • K近邻(KNN)

    用途: 用于分类与回归,基于样本相似度做预测。

    原理: KNN(K-近邻算法)是一种基于距离度量的监督学习方法,其核心思想是:对一个待分类或预测的样本,给定已有的标记样本,找到训练集中距离它最近的K个样本,根据这些邻居的多数类别(投票)(分类)或平均数值(回归)来决定该样本的预测结果。


无监督学习(Unsupervised Learning)

定义:
无监督学习是一种机器学习任务,其中训练数据没有标签,模型需要自行发现数据中的模式、结构或分布。

典型任务:

  • 聚类(Clustering):将数据分成相似的组。
  • 降维(Dimensionality Reduction):压缩数据特征,减少冗余。

常见算法及说明:

  • K-Means 聚类

    用途: 用于将样本自动划分为预设的 K 个簇(类),常用于客户分群、图像分割等。

    原理: 随机初始化 K 个聚类中心,然后迭代以下两个步骤直到收敛:

    1. 将每个样本分配给距离其最近的中心点;
    2. 更新每个簇的中心点为簇内所有样本的平均值。

特点:

  • 简单高效,适用于大规模数据;

  • 必须提前指定聚类数 K;

  • 对初始中心敏感,可能陷入局部最优。

  • 层次聚类(Hierarchical Clustering)

    用途: 通过构建一个聚类的层次结构,实现自顶向下或自底向上的聚类,可视化强。

    原理:

    • 自底向上(凝聚型):每个点开始作为一个单独簇,逐步合并最近的簇;
    • 自顶向下(分裂型):从一个整体出发,逐步分裂成更小的簇。

    最终结果通常以树状图(Dendrogram)方式展示,可观察不同聚类层级。

    特点:

    • 不需要提前指定 K 值;
    • 可生成多层次结构;
    • 计算复杂度较高,不适合超大数据集。
  • 主成分分析(PCA, Principal Component Analysis)

    用途: 用于降维,压缩特征空间同时保留数据的主要信息,常用于可视化和特征提取。

    原理:

    • 通过线性变换找到一组新的正交坐标轴(主成分);
    • 第一个主成分具有最大方差,第二个主成分与第一个正交,且具有次大方差,依此类推;
    • 最终保留前 K 个主成分,用于表示数据。

特点:

  • 降维效果好,计算效率高;
  • 可去除特征冗余、提高模型泛化能力;
  • 属于线性方法,难以处理非线性特征关系。

2. 应用实例对比

类别 应用示例 输入数据类型 输出结果
有监督学习 邮件分类 邮件内容(文本) 是否为垃圾邮件
有监督学习 房价预测 房屋面积、地段等 房价(连续值)
无监督学习 客户分群 用户购买记录、访问频率 用户分类
无监督学习 图像降维 像素矩阵 降维后向量表示

3. 总结

  • 有监督学习 适合解决“有标签”的任务,如分类与回归;
  • 无监督学习 更注重发现数据内部结构;
  • 掌握它们的区别,有助于我们在实际场景中选择合适的算法。
作者

Gary

发布于

2025-05-18

更新于

2025-05-19

许可协议

评论

:D 一言句子获取中...

加载中,最新评论有1分钟缓存...