机器学习基础知识总结
本文总结了机器学习中的核心概念、算法分类与应用案例。
Machine_Learning(1)
1. 机器学习的分类
机器学习主要分为 有监督学习 和 无监督学习 两大类。
有监督学习(Supervised Learning)
定义:
有监督学习是一种机器学习任务,其中每个训练样本都带有对应的标签(目标值)。模型通过学习这些“输入—输出”对,来预测新数据的输出。
典型任务:
- 分类(Classification):预测离散标签,如垃圾邮件识别;
- 回归(Regression):预测连续数值,如房价预测。
常见算法及说明:
线性回归(Linear Regression)
用途: 用于预测连续型数值,如房价、温度等。
原理: 建立输入特征与输出变量之间的线性关系模型
模型通过最小化均方误差(MSE)进行拟合。
逻辑回归(Logistic Regression)
用途: 用于二分类问题,输出事件发生的概率。
原理: 先计算线性组合(通过线性函数进行计算),再通过 Sigmoid 函数转换为概率。
支持向量机(SVM)
用途: 用于分类或回归,在高维空间中表现良好。
原理: SVM(支持向量机)是一种监督学习方法,其原理是通过在特征空间中构造一个最优超平面,将不同类别的样本最大间隔地分开,以提高模型的泛化能力;对于不可线性可分的情况,SVM通过核函数将数据映射到高维空间,使其在高维空间中线性可分,从而实现非线性分类。
K近邻(KNN)
用途: 用于分类与回归,基于样本相似度做预测。
原理: KNN(K-近邻算法)是一种基于距离度量的监督学习方法,其核心思想是:对一个待分类或预测的样本,给定已有的标记样本,找到训练集中距离它最近的K个样本,根据这些邻居的多数类别(投票)(分类)或平均数值(回归)来决定该样本的预测结果。
无监督学习(Unsupervised Learning)
定义:
无监督学习是一种机器学习任务,其中训练数据没有标签,模型需要自行发现数据中的模式、结构或分布。
典型任务:
- 聚类(Clustering):将数据分成相似的组。
- 降维(Dimensionality Reduction):压缩数据特征,减少冗余。
常见算法及说明:
K-Means 聚类
用途: 用于将样本自动划分为预设的 K 个簇(类),常用于客户分群、图像分割等。
原理: 随机初始化 K 个聚类中心,然后迭代以下两个步骤直到收敛:
- 将每个样本分配给距离其最近的中心点;
- 更新每个簇的中心点为簇内所有样本的平均值。
特点:
简单高效,适用于大规模数据;
必须提前指定聚类数 K;
对初始中心敏感,可能陷入局部最优。
层次聚类(Hierarchical Clustering)
用途: 通过构建一个聚类的层次结构,实现自顶向下或自底向上的聚类,可视化强。
原理:
- 自底向上(凝聚型):每个点开始作为一个单独簇,逐步合并最近的簇;
- 自顶向下(分裂型):从一个整体出发,逐步分裂成更小的簇。
最终结果通常以树状图(Dendrogram)方式展示,可观察不同聚类层级。
特点:
- 不需要提前指定 K 值;
- 可生成多层次结构;
- 计算复杂度较高,不适合超大数据集。
主成分分析(PCA, Principal Component Analysis)
用途: 用于降维,压缩特征空间同时保留数据的主要信息,常用于可视化和特征提取。
原理:
- 通过线性变换找到一组新的正交坐标轴(主成分);
- 第一个主成分具有最大方差,第二个主成分与第一个正交,且具有次大方差,依此类推;
- 最终保留前 K 个主成分,用于表示数据。
特点:
- 降维效果好,计算效率高;
- 可去除特征冗余、提高模型泛化能力;
- 属于线性方法,难以处理非线性特征关系。
2. 应用实例对比
类别 | 应用示例 | 输入数据类型 | 输出结果 |
---|---|---|---|
有监督学习 | 邮件分类 | 邮件内容(文本) | 是否为垃圾邮件 |
有监督学习 | 房价预测 | 房屋面积、地段等 | 房价(连续值) |
无监督学习 | 客户分群 | 用户购买记录、访问频率 | 用户分类 |
无监督学习 | 图像降维 | 像素矩阵 | 降维后向量表示 |
3. 总结
- 有监督学习 适合解决“有标签”的任务,如分类与回归;
- 无监督学习 更注重发现数据内部结构;
- 掌握它们的区别,有助于我们在实际场景中选择合适的算法。
1.BP神经网络
2.Transformer基础
3.卷积神经网络(CNN)
4.YOLO原理
5.机器学习一些进阶知识
6.tensorRT基础操作
7.Cuda基础操作
8.MQTT 与 HTTP 通信协议对比及项目应用场景选择