在线商标免费设计_广州域名备案_网络科技公司_深圳做网站公司哪家好

文章目录

机器学习与深度学习
- - 1. 什么是人工智能？
  - 2. 机器学习、深度学习和人工智能又是什么关系？
  - 3. 人工智能解决了什么问题？为什么需要人工智能？
  - 4. 机器学习、深度学习常用术语
  - - 1）模型
    - 2）数据集
    - 3）样本&特征
    - 4) 向量
    - 5）矩阵
    - 6）假设函数&损失函数
    - 7）拟合&过拟合&欠拟合
    - 8）学习方式
    - 9）回归
    - 10）分类&聚类
机器学习算法
- - 1. 线性回归
  - 2. 逻辑回归
  - 3. 决策树
  - 4. K-近邻算法
深度学习算法
- - 1. 人工神经网络
  - 2. 反向传播算法
  - 3. 卷积神经网络
  - 4. Transformer
如何去理解模型？如何理解机器学习？
- - 1. 什么是模型？
  - 2. 什么是机器学习？
  - 3. 总结

机器学习与深度学习

1. 什么是人工智能？

“人工智能”（Artificial Intelligence），英文缩写为 AI 从字面意思来看，它指的是让机器获得像人一样的智慧。

人工智能是计算机科学技术的一个分支，指的是通过机器和计算机来模拟人类智力活动的过程。

人工智能领域包括机器人、语言识别、图像识别、自然语言处理、大模型等。

人工智能并不是人的智能，而是让机器像人一样思考，甚至于超过人类。

2. 机器学习、深度学习和人工智能又是什么关系？

如下图所示：

机器学习是人工智能的一部分，而深度学习又是机器学习的一部分。

机器学习是一种功能、方法，或者更具体的说是一种算法，它能够赋予机器进行学习的能力，从而使机器完成一些通过编程无法直接实现的功能。

但从具体的实践意义来说，其实机器学习是利用大量数据训练出一个最优模型，然后再利用此模型预测出其他数据的一种方法。

3. 人工智能解决了什么问题？为什么需要人工智能？

如图：

问题：如果让计算机知道上面的图片中，是猫还是狗？

拆解问题：

输入：一张图片

输出：猫 or 狗

你会发现不管你是用什么编程语言，多面牛逼的数据结构与算法，你都无法达到95%以上的正确率。

这个时候就可以使用AI来做这件事情了。

类型	正确率
编程	70%
机器学习	90%
深度学习	99.99%

4. 机器学习、深度学习常用术语

1）模型

模型这一词语将会贯穿整个教程的始末，它是机器学习中的核心概念。

你可以把它看做一个“魔法盒”，你向它许愿（输入数据），它就会帮你实现愿望（输出预测结果）。

整个机器学习的过程都将围绕模型展开，训练出一个最优质的 “魔法盒”，它可以尽量精准的实现你许的 “愿望”，这就是机器学习的目标。

比如：房价预测模型，动物识别模型，车牌识别模型等等。模型训练好后，就可以对现实世界的一些数据进行预测。

f(x) = y
x 为输入
y 为输出
f(x) 为模型

2）数据集

数据集，它表示一个承载数据的集合，如果说 “模型” 是 “魔法盒” 的话，那么数据集就是负责给它充能的 “能量电池”。简单地说，如果缺少了数据集，那么模型就没有存在的意义了。

数据集可划分为 “训练集” 和 “测试集”，它们分别在机器学习的 “训练阶段” 和 “预测输出阶段” 起着重要的作用。

训练集：用于模型训练
测试集：用于测试模型训练的结果

3）样本&特征

样本指的是数据集中的数据，一行数据被称为 “一个样本”，通常情况下，样本会包含多个特征值用来描述数据。

比如现在有一组描述人形态的数据 “1001 180 70 25” 如果单看数据你会非常茫然，但是用 “特征” 描述后就会变得容易理解，如下所示：

ID	姓名	身高	体重	年龄
1001	小明	180	70	25
1002	小马	176	65	23

由上图可知数据集的构成是 “一行一样本，一列一特征” 。

特征值也可以理解为数据的相关性，每一列的数据都与这一列的特征值相关。

上述的「ID」「姓名」「身高」「体重」「年龄」就是一个个特征。

4) 向量

向量是机器学习的关键术语。向量也称欧几里得向量、几何向量、矢量，指具有大小和方向的量。

可以形象地把它的理解为：带箭头的线段。箭头所指：代表向量的方向；线段长度：代表向量的大小。

与向量对应的量叫做数量（物理学中称标量），数量只有大小，没有方向。

在机器学习中，模型算法的运算均基于线性代数运算法则，比如行列式、矩阵运算、线性方程等等。

5）矩阵

矩阵也是一个常用的数学术语，你可以把矩阵看成由向量组成的二维数组，数据集就是以二维矩阵的形式存储数据的，你可以把它形象的理解为电子表格表现形式如下：

6）假设函数&损失函数

（1）假设函数

假设函数（Hypothesis Function）可表述为 y = f(x)，其中 x 表示输入数据，而 y 表示输出的预测结果，而这个结果需要不断的优化才会达到预期的结果，否则会与实际值偏差较大。(模型)

（2）损失函数

损失函数（Loss Function）又叫目标函数，简写为 L(x)，这里的 x 是假设函数得出的预测结果 y，如果 L(x) 的返回值越大就表示预测结果与实际偏差越大，越小则证明预测值越来越 “逼近” 真实值，这才是机器学习最终的目的。因此损失函数就像一个度量尺，让你知道 “假设函数” 预测结果的优劣，从而做出相应的优化策略。

（3）优化方法

“优化方法” 可以理解为假设函数和损失函数之间的沟通桥梁。通过 L(x) 可以得知假设函数输出的预测结果与实际值的偏差值，当该值较大时就需要对其做出相应的调整，这个调整的过程叫做 “参数优化”，常见的优化方法如：梯度下降法、牛顿方与拟牛顿法、共轭梯度法等等。

对于优化方法的选择，我们要根据具体的应用场景来选择应用哪一种最合适，因为每一种方法都有自己的优劣势，所以只有合适的才是最好的。

上述函数的关系图如下所示：

举个例子：我设计了一个函数 y=f(x) 可以预测房价，然后我通过这个假设函数输入房子的面积和位置预测了房价，然后拿预测的房价和市场上的挂牌价进行对比，和实际值直接的偏差即 L(x) 损失函数，如果偏差很小，说明不需要优化，如果偏差特别大，就需要考虑使用那些优化方法去优化我的假设函数。

7）拟合&过拟合&欠拟合

（1）拟合

形象地说，“拟合” 就是把平面坐标系中一系列散落的点，用一条光滑的曲线连接起来，因此拟合也被称为 “曲线拟合”。

拟合的曲线一般用函数进行表示，但是由于拟合曲线会存在许多种连接方式，因此就会出现多种拟合函数。

通过研究、比较确定一条最佳的 “曲线” 也是机器学习中一个重要的任务。

如下图所示，展示一条拟合曲线（蓝色曲线）：

如何理解拟合，举个例子：上图假设为超市每天的营业额，通过对历史数据拟合出来一条拟合曲线，通过这个拟合曲线去预测未来的营业额。

（2）过拟合

过拟合（overfitting）与是机器学习模型训练过程中经常遇到的问题，所谓过拟合，通俗来讲就是模型的泛化能力较差，也就是过拟合的模型在训练样本中表现优越，但是在验证数据以及测试数据集中表现不佳。

（我在房价预测模型中的表现特别好，每一个标本都吻合，但是一旦预测一个新的房源，预测值和实际值就相差太大）

过拟合问题在机器学习中经常遇到，主要是因为训练时样本过少，特征值过多导致的。

（3）欠拟合

欠拟合（underfitting）恰好与过拟合相反，它指的是 “曲线” 不能很好的 “拟合” 数据。

在训练和测试阶段，欠拟合模型表现均较差，无法输出理想的预测结果。如下图所示：

造成欠拟合的主要原因是由于没有选择好合适的特征值。

8）学习方式

（1）有监督学习

有监督学习（supervised learning），需要你事先需要准备好要输入数据（训练样本）与真实的输出结果（参考答案)，然后通过计算机的学习得到一个预测模型，再用已知的模型去预测未知的样本，这种方法被称为有监督学习。这也是是最常见的机器学习方法。

（2）无监督学习

理解了有监督学习，那么无监督学习理解起来也变的容易。

所谓无监督学习（unsupervised learning）就是在没有 “参考答案” 的前提下，计算机仅根据样本的特征或相关性，就能实现从样本数据中训练出相应的预测模型。

一句话描述学习方式

监督学习：训练数据包括正确的结果。

无监督学习：训练数据不包括正确的结果。

强化学习：根据每次结果收获的奖惩进行学习，根据结果实现优化。

监督学习包含：线性回归、逻辑回归、决策树、神经网络、卷积神经网络、循环神经网络等其他大模型。

无监督学习：分类算法。

强化学习：Deepseek

预测结果(算法)分类

根据预测结果的类型，我们可以对上述学习形式做具体的问题划分，这样就可以具体到实际的应用场景中，比如有监督学习可以划分为：

回归问题
分类问题

如果预测结果是离散的，通常为分类问题；而为连续的，则是回归问题。

9）回归

连续和离散是统计学中的一种概念，全称为 “连续变量” 和 “离散变量”。

比如身高，从 1.2m 到 1.78m 这个长高的过程就是连续的，身高只随着年龄的变化一点点的长高。

10）分类&聚类

那么什么是 “离散变量” 呢？

比如超市每天的销售额，这类数据就是离散的，因为数据不是固定，可能多也可能少。

聚类/分类问题，那什么是 “聚类”？

其实可以用一个成语表述 “物以类聚，人以群分”，将相似的样本聚合在一起后，然后进行分析。

机器学习算法

1. 线性回归

线性回归 是一种用于预测连续值的监督学习算法。

它的核心思想是通过拟合一个线性模型来描述 自变量（特征）和 因变量（目标）之间的关系。

线性回归就是用一条直线来预测数据。比如：

你知道房子越大，房价越高。
线性回归就是找到一条直线，表示 “房子大小” 和 “房价” 之间的关系。

简单例子，假设有以下数据：

房子 50 平米，价格 100 万
房子 60 平米，价格 120 万
房子 70 平米，价格 140 万

线性回归会找到一条直线，比如：

$房价 = 2 \times 面积$

2 是斜率，表示每增加 1 平米，房价增加 2 万。
如果房子是 80 平米，预测房价就是： $2 \times 80 = 160 万$

2. 逻辑回归

逻辑回归是最简单的线性分类器，使用 sigmoid 函数对结果进行映射，一般适用于二分类问题，但也可以扩展到多分类问题。

逻辑回归是用来做分类的，比如预测 “是/否”。它通过一个S形曲线（Sigmoid函数）把数据分成两类。

假设：

如果你学习 2小时，考试 没通过（0）。
如果你学习 4小时，考试通过了（1）。

逻辑回归会学习到：

学习时间越长，通过考试的概率越高。
比如，学习 3小时 时，通过概率是 50%。

逻辑回归就是：

输入一个值（比如学习时间）。
输出一个概率（比如通过考试的概率）。
根据概率回答“是”或“否”。

3. 决策树

决策树是一种基于树结构的分类器，通过递归地将数据集划分成更小的子集来进行分类。

决策树就是通过一系列 “如果…那么…” 的问题来做决定。比如：

如果天气是晴天，那么不打篮球。
如果天气是雨天且风大，那么不打篮球。
如果天气是阴天，那么打篮球。

超级简单例子

假设有以下数据：

天气是晴天 → 不打篮球
天气是雨天且风大 → 不打篮球
天气是雨天且风小 → 打篮球
天气是阴天 → 打篮球

决策树会这样划分：

天气是晴天吗？
- 是 → 不打篮球
- 不是 → 继续问
天气是阴天吗？
- 是 → 打篮球
- 不是 → 继续问
风大吗？
- 是 → 不打篮球
- 不是 → 打篮球

总结

决策树就是通过一连串的 “是/否” 问题，一步步找到答案。就像玩猜谜游戏，不断缩小范围，直到得出结论！ 😊

4. K-近邻算法

KNN 是通过计算候选样本和训练样本的距离，通过查找其最近的 K 个邻居（训练数据中的点），根据这些邻居的类别或值来预测结果。

KNN 就是 “找邻居” 来做预测。比如：

你想知道一个新水果是苹果还是橙子，就看看它周围的水果是什么。
如果周围大多数是苹果，就猜它是苹果；如果大多数是橙子，就猜它是橙子。

深度学习算法

深度学习算法是目前为止应用最为广泛的算法，包含非常多的种类，本篇文章只做简单的介绍，针对算法不会进行大范围的讲解。

1. 人工神经网络

**生物神经元工作原理：**多个神经树突的电位使神经细胞的膜电位发生变化，且电位的变化是可以累加的，电势达到某个阈值时，就会沿着轴突向下传输一个脉冲。

**人工神经元：**模拟生物神经元的工作原理，接收一个或多个输入，并将它们相加以产生输出，总和通过一个非线性函数，称为激活函数或传递函数。

常见的激活函数：

Sigmoid 函数

ReLU函数

2. 反向传播算法

反向传播算法通过计算梯度并更新参数，逐步优化神经网络。

它的核心是利用链式法则将误差从输出层传播回输入层，从而调整每一层的参数。

反向传播是训练神经网络的 “秘诀”。它的作用是告诉神经网络：“你哪里错了，该怎么改”。

两步走：

前向传播：输入数据，计算输出结果。
反向传播：从结果开始，倒着计算每一层的错误，然后调整参数（权重和偏置）。

反向传播就是：

计算输出和误差。
倒着计算每一层该调整多少。
更新参数，让结果更准确。

3. 卷积神经网络

卷积神经网络 是一种专门用于处理图像、视频等网格数据的深度学习模型。它的核心思想是通过卷积操作提取局部特征，并通过池化操作降低数据维度，最终通过全连接层进行分类或回归。

CNN 是一种专门用来处理图片的神经网络。它的特点是：

卷积：用一个小窗口（卷积核）在图片上滑动，提取局部特征（比如边缘、纹理）。
池化：缩小图片尺寸，保留重要信息，减少计算量。
全连接：把提取的特征转换成最终的分类结果（比如图片是猫还是狗）。

CNN 就是：

用卷积核提取图片特征。
用池化缩小图片。
用全连接层分类。

简单来说，CNN 就是 “看局部，抓重点，做判断”！

4. Transformer

说回 Transformer 本身，它擅长自然语言处理，在它出现之前，RNNs，LTSM等网络模型是 NLP 领域的常用深度学习模型。

Transformer 是一种用来处理文字、语音等序列数据的模型。它的特点是：

注意力机制：让模型能够同时看到整个句子，而不是像 RNN 那样一个字一个字看。
并行计算：可以同时处理整个句子，速度更快。
适合翻译、生成任务：比如把英文翻译成中文，或者写一段话。

Transformer的核心是：编码器-解码器以及注意力机制。

Transformer 就是：

同时看整个句子。
分析词与词之间的关系。
根据关系生成结果（比如翻译）。

简单来说，Transformer 就是“一眼看全句，抓关系，出结果”！ 😊

如何去理解模型？如何理解机器学习？

1. 什么是模型？

模型就像是一个“魔法盒子”，你给它输入一些东西，它就会输出一些结果。比如：

你给模型一张猫的图片，它会告诉你：“这是猫！”
你给模型一段话，它会告诉你：“这句话的意思是开心！”

例子：

想象你有一个 “水果分类器” 模型：

你给它一个苹果，它会说：“这是苹果！”
你给它一个香蕉，它会说：“这是香蕉！”

这个 “魔法盒子” 是怎么学会的呢？这就是 机器学习 的作用了！

2. 什么是机器学习？

机器学习 就是教 “魔法盒子” 学习的过程。就像教小朋友认东西一样：

给例子：你告诉模型：“这是苹果，这是香蕉。”
学习规律：模型通过例子，自己总结出苹果和香蕉的区别。
自己判断：以后你给它一个水果，它就能自己判断是苹果还是香蕉。