制作网站哪里做_2023杭州疫情最新消息今天_营销型外贸网站建设_线上推广app

1.决策树

决策树是一种用于分类任务的监督学习算法。它基于特征的划分来做出决策，每个节点表示一个特征，每条分支代表该特征的可能取值，每个叶子节点代表分类结果。

用通俗的话来说，决策树就像一个**"如果……那么……"**的游戏，用来帮助我们做决定。可以把它想象成一棵倒过来的树，从根部开始，一层层往下分支，每个分支代表不同的选择，最终会到达一个结果。

举个简单的例子：

假设你想决定今天要不要带伞，你可以用一个决策树来帮你分析：

第一步（根节点）： 今天会下雨吗？
如果是（Yes） → 带伞
如果不是（No） → 看下一步

第二步（分支）： 天气预报说有可能下雨吗？
如果是（Yes） → 带伞
如果不是（No） → 不带伞

这样，我们通过一个简单的二叉决策树，一步步推导出了是否带伞的答案。

先给大家po一道题目

首先列出关于本题的所有知识点：

(a) 计算信息增益（Information Gain）

信息增益衡量一个特征在划分数据集后，减少数据不确定性的程度。计算公式如下：

信息增益就像是**"整理书桌的过程"，它衡量的是我们在某个问题上获得了多少有用的信息

举个例子：

假设你有一堆书，里面既有小说，也有教科书，现在你想把它们整理好，让书桌变得更整洁。

情况 1（未分类前）：所有书都混在一起，显得很乱，我们不知道哪些是小说，哪些是教科书（信息很杂乱，不确定性很高）。
情况 2（按类别分类）：如果我们按照“小说”和“教科书”分成两堆，那就一目了然了（信息更清晰，不确定性降低）。

信息增益，就是分类前的混乱程度（信息不确定性） - 分类后的混乱程度。

具体到决策树：

在构建决策树时，我们希望每一步分类都能尽量减少混乱，也就是说，让每个分支里的数据尽可能相似。
信息增益就是衡量某个特征（分类标准）在多大程度上减少了数据的混乱程度。

高信息增益的特征 → 说明它对分类非常有帮助，应该优先使用！

(b) 构造决策树

使用信息增益最大的特征作为根节点，递归划分数据集，直到所有数据属于同一类别或信息增益趋于零。

(c) 预测

利用构建的决策树，对 short + red + brown eyes 的人进行分类，判断是否会被录取。

问题解答：

a. 计算各属性的信息增益

父节点熵计算：
总样本数 N=8N=8，其中+类3个，-类5个。

2.属性划分后的熵：

height属性：

hair属性：

eyes属性：

结果：
信息增益最大为 hair（0.4544），其次是 eyes（0.3475），最后是 height（0.0031）。

b. 构建决策树

根节点：选择信息增益最大的属性 hair。

hair=red → 直接分类为+（1个样本）。

hair=dark → 直接分类为-（3个样本）。

hair=blond → 需进一步分裂。

子节点分裂（hair=blond）：

剩余属性为 eyes 和 height。

在hair=blond的4个样本中，按 eyes 划分：

eyes=blue（2个样本，均为+） → 分类为+。

eyes=brown（2个样本，均为-） → 分类为-。

最终决策树结构

c. 预测样本

样本属性：short（height）、red（hair）、brown（eyes）。
根据决策树：

检查 hair：

hair=red → 直接分类为 +（无需检查其他属性）。

预测结果：该候选人会被雇佣（+）。

2. 拉普拉斯剪枝 (Laplace Pruning)

决策树容易过拟合，Laplace 剪枝是一种防止过拟合的技术，利用 Laplace 误差估计公式：

什么是拉普拉斯剪枝？

拉普拉斯剪枝（Laplace Smoothing Pruning）是一种防止决策树过拟合的方法，主要用于修正样本较少时容易出现的极端情况。

你可以把它想象成考试时的“保底分”，就算你不会做题，老师也不会给你零分，而是至少给你一点分数，以免误判你的能力。

为什么需要拉普拉斯剪枝？

假设你在训练决策树时，有一个类别的数据非常少，比如：

你做了 10 次实验，其中有 9 次“成功”，1 次“失败”。
你的决策树可能会认为**“只要遇到类似情况，几乎100%会成功”**。

但现实中，如果我们再多做几次实验，可能会出现不同的结果。因此，我们不应该过度相信少量样本的统计结果，需要让概率更平滑一点，避免“绝对化”的判断。

拉普拉斯修正是怎么做的？

它的原理是在每个类别的计数上加上一个小的“先验”值，通常是 1，就像给每个类别都分配一点“保底权重”。

计算公式：

其中：

k 是类别的总数（比如有 2 类：成功和失败，k=2）。
+1 就是给每个类别都加上一点权重，防止概率变成 0 或 1。

举个例子

假设你统计某种天气下是否会下雨：

你观测了 4 次，其中 3 次下雨，1 次没下雨。
传统方法计算概率：
下雨概率 = 3 / 4 = 0.75
不下雨概率 = 1 / 4 = 0.25

但这个数据太少了，可能并不可靠。
用拉普拉斯修正（k=2，+1调整）：

可以看到，修正后概率更平滑，更不容易被少量数据误导。

总结

作用：避免决策树过拟合，防止少量样本导致极端判断。
方法：在计算概率时，每个类别的计数都 +1，同时分母加上类别总数 k，使概率更平滑。
类比：像考试的“保底分”或者“菜鸟保护机制”，即使没见过某个情况，也不会直接判断为 0% 或 100%。

这样，决策树在处理少量数据时会更稳健，不会因为数据不足而产生极端的决策！

首先来po一道例题

问题解答：

步骤1：计算父节点的Laplace误差

父节点为 [4,7]，表示有4个正类样本和7个负类样本：

总样本数 N=11

多数类为负类（7个），故 n=7

类别数 k=2

代入公式：

步骤2：计算子节点的Laplace误差

子节点分别为 [2,1] 和 [2,6]：

左子节点 [2,1]：

总样本数 N=3

多数类为正类（2个），故 n=2

类别数 k=2
误差：

2.右子节点 [2,6]：

1. 总样本数 N=8

2.多数类为负类（6个），故 n=6

3.类别数 k=2
误差：

步骤3：计算保留子节点的加权总误差

左子节点权重：3/11

右子节点权重：8/11
总误差：

步骤4：比较误差并决定是否剪枝

父节点误差：0.38460.3846

子节点总误差：0.32730.3273

结论：由于子节点总误差（0.3273）小于父节点误差（0.3846），剪枝后误差反而增大，因此不应剪枝。

计算父节点和子节点的拉普拉斯误差，然后比较，是为了决定是否进行剪枝！

🌱 什么是剪枝？

在决策树中，剪枝（Pruning）是指去掉一些不必要的分支，让树变得更简单，以防止过拟合。

拉普拉斯误差（Laplace Error）是一种用于评估决策节点质量的方法，我们可以计算父节点的误差和子节点的误差总和，然后比较它们，来决定是否要剪掉这个分支。

🎯 为什么要比较父节点和子节点的拉普拉斯误差？

如果子节点的误差之和比父节点大，说明划分后效果反而更差，分支不值得保留，应该剪枝。
如果子节点的误差之和比父节点小，说明划分确实提高了预测效果，分支值得保留。

换句话说，我们是在衡量这个划分是否真的有效，如果划分后误差反而增加了，那就不如直接用父节点的预测！

3.感知机

🌟 什么是感知机？（Perceptron）

感知机就像是**"一个简单的大脑"，可以根据输入做出二选一的决策**（比如“是”或“否”）。它是最基础的人工神经网络模型之一，专门用来处理二分类问题。

🤔 怎么理解感知机？

可以把感知机想象成一个面试官，他要决定一个求职者是**"录取"（1）** 还是 "不录取"（0）。

面试官会根据求职者的学历、工作经验、技能等因素，给这些特征分配不同的权重，然后计算一个分数。

如果分数高于某个标准（阈值），就录取（1）。
如果分数低于标准，就不录取（0）。

🛠 感知机的工作原理

感知机的计算过程可以简单拆解成三步：

1️⃣ 特征加权求和（加权输入）

设 x1,x2,x3 代表求职者的学历、经验、技能（输入）。
设 w1,w2,w3 代表这些因素的重要性（权重）。
计算总评分： S=w1x1+w2x2+w3x3+b其中 b 是偏置项（相当于面试官的个人倾向）。

2️⃣ 通过激活函数做判断

如果 S 大于某个阈值（比如 0），输出 1（录取）。
否则，输出 0（不录取）。
这里常用的激活函数就是阶跃函数：

3️⃣ 学习和调整权重（训练过程）

如果决策错误，就调整权重 w，让模型在下次预测时更准确。
这个调整规则就是感知机的学习算法。

🎯 举个例子

假设感知机要判断一封邮件是垃圾邮件（1） 还是正常邮件（0），它会根据一些特征来计算分数，比如：

包含“免费”这个词（x₁ = 1）
包含“中奖”这个词（x₂ = 1）
发送者是否是陌生人（x₃ = 1）

假设感知机学到的权重是：

w₁ = 0.8（“免费”很重要）
w₂ = 0.6（“中奖”也重要）
w₃ = 0.7（陌生人发的邮件风险大）
偏置 b = -1.2（防止过于轻易判定垃圾邮件）

那么，计算分数：
S=(0.8×1)+(0.6×1)+(0.7×1)−1.2=0.9
由于 S>0，所以感知机判断：这封邮件是垃圾邮件（1）！

📌 感知机的特点

✅ 简单高效：计算快、容易理解。
✅ 适用于线性可分问题（能用一条直线区分的情况）。
❌ 无法解决非线性问题（比如 XOR 异或问题）。
❌ 只能做二分类，不能处理多类别。

📈 总结

感知机就像一个简单的“人工大脑”，它通过给特征赋权重、计算分数，并用阈值做决策，来判断某个输入属于哪一类。

你可以把它理解成：

面试官（判断是否录取）。
邮件过滤系统（判断是否垃圾邮件）。
简单的 AI 判断器（比如黑白图像分类）。

虽然感知机很基础，但它是神经网络的“祖师爷”，现代深度学习中的神经元概念就源自它！ 🚀

po一道例题，具体讲解也可以看几道感知机算法（PLA）的例题

解答；

从第一步开始看，w0=-1.5，w1=0，w2=2，x1=0，x2=1，可以计算得到s=0.5>0，class应该为1，但是class分类却为-，这时候的数字应该减少，w0=w0-n（学习率）=-2.5，w1=w1-nx1=0，w2= w2-nx2=1，这时候可以得到第二步结果，然后继续运算，直到符合a,b,c三个样本为止。

4.多层神经网络构建逻辑函数

在之前的文章中也有讲解：逻辑函数的神经网络实现

🌟 什么是多层神经网络（MLP）？

多层神经网络（MLP，全称 Multi-Layer Perceptron）就是由多个感知机叠加而成的网络，它能解决单个感知机无法解决的复杂问题，比如异或（XOR）逻辑函数。

你可以把它想象成：

感知机是一个人，只能做简单的判断。
多层神经网络是一支团队，可以一起合作，完成更复杂的任务！🎯

🤔 为什么感知机解决不了 XOR？

❌ 单层感知机的局限

感知机只能处理线性可分的问题，比如AND 和 OR：

但 XOR（异或） 不能用一条直线分开：

无法用一条直线划分 0 和 1！ 🚫

👉 解决方案？ 加隐藏层！ 让网络学会更复杂的决策。

🛠 多层神经网络如何构建 XOR？

我们用三层神经网络（输入层 → 隐藏层 → 输出层）来解决 XOR：

📌 结构
输入层（x₁, x₂）
↓
隐藏层（h₁, h₂） 
↓
输出层（y） 
输入层：有两个输入 x1,x2（即 XOR 的两个变量）。
隐藏层：有两个神经元 h1,h2，它们的作用是创造新特征，让 XOR 变得线性可分。
输出层：根据隐藏层的输出，决定最终结果。

📊 计算 XOR

第一步：计算隐藏层

我们用两个隐藏神经元 h1,h2h_1, h_2h1,h2 来创建 AND 和 OR：
h1=AND(x1,x2)=x1⋅x2 h2=OR(x1,x2)=x1+x2
x1 x2 h1=x1⋅x2 h2=x1+x2
0 0 0 0
0 1 0 1
1 0 0 1
1 1 1 1

第二步：计算输出层

XOR 公式：
y=h2−h1=(x1+x2)−(x1⋅x2)
x1 x2 h1 h2 y=h2−h1
0 0 0 0 0
0 1 0 1 1
1 0 0 1 1
1 1 1 1 0

💡 结果完全符合 XOR 的逻辑！ 🎉

🎯 关键点总结

单层感知机无法解决 XOR，因为 XOR 不是线性可分。
多层神经网络可以通过隐藏层来学习新的特征，比如 AND 和 OR 的组合。
隐藏层让神经网络可以处理更复杂的逻辑问题，这就是深度学习的核心思想！

🚀 多层神经网络 = 多个感知机合作，解决更复杂的问题！

x1	x2	h1=x1⋅x2	h2=x1+x2
0	0	0	0
0	1	0	1
1	0	0	1
1	1	1	1

x1	x2	h1	h2	y=h2−h1
0	0	0	0	0
0	1	0	1	1
1	0	0	1	1
1	1	1	1	0

解决问题：

以表格形式说明偏置项 w0 的求解过程：

对 ¬B∨C∨¬D而言：

制作网站哪里做_2023杭州疫情最新消息今天_营销型外贸网站建设_线上推广app

1.决策树

(a) 计算信息增益（Information Gain）

具体到决策树：

(b) 构造决策树

(c) 预测

问题解答：

a. 计算各属性的信息增益

b. 构建决策树

c. 预测样本

2. 拉普拉斯剪枝 (Laplace Pruning)

什么是拉普拉斯剪枝？

为什么需要拉普拉斯剪枝？

拉普拉斯修正是怎么做的？

举个例子

总结

问题解答：

步骤1：计算父节点的Laplace误差

步骤2：计算子节点的Laplace误差

步骤3：计算保留子节点的加权总误差

步骤4：比较误差并决定是否剪枝

3.感知机

🌟 什么是感知机？（Perceptron）

🤔 怎么理解感知机？

🛠 感知机的工作原理

🎯 举个例子

📌 感知机的特点

📈 总结

4.多层神经网络构建逻辑函数

🌟 什么是多层神经网络（MLP）？

🤔 为什么感知机解决不了 XOR？

❌ 单层感知机的局限

🛠 多层神经网络如何构建 XOR？

📌 结构

📊 计算 XOR

第一步：计算隐藏层

第二步：计算输出层

🎯 关键点总结

最新新闻

热搜词