同济大学 · 人工智能科学与技术(智慧建造与低碳环境大类)· 2025~2026 春学期
📺 课堂互动演示 · 第五章

决策树与集成学习

含互动演示 · 可投影使用 · 离线可用
🌳 决策树 📐 分裂准则 🤝 集成学习 📦 装袋法 🌲 随机森林 ⚡ 提升法
00

课程概览

本章为什么重要?四大主题的学习路线

线性模型的局限与突破
🔴 线性模型的瓶颈
线性模型只能画一条直线来分割数据。真实世界的关系往往是非线性的——比如混凝土强度与水灰比、养护时间的关系,无法用一条直线准确描述。
🌳 决策树的思路
决策树不画直线,而是提问“水灰比 < 0.5吗?”“养护时间 ≥ 14天吗?”——用一系列是/否的问题,将特征空间切割成矩形区域,从而处理非线性问题。
💡 类比:就像医生诊断病情——不是算一个公式,而是逐步追问症状,最终得出判断。
本章学习路线
01
决策树基础 核心
树结构(根节点/内部节点/叶节点)、二叉树数学本质(特征空间递归分割)、分裂准则(基尼指数/信息熵)
02
集成学习思想 原理
为什么多个弱学习器能组合成强学习器?概率论证明:5个60%准确率的模型投票 → 68%
03
装袋法(Bagging) 并行
有放回抽样生成多个训练子集 → 独立训练多个基模型 → 投票/平均 → 袋外误差(OOB)无偏估计
04
随机森林 稳定
装袋法 + 每次只随机选 m 个特征 → 降低树间相关性 → 变量重要性度量
05
提升法(Boosting) 串行
顺序训练,专注难例,权重自适应调整 → AdaBoost → GBM → XGBoost
偏差-方差权衡(Bias-Variance Tradeoff)

理解集成学习为什么有效的核心理论基础——模型误差可以分解为偏差、方差和不可约噪声三部分:

$$\text{Error} = \text{Bias}^2 + \text{Variance} + \text{Irreducible Noise}$$
🎯
偏差(Bias)—— 欠拟合
模型过于简单,无法捕捉数据的真实规律。就像用一条直线去拟合抛物线数据,系统性地偏离真实值。偏差高的模型在训练集和测试集上表现都差。
🎲
方差(Variance)—— 过拟合
模型过于复杂,对训练数据中的噪声也进行了学习。换一组训练数据,模型结果就会大幅波动。方差高的模型训练集表现好,测试集表现差。
🏗️ 土木工程类比:假设要预测混凝土强度——偏差就像你只用“水灰比”一个变量来预测,公式太简单,无论怎么调参数都抓不住真实规律,预测结果系统性地偏离真实值。方差就像你用了一个极其复杂的公式,换一批试块数据,预测结果就大幅波动。好的模型既要抓住规律(低偏差),又要经得起数据变化(低方差)。
简单模型(高偏差)
如:浅决策树(深度=1)
欠拟合,规律捕捉不足
Bagging 无法修复
复杂模型(高方差)
如:深决策树(无限制)
过拟合,对噪声敏感
Bagging 可以改善
集成模型(平衡)
如:随机森林、XGBoost
多个模型取长补短
偏差方差兼顾
关键洞察:Bagging(装袋法)主要降低方差——多个不稳定模型取平均后更稳定;Boosting(提升法)主要降低偏差——逐步修正错误,让模型越来越准。这就是两大集成策略的根本区别!
01

决策树

通过提问来分类——来走一遍土木工程场景的决策树!

🎮 互动演示:今天能开工吗?(点击“是”或“否”走完决策树)
从根节点开始,点击下方按钮逐步走完决策树…
当前问题
地基承载力是否合格?
决策树的三类节点
🌱
根节点
整棵树的起点,包含全部数据,第一个提问的节点
🔀
内部节点
中间的判断问题,代表某个特征上的条件,可以继续分裂
🍃
叶节点
树的末端,不再分裂,直接给出最终预测结果
二叉树的数学本质:特征空间的递归分割

决策树本质上是将特征空间切成越来越小的矩形区域,每次沿坐标轴平行方向切割:

🎮 互动演示:混凝土强度特征空间分割(水灰比 vs 养护天数)

绿色 = 抗压强度达标(≥C30)  ● 红色 = 不达标  —— 点击按钮逐步添加分割线,看决策树如何“切”出答案:

Gini = 0.50(未分割)
✓ 优点
直观可解释,规则可以用自然语言描述
无需对数据做假设,能处理非线性关系
能处理部分缺失数据,训练速度快
✗ 缺点
容易过拟合(树太深时把训练数据“背”下来)
贪心算法,缺乏全局最优
数据微小变化可能导致完全不同的树(不稳定)
🎮 互动演示:逐步构建决策树
施工数据集——算法如何一步步选择最优分裂?
#地基类型材料等级天气能否开工
1岩石A级
2岩石B级
3粘土A级
4粘土B级
5沙地A级
6沙地B级
7岩石A级
8粘土A级
点击按钮,观察算法如何贪心选择最优特征进行分裂...
⚠️ 停止条件的重要性:如果不设置停止条件,决策树会一直分裂直到每个叶节点只有一个样本——这就是严重的过拟合!
🎮 互动演示:剪枝——拖动滑块找到最优深度
树的深度如何影响训练/测试准确率?
树的最大深度 8
训练集准确率
99.5%
测试集准确率
72.0%
训练准确率
99.5%
测试准确率
72.0%
过拟合!训练准确率很高但测试准确率很低,树太深把噪声也学进去了。
✂️ 预剪枝(Pre-pruning)
在树生长时就限制深度、最小样本数等,提前防止过拟合。
🪓 后剪枝(Post-pruning)
先让树充分生长,再自底向上删除不必要的分支(如CART的ccp_alpha)。
🎮 互动演示:回归树——拖动分割线拟合数据
养护天数 vs 抗压强度(MPa):添加分割来降低预测误差
分割数量 0
均方误差 MSE
285.3
分割数
0
每个区域内的预测值 = 该区域样本的均值(虚线)。分割越多,MSE越低,但过多分割会导致过拟合。
$$\hat{y}_{\text{leaf}} = \frac{1}{|R_m|}\sum_{x_i \in R_m} y_i \quad \text{(叶节点预测 = 该区域样本均值)}$$
02

分裂准则

如何找到最好的分割点?——基尼指数 vs 信息熵

节点不纯度:衡量混乱程度
📚 类比:图书馆管理员把一堆书分到两个书架,目标是让每个书架上的书尽可能属于同一类(“结构力学” vs “施工技术”)。分裂准则的好坏可以用节点不纯度函数来衡量。
基尼指数(Gini Index)
如果从书架上随机取两本书,属于不同类别的概率越高,混乱程度越高,基尼指数越大。范围:0(纯净)到 0.5(最混乱)。
信息熵(Entropy)
衡量对分类结果的“惊讶”程度。一个随机事件发生,其信息量与概率成反比。范围:0(纯净)到 1(最混乱)。
$$\text{Gini} = 1 - \sum_{i=1}^{k} p_i^2$$
$$\text{Entropy} = -\sum_{i=1}^{k} p_i \log_2(p_i)$$
🎮 互动演示:不纯度实时计算器
这个节点里有 20 个混凝土样本,拖动滑块改变“合格”的比例,看两种指标如何变化:
✅ 合格样本比例 50%
基尼指数 Gini
0.500
信息熵 Entropy
1.000
Gini (0→0.5)
0.500
Entropy (0→1)
1.000
两类各半——节点最“不纯”,Gini=0.5,Entropy=1.0,这种节点需要继续分裂。
🎮 互动挑战:哪个分割更好?(点击你认为更好的那个)

节点中有 10 个样本(5绿/5红),下面两种分割方式,哪个基尼指数更低(更好)?

方案 A
左:4绿1红 右:1绿4红
方案 B
左:3绿2红 右:2绿3红
🎮 互动演示:寻找最佳分割点

前面我们学会了衡量“一个节点有多混乱”(基尼指数/信息熵)。现在的问题是:决策树怎么知道从哪里切一刀最好?

💡 核心思路很简单:分裂前有多混乱,分裂后有多混乱,两者的差值就是“信息增益”——差值越大,说明这一刀切得越好!
试试看:拖动分割线,找到使“增益”最大的最佳位置!

下面20个混凝土样本按水灰比从小到大排列。✓ 绿色 = 强度达标,✗ 红色 = 不达标。拖动滑块决定“从哪里切一刀”:

🔪 切割位置(水灰比) 0.50
⬅ 左组 (<0.50):9达标 / 3不达标 | 右组 (≥0.50):1达标 / 7不达标
分裂前(混乱度)
1.000
分裂后(加权混乱度)
0.705
=
✨ 信息增益
0.295
左组混乱度
0.811
右组混乱度
0.544
📐 加权混乱度怎么算? —— 按每组占比加权平均:
左组占比 × 左组熵 + 右组占比 × 右组熵
= 12/20 × 0.811 + 8/20 × 0.544 = 0.705
💡 人多的组权重大——如果左边有15个样本、右边只有5个,左边的混乱度更“算数”。
📈 信息增益
0.295
试着把滑块左右拖动——当“增益”最大时,就是决策树会选择的最佳切割点!
📌 公式只是上面过程的数学表达:\(\text{Gain} = \text{分裂前的熵} - \text{分裂后各子节点熵的加权平均}\)。决策树会遍历每个特征的每个可能切割点,选择增益最大的那个。
🎮 互动演示:ID3 的“偏心”陷阱

信息增益有一个著名的缺陷——它偏爱取值种类多的特征。点击下面的按钮亲自体验:

场景:8个混凝土样本,用哪个特征来分裂最好?

有 3 个候选特征:点击每个特征,看它的信息增益是多少——

👆 点击一个特征,看看用它来分裂会发生什么——
03

集成学习

三个臭皮匠,顶个诸葛亮——点击每个评审员,看集成投票的威力!

🎮 互动演示:模拟集成投票(点击每个🤖投出一票)

每个模型有 60% 的准确率。点击每个机器人,模拟它对“这个结构是否合格”的判断:

单模型准确率 60%
基模型数量 7
单模型准确率
60%
集成后准确率(理论)
70%
单模型
60%
集成后
70%
调整参数后,重新点击机器人们投票!
数学证明:为什么集成学习有效?
投票准确率计算
5 个独立二分类模型,每个准确率 60%,多数投票:

$$C_5^3(0.6)^3(0.4)^2 + C_5^4(0.6)^4(0.4)^1 + C_5^5(0.6)^5 \approx 0.683$$
60% → 68.3%!方差也从 \(\sigma^2\) 降低为 \(\dfrac{\sigma^2}{n}\)。
并行集成(Bagging)
多个模型独立并行训练,最后汇总。目标:降低方差,提高稳定性。代表:装袋法、随机森林。
串行集成(Boosting)
模型顺序训练,后一个修正前一个的错误。目标:降低偏差,提高准确性。代表:AdaBoost、XGBoost。
集成学习成功的三个条件 + 多样性测试
🎯
准确性
每个基模型准确率必须 > 50%(好于随机猜测)。
🎭
多样性
各模型在不同样本上犯错,才能互相纠正。
🔧
合理整合
分类用多数投票,回归用均值/加权平均。
🎮 多样性测试:点击机器人切换“独立/跟风”模式

5个模型投票:独立的模型各自判断,跟风的总是和1号一样。点击切换!

🤖
独立
🤖
独立
🤖
独立
🤖
独立
🤖
独立
独立模型数
5
集成准确率
68%
所有模型独立判断,集成效果最佳!多样性是集成成功的关键。
04

装袋法(Bagging)

有放回抽样 + 并行训练——亲眼看到 Bootstrap 是怎么工作的

🎮 互动演示:Bootstrap 有放回抽样(点击开始!)

原始数据集有 10 个混凝土强度检测样本,装袋法会从中有放回地抽取多个训练子集。注意:同一个样本可能被重复选中!

训练集 1
训练集 2
训练集 3
🟡 袋外数据 OOB(训练集1未选中的样本,约1/3)
点击按钮开始抽样!观察:哪些样本被多次选中?哪些没被选中?
装袋法工作流程
1
有放回抽样
从原始数据集多次有放回抽取,生成多个子训练集
2
独立训练
每个子集独立训练一个基学习器,互不影响
3
整合结果
分类→多数投票
回归→取平均值
袋外验证 OOB
每次约 1/3 数据未被选中,可以“免费”评估模型好不好(下面详细解释👇)
降低方差
多模型投票/平均,单个模型的误差被平均掉,整体更稳定
并行训练
各模型完全独立,可并行计算,效率高
🎮 互动模拟:OOB比例实验
Bootstrap抽样中,有多少样本不会被选中?用模拟来验证理论!
样本数量 n 10
实际未被选中比例
理论值 \(e^{-1}\)
36.8%
模拟结果
理论值
36.8%
点击按钮运行模拟!公式:\(\left(1-\frac{1}{n}\right)^n \to e^{-1} \approx 0.368\)
袋外数据(OOB)为什么能做“无偏估计”?

先搞懂一件事——什么是“无偏估计”?

🎯
打靶类比
射击10次,如果弹孔平均落在靶心(虽然有偏左偏右),就叫“无偏”。如果弹孔总是偏左,就是“有偏”。

无偏估计的意思就是:用这种方法反复评估模型,得到的平均分不会系统性地偏高或偏低,而是恰好围绕真实水平。
📝
考试类比
你做了一套模拟题,拿同一套题给自己打分——分数虚高(因为你已经看过题了),这就是有偏的。

但如果每次考试后,用你从没见过的题目来打分,得到的分数才能真实反映你的水平——这就是无偏的。
🔑 OOB 为什么天然无偏?
1
每棵树有“没见过的数据”
训练第 1 棵树时,样本 2、4、10 没被选中(袋外)。这棵树在训练时完全没见过这 3 个样本——就像考试时没见过的新题。
2
用“没见过的数据”打分
把样本 2 扔给第 1 棵树预测,得到的分数是客观的——因为这棵树训练时没“偷看”过样本 2 的答案。
3
每个样本都被“公正评判”
对于样本 2,找到所有没用过它训练的树,让它们投票预测,然后跟真实值对比——这个预测结果完全公正,没有“作弊”成分。
4
汇总得到 OOB 误差
对所有样本重复上述过程,统计“预测对了多少、错了多少”——这就是OOB误差,它跟你拿一份全新的测试集来评估得到的结果几乎一样准确
💡 为什么这很有用?通常评估模型需要留出一部分数据做“测试集”,数据就少了。OOB 方法不需要额外留出数据,却能达到同样公正的评估效果——等于“免费”送你一个测试集!在数据量有限的土木工程试验中(比如只有几十个混凝土试块),这非常宝贵。
05

随机森林

装袋法的升级版——每棵树只看“部分特征”,让树们更有多样性

🎮 互动演示:随机森林的两层随机性

随机森林 = 装袋法 + 随机特征选择。点击下方按钮,看看每棵树的训练数据和候选特征有何不同:

房价预测:4 个特征 × 10 个样本,观察每棵树的“随机性”来自哪里
🎲 第一层随机:Bootstrap 抽样
和装袋法一样,每棵树从原始数据中有放回抽样,只用约 63% 的数据训练。
🎲 第二层随机:特征子集
每次节点分裂时,只从 m=2 个随机特征中选最优,不用全部 4 个。
点击按钮,看每棵树的数据和特征都不一样!
⚠️ 常见误解:随机森林不是“每棵树用全部数据”!它和装袋法一样,每棵树只用 Bootstrap 抽样得到的部分数据训练。两层随机性共同保证了树的多样性。

下面 6 棵树各自用了不同的特征组合——装袋法每棵树用全部 4 个特征,随机森林每棵树只随机选 m=2 个:

💡 “三个臭皮匠”需要尽可能互不相关!如果每棵树都选最强的特征(如“犯罪率”),它们会高度相似,集成效果差。随机特征选择强迫树们“各显神通”。
📌 关键关系:当 m = 全部特征数 时,随机森林退化为普通装袋法(因为没有了特征随机性)。
变量重要性(Feature Importance)

随机森林虽然牺牲了单棵树的可解释性,但可以通过变量重要性了解哪些特征最有影响力:

📊 波士顿房价案例:最重要的特征是 LSTAT(低收入人口比例)RM(平均房间数)。方法:对每个特征,计算其在所有树中导致的基尼指数下降幅度,取平均。
🎮 互动演示:随机森林参数调优
调节参数,观察随机森林的表现变化
n_estimators(树数量) 50
max_features(特征数 / 共4个) 2
集成准确率
82.5%
树间相关性
准确率
82.5%
50棵树,每棵选2个特征候选。多样性适中,准确率不错。
土木工程案例:混凝土强度预测

用一个实际的土木工程场景来对比单棵决策树和随机森林的表现:

📋 数据描述
任务:预测混凝土试块的28天抗压强度(回归问题)
数据:500个混凝土试块的检测记录
特征:水灰比、水泥用量(kg/m³)、骨料粒径(mm)、养护天数、外加剂用量(%)、砂率(%)、坍落度(mm)、环境温度(°C)
目标:预测抗压强度(MPa)

模型性能对比(决定系数 \(R^2\),越接近1越好):

单棵决策树
R²=0.72
随机森林(100棵)
R²=0.89
随机森林(500棵)
R²=0.91
💡 随机森林将单棵树的R²从0.72提升到0.89,泛化能力显著增强,还可通过特征重要性发现“水灰比”和“养护天数”是最关键因素。
06

提升法(Boosting)

专注于“补差”——每一轮都重点学习上一轮的错误案例

先回顾:装袋法 vs 提升法——两种完全不同的思路

前面我们学的装袋法是"大家各干各的,最后投票"。提升法则完全不同——

🏗️
装袋法:并行施工队
请 10 个施工队同时独立建造,最后取平均质量。
每个队看到略有不同的图纸(随机抽样),但互不交流

目标:大家各有小失误,平均后就稳定了 → 降低方差
📋
提升法:质检整改循环
第 1 轮质检发现 3 处缺陷 → 第 2 轮重点整改这 3 处 → 第 3 轮再查漏补缺…
每一轮都盯着上一轮的问题,逐步完善。

目标:专攻薄弱环节,精度越来越高 → 降低偏差
⚠️ 关键区别:装袋法的每个模型是“独立的”——互不影响;提升法的每个模型是“接力的”——后一个专门修正前一个的错误。所以提升法必须串行,无法并行。
AdaBoost:自适应提升

AdaBoost 是最经典的提升法。核心思想用一句话概括:“哪里不会补哪里”——分错的样本下一轮给更多关注。

1
均等初始化
所有样本权重相等(1/n),一视同仁
2
训练弱分类器
基于当前权重训练一个简单模型(如只有一层的“树桩”)
3
调整权重
分错的样本 → 权重放大⬆
分对的样本 → 权重缩小⬇
4
重复 2~3
用更新后的权重再训练下一个弱分类器
5
加权投票
所有弱分类器按“话语权”加权投票,得出最终结果
💡 类比:就像老师改完卷子后,把错题标记出来让学生重点复习,第二次考试时重点考上次的错题。如此反复几轮,学生就把所有知识点都掌握了。
🎮 互动演示:AdaBoost 权重更新动画(点击“下一轮”观察变化)

16 个建筑质检样本:● 蓝色 = 合格,● 红色 = 不合格。

⭕ 圆圈越大 = 权重越高 = 下一轮重点关注!白色边框 = 本轮被分错的样本。

第 0 轮
初始状态:所有样本权重相等
初始状态:给所有 16 个样本分配相等权重(每个 1/16 = 6.25%)。第一个弱分类器将对它们平等对待——没有哪个样本更重要。点击“下一轮训练”,看看第一个弱分类器分错了哪些样本,以及权重如何变化!
🎮 互动演示:弱分类器的“话语权”怎么定?

每个弱分类器在最终投票时有不同的“话语权” \(\alpha\)。错误率越低的分类器,话语权越大——就像考试成绩好的同学,推荐更值得信赖。

拖动滑块改变错误率,观察话语权如何变化
弱分类器错误率 ε 0.30
分类器权重 α(话语权)
0.424
话语权大小
中等
α 值
0.424
这个分类器训练完后,样本权重怎么更新?
✅ 分对的样本
权重 × 0.655
权重缩小 → 下轮少关注
❌ 分错的样本
权重 × 1.527
权重放大 → 下轮重点关注
错误率30%:这个分类器有一定话语权,正确样本权重缩小,错误样本权重放大。
📌 公式(了解即可):\(\alpha_t = \frac{1}{2}\ln\frac{1-\epsilon_t}{\epsilon_t}\)。错误率 \(\epsilon\) 越小 → \(\alpha\) 越大 → 这个分类器在最终投票中越重要。
🎮 互动演示:3 个弱分类器如何"加权投票"?

经过 3 轮训练,我们得到了 3 个弱分类器,每个都有不同的"话语权" α。现在来了一个新样本——点击每个分类器看它的判断,最后看加权投票的结果!

场景:一块混凝土试块,它的强度是否合格?
弱分类器 1
α₁ = 0.42(话语权小)
🤖
点击查看判断
弱分类器 2
α₂ = 0.65(话语权中)
🤖
点击查看判断
弱分类器 3
α₃ = 0.91(话语权大)
🤖
点击查看判断
👆 逐个点击 3 个分类器,看看它们各自怎么判断,最后加权投票的结果是什么!
AdaBoost 的优缺点
✓ 优点
降低偏差,逐步攻克难样本,准确率高
自动特征选择,忽略噪声特征
不太容易过拟合(理论上有上界保证)
可以用各种弱学习器(不限于决策树)
✗ 缺点
必须串行训练,速度比装袋法慢
对噪声和异常值敏感:异常样本会被不断放大权重,可能带偏整个模型
对弱分类器有要求:准确率至少 > 50%,否则会越训越差
⚠️ 噪声陷阱:如果数据中有标记错误的样本(比如不合格的混凝土被标成了合格),AdaBoost 会在每一轮都给它更多关注,试图“学会”这个错误——这就是为什么在噪声多的数据上,随机森林往往比 AdaBoost 更稳健。
🎮 互动演示:残差拟合——GBM 的核心思想

AdaBoost 通过调整样本权重来补差。GBM(梯度提升)换了一种更直接的方式:让每棵新树去拟合前面所有树的“残差”(预测值与真实值的差距)

💡 通俗理解:第 1 棵树预测“这块混凝土强度约 30 MPa”,实际是 35 MPa,差了 5。第 2 棵树的任务不是重新预测强度,而是专门预测这个 +5 的差距。第 3 棵树再预测剩余的差距……如此叠加,预测越来越准。
点击“添加下一棵树”,观察预测值(绿点)逐步逼近真实值(蓝点)

● 蓝点 = 真实强度值   ● 绿点 = 当前预测值   ┆ 红色虚线 = 残差(还差多少)

当前:0 棵树。点击按钮开始逐步拟合!
每棵新树都只负责“补上一轮的差距”,所以红色虚线会越来越短——残差越来越小,预测越来越准!
从 AdaBoost 到 XGBoost:提升法家族的演进
1
AdaBoost(1995)开创者
通过调整样本权重让弱分类器逐步攻克难例。简单优雅,但对噪声敏感。
2
GBM — 梯度提升机(2001)突破
不再调权重,改为让每棵新树拟合残差。支持各种损失函数(分类、回归均可),更灵活。
3
XGBoost(2016)工业级
在 GBM 基础上加入正则化防止过拟合,用二阶泰勒展开加速优化,支持并行和 GPU。Kaggle 竞赛的“屠榜利器”。
4
LightGBM / CatBoost(2017+)更快更强
LightGBM(微软):直方图加速 + 叶子优先生长,训练速度提升 10 倍以上,适合大数据。CatBoost(Yandex):对类别特征有天然支持。
🏆 XGBoost 在实际工程中的应用:桥梁健康监测(基于传感器数据预测结构状态)、地震损伤等级预测、混凝土耐久性评估等。在 2015-2019 年间,Kaggle 竞赛超过半数获胜方案使用了 XGBoost。
07

对比总结

三种方法的关键区别与选择指南

全面对比
维度装袋法随机森林提升法
优化目标降低方差降低方差降低偏差
训练方式并行 独立训练并行 + 随机特征串行 顺序依赖
树间关系独立,相关性高独立,相关性低顺序依赖,后补前错
性能特点稳定,防过拟合更稳定,特征重要性精度高,适合复杂问题
噪声敏感中等中等敏感(给噪声更高权重)
代表算法BaggingRandom ForestAdaBoost / XGBoost
演进路线与学习建议
1
单棵决策树
直观,但不稳定易过拟合
2
装袋法
多树并行,降低方差
3
随机森林
降低树间相关,更强
4
提升法族
串行修正,精度最高
5
XGBoost
工业级,竞赛首选
土木工程应用场景
🏗️
施工安全评估
基于地基、材料、天气等特征,预测施工是否安全——决策树(可解释规则)
🏘️
房屋价格预测
用周边设施、楼龄、楼层等预测市场价格——随机森林(高精度)
🌉
桥梁健康监测
基于传感器数据分类桥梁健康状态——XGBoost(大数据,高精度)
🎮 互动测试:模型选择情景问答
面对以下场景,你会选择哪个模型?
你有50个混凝土样本,需要解释为什么某批次不达标。
单棵决策树
随机森林
XGBoost
线性回归
场景 1 / 5

随堂测验

15 题,源自课件回顾问题,答错有解析

得分:0 / 15