交叉验证与网格搜索：让模型选择更可靠

发表于2026-05-25|更新于2026-05-25|机器学习

|浏览量:

训练机器学习模型时，我们经常会遇到两个问题：

这个模型到底是不是真的好？
参数应该怎么选，比如 KNN 的 $K$、逻辑回归的正则化强度、决策树的最大深度？

如果只把数据随便分成一次训练集和测试集，然后看一次准确率，很容易被偶然性误导。交叉验证（Cross Validation）就是为了解决“评估不稳定”的问题；网格搜索（Grid Search）则是为了解决“超参数怎么选”的问题。

K 折交叉验证示意图

1. 为什么不能只划分一次数据

假设我们有一份数据集，要判断一个模型效果如何。最常见的做法是：

训练集：用来训练模型
测试集：用来评估模型

这听起来很合理，但有一个问题：一次划分可能有运气成分。

如果测试集刚好比较简单，模型分数会偏高；如果测试集刚好比较困难，模型分数会偏低。也就是说，一次测试结果可能不能代表模型的真实水平。

可以把它想象成考试：

只考一张卷子，可能刚好考到你熟悉的题。
多考几张不同卷子，平均成绩才更接近真实水平。

交叉验证的思想就是：让模型多考几次，再看平均表现。

2. 什么是 K 折交叉验证

K 折交叉验证（K-Fold Cross Validation）会把数据分成 $K$ 份，每次拿其中一份做验证集，其余 $K-1$ 份做训练集。

假设 $K=5$（上方图中就是5折交叉验证），流程如下：

轮次	训练集	验证集
第 1 轮	第 2、3、4、5 份	第 1 份
第 2 轮	第 1、3、4、5 份	第 2 份
第 3 轮	第 1、2、4、5 份	第 3 份
第 4 轮	第 1、2、3、5 份	第 4 份
第 5 轮	第 1、2、3、4 份	第 5 份

最后会得到 5 个验证分数：

$$
s_1, s_2, s_3, s_4, s_5
$$

通常取平均值作为模型表现：

$$
\bar{s}=\frac{1}{K}\sum_{i=1}^{K}s_i
$$

也可以看标准差：

$$
\sigma=\sqrt{\frac{1}{K}\sum_{i=1}^{K}(s_i-\bar{s})^2}
$$

平均值反映模型总体表现，标准差反映模型表现是否稳定（标准差越小越稳定）。

3. 交叉验证解决了什么问题

交叉验证的好处主要有三个。

3.1 评估更稳定

一次训练/验证划分可能有偶然性，而 K 折交叉验证会让每一部分数据都轮流做一次验证集。这样得到的平均分更可信。

3.2 数据利用更充分

每一轮中，大部分数据都参与训练；从整体看，每个样本也都有机会参与验证。对于数据量不大的场景，这一点很重要。

3.3 方便比较模型

如果要比较 KNN、逻辑回归、决策树等模型，使用同样的交叉验证方式，可以让比较更公平。

4. 什么是超参数

在机器学习中，参数和超参数不是一回事。

参数是模型通过训练学出来的，例如线性回归中的 $w$ 和 $b$。

超参数 是训练前人为设定的，例如：

KNN 中的 $K$
决策树中的 max_depth
逻辑回归中的正则化强度 C
随机森林中的树数量 n_estimators
SVM 中的核函数和惩罚系数

超参数不会由模型自动学出来，需要我们提前指定。

问题是：怎么知道哪个超参数最好？

这就需要网格搜索。

5. 什么是网格搜索

网格搜索（Grid Search）就是把可能的超参数组合列成一张“网格”，然后一个个试。

例如用 KNN 做分类时，我们想尝试：

n_neighbors: 3, 5, 7, 9
weights: uniform, distance

这些参数组合起来就是：

$$
4 \times 2 = 8
$$

也就是说，一共有 12 种组合要测试。

网格搜索会对每一种组合都做交叉验证，然后选择平均分最高的组合。

6. 网格搜索和交叉验证如何配合

网格搜索通常不会只用一次验证集判断哪个参数好，而是会把交叉验证嵌进去。

可以理解为：

对每一组超参数：
    做 K 折交叉验证
    得到 K 个分数
    计算平均分

选择平均分最高的超参数组合

假设我们有 12 组参数，每组做 5 折交叉验证，那么总共需要训练：

$$
12 \times 5 = 60
$$

次模型。

这也是为什么网格搜索有时会比较慢：它不是训练一次模型，而是训练很多次模型。

7. 一个直观例子：给 KNN 选择 K 值

假设我们用 KNN 做分类，只想调一个参数：

K = 1, 3, 5, 7, 9

我们对每个 $K$ 做 5 折交叉验证，得到结果：

K 值	5 折平均准确率
1	0.86
3	0.90
5	0.93
7	0.92
9	0.89

此时我们会选择：

$$
K=5
$$

因为它的交叉验证平均分最高。

这比“随便选一个 K”可靠得多。

8. Python 实战：cross_val_score

下面先用 cross_val_score 看模型在 5 折交叉验证下的表现（cross_val_score主要用于模型评估，9中使用GridSearchCV用于寻优）。

from sklearn.datasets import load_iris
from sklearn.model_selection import cross_val_score
from sklearn.neighbors import KNeighborsClassifier

# 加载鸢尾花数据集，这是一个经典的多分类数据集
iris = load_iris()
X = iris.data
y = iris.target

# 创建 KNN 模型，这里先人为指定 n_neighbors=5
model = KNeighborsClassifier(n_neighbors=5)

# 对模型做 5 折交叉验证
# scoring="accuracy" 表示使用准确率作为评价指标
scores = cross_val_score(
    model,
    X,
    y,
    cv=5,
    scoring="accuracy",
)

# 每一折都会得到一个分数
print(scores)

# 交叉验证平均分可以看作模型整体表现
print("平均准确率:", scores.mean())

# 标准差越小，说明不同划分下模型表现越稳定
print("标准差:", scores.std())

输出可能类似：

[0.9667 1.0000 0.9333 0.9667 1.0000]
平均准确率: 0.9733
标准差: 0.0249

这表示模型不是只在某一次划分上表现好，而是在多次验证中整体表现比较稳定。

9. Python 实战：GridSearchCV

下面用 GridSearchCV 搜索 KNN 的超参数。

from sklearn.datasets import load_iris
from sklearn.model_selection import GridSearchCV
from sklearn.neighbors import KNeighborsClassifier

# 加载数据
iris = load_iris()
X = iris.data
y = iris.target

# 先创建一个基础模型，具体超参数交给 GridSearchCV 来搜索
model = KNeighborsClassifier()

# 定义要尝试的超参数范围
# GridSearchCV 会把这些参数组合全部遍历一遍
param_grid = {
    "n_neighbors": [1, 3, 5, 7, 9],
    "weights": ["uniform", "distance"],
    "metric": ["euclidean", "manhattan"],
}

# cv=5 表示每一组超参数都做 5 折交叉验证
# scoring="accuracy" 表示用准确率比较不同参数组合
grid_search = GridSearchCV(
    estimator=model,
    param_grid=param_grid,
    cv=5,
    scoring="accuracy",
)

# 开始搜索最佳超参数
grid_search.fit(X, y)

# best_params_ 保存交叉验证平均分最高的参数组合
print("最佳参数:", grid_search.best_params_)

# best_score_ 保存最佳参数组合对应的交叉验证平均分
print("最佳交叉验证分数:", grid_search.best_score_)

# best_estimator_ 是已经用最佳参数重新训练好的模型
print("最佳模型:", grid_search.best_estimator_)

这里 GridSearchCV 做了三件事：

遍历 param_grid 中的所有参数组合。
对每个组合做 5 折交叉验证。
找出平均准确率最高的组合。

训练完成后，可以直接拿最佳模型做预测：

best_model = grid_search.best_estimator_
pred = best_model.predict(X[:5])
print(pred)

10. 混淆矩阵：别只看准确率

交叉验证和网格搜索可以帮助我们选出平均表现更好的模型，但如果只看准确率，有时仍然不够。

比如一个疾病检测模型，准确率是 $95%$，听起来很高。但如果它把很多真正患病的人预测成健康，那这个模型依然很危险。

因此，在分类任务中，我们常常会进一步查看混淆矩阵（Confusion Matrix）。

混淆矩阵不是一个新的模型，而是一张“预测结果对照表”，用来观察模型具体把哪些类别预测对了，哪些类别预测错了。

混淆矩阵示意图

以二分类为例，混淆矩阵中有四个核心概念：

名称	含义
TP	True Positive，真实为正类，预测也为正类
TN	True Negative，真实为负类，预测也为负类
FP	False Positive，真实为负类，但预测成正类
FN	False Negative，真实为正类，但预测成负类

如果用疾病检测来理解：

TP：病人被正确检测为有病。
TN：健康人被正确检测为健康。
FP：健康人被误判为有病。
FN：病人被误判为健康。

不同业务对错误类型的容忍度不同。比如疾病筛查中，FN 往往比 FP 更严重，因为漏诊可能带来更高风险。

11. 从混淆矩阵得到评价指标

有了 TP、TN、FP、FN，就可以计算多个常见指标。

准确率（Accuracy）：

$$
Accuracy=\frac{TP+TN}{TP+TN+FP+FN}
$$

它表示所有样本中预测正确的比例。

精确率（Precision）：

$$
Precision=\frac{TP}{TP+FP}
$$

它回答的问题是：模型预测为正类的样本中，有多少真的为正类？

召回率（Recall）：

$$
Recall=\frac{TP}{TP+FN}
$$

它回答的问题是：真实正类样本中，有多少被模型找出来了？

F1 分数：

$$
F1=\frac{2 \times Precision \times Recall}{Precision+Recall}
$$

它是精确率和召回率的调和平均，适合在二者都重要时使用。

简单理解：

准确率：整体对不对
精确率：预测为正类时靠不靠谱
召回率：真正的正类有没有找全
F1：精确率和召回率的综合平衡

12. Python 实战：混淆矩阵与分类报告

下面在 GridSearchCV 找到最佳模型后，继续查看它在测试集上的混淆矩阵和分类报告。

from sklearn.datasets import load_iris
from sklearn.metrics import classification_report, confusion_matrix
from sklearn.model_selection import GridSearchCV, train_test_split
from sklearn.neighbors import KNeighborsClassifier

# 加载鸢尾花数据集
iris = load_iris()
X = iris.data
y = iris.target

# 先划分最终测试集
# stratify=y 可以尽量保持训练集和测试集中的类别比例一致
X_train, X_test, y_train, y_test = train_test_split(
    X,
    y,
    test_size=0.2,
    random_state=42,
    stratify=y,
)

# 创建基础 KNN 模型
model = KNeighborsClassifier()

# 定义要搜索的超参数网格
param_grid = {
    "n_neighbors": [1, 3, 5, 7, 9],
    "weights": ["uniform", "distance"],
    "metric": ["euclidean", "manhattan"],
}

# 只在训练集上做网格搜索和交叉验证
# 这样可以避免提前看到测试集，降低数据泄漏风险
grid_search = GridSearchCV(
    estimator=model,
    param_grid=param_grid,
    cv=5,
    scoring="accuracy",
)

# 在训练集上寻找最佳参数
grid_search.fit(X_train, y_train)

# 取出最佳模型
best_model = grid_search.best_estimator_

# 用最佳模型预测最终测试集
y_pred = best_model.predict(X_test)

# 输出混淆矩阵
# 行表示真实类别，列表示预测类别
print("混淆矩阵:")
print(confusion_matrix(y_test, y_pred))

# 输出分类报告
# precision 是精确率，recall 是召回率，f1-score 是 F1 分数
print("分类报告:")
print(classification_report(y_test, y_pred, target_names=iris.target_names))

这段代码的重点是：网格搜索只在训练集上进行，最终测试集只在最后评估一次。

如果在调参过程中反复查看测试集结果，模型选择过程就会间接“记住”测试集，最后的测试分数会偏乐观。

13. 训练集、验证集、测试集的关系

一个容易混淆的问题是：用了交叉验证，还需不需要测试集？

答案是：通常仍然需要。

比较稳妥的流程是：

原始数据
  |
  | 先划分
  v
训练验证部分 + 最终测试集
  |
  | 在训练验证部分做交叉验证和网格搜索
  v
选出最佳超参数
  |
  | 用最佳超参数重新训练模型
  v
在最终测试集上评估一次

原因是：网格搜索已经反复看过验证集，如果最后仍然用验证分数当最终成绩，可能会偏乐观。最终测试集应该只在最后使用一次，模拟模型面对全新数据的表现。

14. 常见注意点

14.1 分类任务建议使用 StratifiedKFold

分类任务中，如果类别比例不均衡，普通 KFold 可能让某些折里的类别比例失衡。

这时可以使用分层交叉验证：

from sklearn.model_selection import StratifiedKFold

cv = StratifiedKFold(
    n_splits=5,
    shuffle=True,
    random_state=42,
)

它会尽量让每一折中的类别比例接近原始数据。

14.2 数据预处理要放进 Pipeline

如果要做标准化、缺失值填补、特征选择等操作，不建议先对全量数据处理，再做交叉验证。

错误做法：

先对全部数据标准化
再做交叉验证

这样会发生数据泄漏，因为验证集的信息提前参与了标准化。

更推荐用 Pipeline：

from sklearn.pipeline import Pipeline
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LogisticRegression

pipe = Pipeline([
    ("scaler", StandardScaler()),
    ("model", LogisticRegression(max_iter=1000)),
])

然后对整个 Pipeline 做交叉验证或网格搜索。

14.3 网格不要设得太大

网格搜索会尝试所有参数组合。如果每个参数都设置很多候选值，训练次数会迅速膨胀。

例如：

5 个 K 值 × 4 种距离 × 3 种权重 × 5 折 = 300 次训练

如果模型本身很慢，这会非常耗时。

可以先用粗网格找到大概范围，再用细网格进一步搜索。

15. Grid Search 和 Random Search

网格搜索会穷举所有组合，适合参数数量较少的场景。

如果参数很多，可以考虑随机搜索（Randomized Search）。它不会尝试所有组合，而是随机抽取一部分组合来测试。

对比可以简单理解为：

方法	思路	适用场景
Grid Search	所有组合都试一遍	参数少，训练不太慢
Random Search	随机试一部分组合	参数多，训练成本高

16. 总结

交叉验证和网格搜索经常一起出现，但它们解决的是两个不同问题。

交叉验证解决的是：

模型评估是否稳定可靠？

网格搜索解决的是：

超参数应该怎么选？

二者结合起来就是：

用交叉验证评估每一组超参数，再选择平均表现最好的那一组。

在实际机器学习流程中，可以记住一个简单顺序：

划分最终测试集
    -> 在训练集上做交叉验证
    -> 用网格搜索选择超参数
    -> 用最佳参数重新训练
    -> 在最终测试集上评估

这样得到的模型选择过程，比只看一次训练/测试划分要可靠得多。

文章作者: LsWorld

文章链接: https://lsworl.github.io/2026/05/25/machine-learning-cross-validation-grid-search/

机器学习模型评估超参数调优

相关推荐

2026-06-04

正则化与过拟合：让模型不只记住训练集

前面学习线性回归、逻辑回归、决策树、集成学习和 GBDT 时，我们一直在训练模型，让模型尽可能学到数据里的规律。但机器学习里有一个很重要的问题：模型在训练集上表现很好，不代表它在新数据上也表现很好。如果模型把训练数据里的噪声、偶然样本、特殊细节都记住了，就会出现过拟合（Overfitting）。正则化（Regularization）就是用来控制模型复杂度、提升泛化能力的一类方法。 1. 什么是泛化能力机器学习真正关心的不是训练集分数，而是模型面对新数据时的表现。例如我们训练一个模型预测学生是否通过考试。训练集中有 100 个学生，模型全部预测正确，训练准确率达到 $100%$。这听起来很好，但如果换一批新学生，准确率只有 $65%$，说明模型可能只是记住了训练集，而没有学到稳定规律。这种“面对新数据仍然表现好”的能力，叫泛化能力。可以简单记住：训练集表现好：说明模型会做旧题测试集表现好：说明模型学到了规律在交叉验证那篇文章里，我们已经讲过：不能只看一次训练/测试划分，更稳妥的方式是用验证集或交叉验证评估模型。正则化则是进一步解决“模型太复...

2026-07-08

深度学习入门：从神经网络到学习路线

学习深度学习时，很多人一上来就会被一堆名词淹没：神经网络、反向传播、CNN、RNN、Transformer、Embedding、优化器、损失函数、过拟合、预训练、微调…… 这些概念当然重要，但如果一开始没有一张地图，就很容易出现一种感觉：每个词好像都看过，但不知道它们之间到底是什么关系。所以这篇文章不急着推公式，也不急着写复杂代码，而是先回答几个更基础的问题：深度学习到底在学什么？神经网络为什么可以拟合复杂关系？一个模型是如何被训练出来的？入门之后应该按什么顺序继续学？一句话概括：深度学习就是用多层神经网络从数据中自动学习特征表示，再用这些表示完成分类、回归、生成、推荐、预测等任务。 1. 深度学习是什么在传统机器学习中，我们经常需要手动设计特征。比如要判断一封邮件是不是垃圾邮件，可能会人工提取这些特征：是否包含“免费”“中奖”“限时”等关键词。邮件长度是多少。是否包含很多链接。发件人是否陌生。这些特征再送入逻辑回归、决策树、随机森林、GBDT 等模型中进行预测。深度学习的思路稍微不一样。它希望模型自己从原始数据中逐层学习特征。以图...

2026-07-05

MLP多层感知机：从原理到PyTorch实现

MLP（Multilayer Perceptron，多层感知机）是最基础也最重要的神经网络之一。如果说线性回归、逻辑回归只有一层线性变换，那么 MLP 就是在多层线性变换之间加入非线性激活函数，让模型能够拟合更复杂的关系。它的结构并不神秘：输入特征 -> 隐藏层 -> 激活函数 -> 隐藏层 -> 激活函数 -> 输出层一句话概括： MLP 用多个全连接层和非线性激活函数，把输入特征一步步变换成适合分类或回归的输出。 1. 为什么需要 MLP前面学习线性回归时，模型大致是： $$\hat{y}=wx+b$$ 对于多维输入，可以写成： $$\hat{y}=xW+b$$ 这类模型只能表达线性关系。例如下面这种问题，线性模型就比较吃力：两个特征单独看都不能决定类别，但它们组合起来以后才有意义。经典例子是 XOR： $x_1$ $x_2$ 标签 0 0 0 0 1 1 1 0 1 1 1 0 这四个点无法用一条直线完美分开。 MLP 的作用就是：先通过隐藏层把原始特征映射到新的空间，再在新空间里完成分类或回归。...

2026-05-19

K 近邻算法：KNN（K-Nearest Neighbors）

KNN（K-Nearest Neighbors，K 近邻）是一种非常直观的监督学习算法：一个样本属于什么类别，可以参考它在特征空间中最近的 $K$ 个邻居。在分类任务中，KNN 通常采用“多数投票”：最近的 $K$ 个样本里哪个类别最多，就预测为哪个类别；在回归任务中，KNN 通常取最近 $K$ 个样本标签值的平均值或加权平均值。 1. KNN 的直觉可以把 KNN 想象成“向邻居打听答案”。假设小区里新搬来一户人家，你想判断他们更像“高收入家庭”还是“普通收入家庭”。最直接的方式，是观察离他们最近的几户邻居：如果最近的 5 户里有 3 户都是高收入家庭，那么你可能会猜测这户新邻居也更接近高收入家庭。机器学习里的 KNN 做的是类似的事情：输入：一个尚未标记类别的新样本。过程：在训练集中找到距离它最近的 $K$ 个已知样本。输出：分类时进行多数投票，回归时进行平均或加权平均。 KNN 本质上没有显式的训练过程，它把训练数据保存下来，预测时再计算新样本与训练样本之间的距离。因此它也被称为惰性学习（Lazy Learning）。 2. 数学原理KNN 要解决两个核...

2026-06-02

GBDT：从残差到梯度提升树的完整理解

GBDT（Gradient Boosting Decision Tree，梯度提升决策树）是机器学习中非常常用的一类模型，尤其适合表格数据任务。它的名字看起来很长，但拆开以后并不神秘： Gradient：沿着损失函数下降的方向修正模型。 Boosting：一轮一轮训练模型，后面的模型修正前面的错误。 Decision Tree：每一轮加入的基模型通常是一棵回归树。一句话概括： GBDT 不是一次训练一棵很大的树，而是一棵树接一棵树地补前面模型的错误。 1. 为什么需要 GBDT单棵决策树有两个明显问题：树太浅，模型表达能力不够，容易欠拟合。树太深，容易把训练数据记得太死，导致过拟合。 GBDT 的思路不是训练一棵特别复杂的树，而是训练很多棵相对简单的树。每一棵树只做一件事：修正当前模型还没预测好的部分这样模型可以逐步变强，同时通过学习率、树深度、树数量等参数控制复杂度。 2. 从一个房价例子理解 GBDT假设我们要预测 3 套房子的价格：房子面积房龄真实价格 A 70 平 15 年 100 万 B 100 平 8 年 16...

2026-05-24

逻辑回归：从直线到概率的分类算法

逻辑回归（Logistic Regression）名字里有“回归”，但它最常用于分类任务，尤其是二分类问题（逻辑回归说白了就是在线性回归的基础上使用Sigmoid 函数将原先结果转为概率的形式，然后根据设定的阈值来判断是否是正类）。它要回答的问题不是“这个样本的数值是多少”，而是“这个样本属于某一类的概率有多大”。例如：一封邮件是垃圾邮件的概率是多少？一个用户会不会点击广告？一个肿瘤样本是恶性的概率是多少？一个学生是否能通过考试？逻辑回归的核心思想可以概括为一句话：先用一条直线算出一个分数，再用 Sigmoid 函数把这个分数压缩成 $0$ 到 $1$ 之间的概率。 1. 从线性回归说起在线性回归中，我们用一个线性函数预测连续值： $$z = wx + b$$ 如果是多个特征（w可以看作权重），可以写成： $$z = \mathbf{w}^{T}\mathbf{x} + b$$ 这里的 $z$ 可以理解为模型给样本打出的“原始分数”。但是分类问题不能直接使用这个分数。比如判断一封邮件是不是垃圾邮件时，我们希望模型输出的是： $$P(y&...