参数 stratify=y 在训练集和测试集划分中的作用！！

原创于 2025-04-15 08:56:38 发布 · 283 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能 #机器学习

数据预处理同时被 3 个专栏收录

10 篇文章

订阅专栏

特征选择

8 篇文章

订阅专栏

数据划分

1 篇文章

订阅专栏

参数 stratify=y 在训练集和测试集划分中非常关键，尤其是在分类任务中。

✅ `stratify=y` 的意思：

在划分训练集和测试集时，保持各类别在训练集和测试集中的“比例一致”。

换句话说，它会让划分后的每个子集中，各类别的样本比例和原始数据中是一样的，避免某个类别在训练或测试集中比例失衡。

🧪 举个例子更直观：

假设你原始数据中共有 1000 条样本，其中：

类别 0 有 600 个
类别 1 有 300 个
类别 2 有 100 个

如果你这样写：

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)

则划分后，测试集中可能会出现“类别 2 只有几条”甚至没有的极端情况，类别分布会随机、不均衡。

✅ 而如果你这样写：

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, stratify=y)

那么划分后：

训练集和测试集中仍然保持 60%：30%：10% 的类别比例，
这样训练时不会偏向多数类，测试评估也更公平。

🧠 总结：

是否加 `stratify`	说明
❌ 不加	数据随机打乱，可能某些类别偏斜甚至丢失
✅ 加 `stratify=y`	保持标签分布一致，适合分类问题，强烈建议使用

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

小桥流水---人工智能

关注关注

3
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

label y 训练集测试集x_训练集测试集划分 train_test_split(X, y, stratify=y）

weixin_39589253的博客

12-22

1461

sklearn——train_test_split 随机划分训练集和测试集 sklearn.model_selection.train_test_split随机划分训练集和测试集 官网文档:http://scikit-learn.org/stable/modules/generated/sklearn.model_selection.train_test_split.html 一般形式: trai...

python划分训练集和测试集_python机器学习：如何划分训练集和测试集

weixin_39775029的博客

11-26

4243

今天用一个实例给大家写写在机器学习中如何进行训练集和测试集的划分。实例操练首先导入今天要使用的数据集import pandas as pddf = pd.read_csv("carprices.csv")df.head()这是一个汽车销售的数据集，里面的变量包括汽车里程、使用年限、销售价格。我们今天要做的就是用汽车里程、使用年限来建立一个预测销售价格的机器学习模型。首先，我们画图看一看数据关系im...

参与评论您还未登录，请先登录后发表或查看评论

train_test_split(X, y, test_size=0.2, stratify=y)

weixin_43858465的博客

04-18

1万+

参数 stratify=y : 按照数据集中y的比例分配给train和test，使得train和test中各类别数据的比例与原数据集的比例一致。举例：原数据集中有100条数据，A类有80条，B类有20条，且前80条全为A类。那么我们在不指定stratify参数的情况下，切分出前80条的数据就全部为A类。所以我们要设置stratify=y来使得切分出的测试集与训练集中包含的类别为...

train_test_split(X, y, stratify=y）

热门推荐

乘风破浪会有时

03-14

3万+

from sklearn.model_selecting import train_test_spilt() 参数stratify：依据标签y，按原数据y中各类比例，分配给train和test，使得train和test中各类数据的比例与原数据集一样。 A:B:C=1:2:3 split后，train和test中，都是A:B:C=1:2:3 将stratify=X就是按照X中的比例分配将

关于x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.3, random_state=0)

上山的人

12-08

2万+

x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.3, random_state=0) 找了很久都没有一个准确的答案，很多答案对y_train和 y_test的解释非常模糊。后来才找到一个合理的解释，原来： x_train:包括所有自变量，这些变量将用于训练模型，同样，我们已经指定测试_size=0.4，这意味着来自完整数据的60%的观察值将用于训练/拟合模型，其余40%将用于测试模型。 y_train-这是因变量

机器学习探索计划——数据集划分

FeatherWaves

11-24

1716

这样做的好处是，在训练过程中，模型可以接触到各个类别的样本，从而更好地学习每个类别的特征和模式，提高模型的泛化能力。：表示使用标签 y 对样本点进行颜色编码，即不同的标签值将使用不同的颜色进行展示。：是否返回生成的簇中心点，默认为 False，在本例中不返回。：随机种子，用于控制数据的随机性，本例中为 666。：表示散点的大小为 15，即每个样本点的显示大小。：生成的每个样本的特征数，本例中为 2。：每个簇中样本的标准差，本例中为 1。：生成的样本总数，本例中为 300。：生成的簇的数量，本例中为 3。

python 划分数据集为训练集和测试集的方法

10-19

在这个例子中，`X`和`y`分别是特征和目标变量，`test_size`参数定义了测试集占总数据的比例，`random_state`用于设定随机种子，确保每次划分的结果可复现。 2. 随机划分与分层抽样：默认情况下，`train_test_split...

stratify=y_train

09-12

`stratify=y_train` 是 `train_test_split` 函数的一个参数，在分割训练集和测试集时用于保持原始数据集中类别分布的比例一致。当你在处理分类问题时，这很重要，因为它确保了测试集和训练集具有相似的类标签频率，...

如何理解train_test_split中stratify=y

最新发布

11-30

`train_test_split`函数中的`stratify`参数用于保持类别分布的一致性，特别是在分类问题中，当你希望确保训练集和测试集中不同类别的比例与原始数据集相同时非常有用。当你设置`stratify`为某个分类变量（如y_train...

机器学习实战-决策树-22

gemoumou的python学习实记

02-20

338

机器学习实战-决策树-叶子分类 import numpy as np import pandas as pd import seaborn as sns import matplotlib.pyplot as plt from sklearn.preprocessing import LabelEncoder from sklearn.model_selection import train_test_split from sklearn.tree import DecisionTreeClassifi

sklearn中train_test_split里，参数stratify含义解析

weixin_45281949的博客

10-27

3万+

直接上代码： from sklearn.model_selection import train_test_split # 将'features'和'result'数据切分成训练集和测试集 X_train, X_test, y_train, y_test = train_test_split(features, result, test_size = 0.2, random_state = 0, ...

数据科学家需要了解的 5 种采样方法

数智物语

08-09

1200

文章发布于公号【数智物语】（ID：decision_engine），关注公号不错过每一篇干货。来源 |AI开发者（id：okweiwu）作者 |skura 采样问题是数据科学中的常见问题，对此，WalmartLabs 的数据科学家 Rahul Agarwal 分享了数据科学家需要了解的 5 种采样方法，AI 开发者将文章编译整理如...

sklearn的train_test_split()参数解释

ziyi_gong的博客

02-29

1361

转载自：https://blog.csdn.net/weixin_30633405/article/details/102095753 sklearn之train_test_split()函数各参数含义（非常全）在机器学习中，我们通常将原始数据按照比例分割为“测试集”和“训练集”，从 sklearn.model_selection 中调用train_test_split 函数简单用法如下： X...

sklearn train_test_split 中stratify参数解析

csdnypp的博客

08-22

1252

sklearn train_test_split 中stratify参数解析

【机器学习】sklearn.model_selection 中train_test_split 函数参数说明

qingteng2020的博客

11-02

390

在机器学习中，我们通常将原始数据按照比例分割为“测试集”和“训练集”，从 sklearn.model_selection 中调用train_test_split 函数# train_data：所要划分的样本特征集# train_target：所要划分的样本结果# test_size：样本占比，如果是整数的话就是样本的数量# random_state：是随机数的种子。# 随机数种子：其实就是该组随机数的编号，在需要重复试验的时候，保证得到一组一样的随机数。

sklearn的train_test_split()各函数参数含义解释

zjmy的博客

05-25

1万+

在机器学习中，我们通常将原始数据按照比例分割为“测试集”和“训练集”，从 sklearn.model_selection 中调用train_test_split 函数简单用法如下： X_train,X_test, y_train, y_test =sklearn.model_selection.train_test_split(train_data,train_target,test_size=0.4, random_state=0,stratify=y_train) # train_data：所要划分的

sklearn.model_selection.train_test_split

每天进步一点点2017

07-08

2万+

数据集划分：sklearn.model_selection.train_test_split(*arrays, **options) 主要参数说明： *arrays：可以是列表、numpy数组、scipy稀疏矩阵或pandas的数据框 test_size：可以为浮点、整数或None，默认为None ①若为浮点时，表示测试集占总样本的百分比 ②若为整数时，表示测试样本样本数 ③若

参数 stratify=y 在训练集和测试集划分中的作用！！

✅ stratify=y 的意思：

🧪 举个例子更直观：

🧠 总结：

✅ `stratify=y` 的意思：