
特征工程入门与实践
zyuPp
你今日练习了吗?
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
【特征工程入门与实践】【特征选择】
特征选择小总结选择的评价标准基于统计的特征选择皮尔逊相关系数Pearson假设检验基于模型的特征选择针对基于树的模型线性模型小提示 小总结 这章节介绍了特征选择的指标和方法,方法有很多,这里没有介绍到全部知识,不过可以引发到我们对特征选择的思考,主要围绕的思想就是如何找到最好的特征子集和模型参数使得预测性能达到更好 选择的评价标准 传统指标: 分类的指标,如准确率、真阳性率、假阳性率等 回归的指标:RMSE、平均绝对误差、R2R^2R2 元指标 模型拟合/训练所需要的时间 拟合后的模型预测新实例的时原创 2020-06-05 11:31:14 · 555 阅读 · 0 评论 -
【特征工程入门与实践】【特征构建】
特征构建填充分类特征定性填充定量填充编码分类变量扩展数值特征文本的特征构建 填充分类特征 定性填充 对于定性的列,我们可以计算最常见的类别用于填充 X['city'].fillna(X['city'].value_counts().index[0]) 当然,我们不可能对于每一个列都这样写,我们需要建立机器学习流水线,构建自定义的转换器,一次性把数据转换好 使用TransformerMixin作为基类,则自动实现fit_transform()函数 from sklearn.base import T原创 2020-05-25 11:33:10 · 827 阅读 · 0 评论 -
【特征工程与实践】【特征增强:清洗数据】
特征增强:清洗数据识别数据中的缺失值开始查看缺失值处理缺失值的方法删除有害的行填充缺失值流水线上的填充缺失值(pipeline和Imputer)标准化和归一化z-score标准化min-max标准化行归一化受尺度影响的一些算法 识别数据中的缺失值 本章只处理定量特征,因为目前没有足够工具处理缺失的定性特征,特征构建那一章会解决这个问题。 当获得一份数据集时,首先进行探索性分析,之后本书就对皮马印第安人糖尿病预测数据集进行EDA,画了一些直方图分析属性与目标值的关系,同时绘制相关矩阵,查看相关性系数。 开始查原创 2020-05-21 15:38:25 · 593 阅读 · 0 评论 -
【特征工程入门与实践】【特征理解】
特征理解 结构化与非结构化数据 定量与定性数据 数据的4个等级 EDA与数据可视化 描述性统计 一、结构化与非结构化 结构化数据 一般以表格形式组织,行是观察值,列是特征 非结构化数据 不遵循标准组织结构的数据,通常是一团的,或只有一列。例如服务器日志和推文 二、定量数据与定性数据 定量数据本质上是数值,应该是衡量某样东西的数量。 定性数据本质上是类别,应该是描述某样东西的性质。 如:今天的降雨量是定量,今天的天气是晴天还是阴天是定性。 数据可能同时是定量和定性,如餐厅评分,虽然是数值,原创 2020-05-19 15:50:25 · 748 阅读 · 0 评论