
机器学习
文章平均质量分 96
阿水实证通
分享前沿实证分析方法,用Stata,R和Python做高质量实证研究,公众号【阿水实证通】
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Stata如何做机器学习?——SHAP解释框架下的足球运动员价值驱动因素识别:基于H2O集成学习模型
使用H2O机器学习框架分析1000多名足球运动员的市场价值驱动因素。通过合并GitHub和Kaggle数据,构建了包含21个变量的数据集,重点关注球员表现指标。研究采用对数转换处理数据偏态,并运用随机森林和梯度提升机进行建模(80%训练集,20%测试集)。结果显示,模型能有效预测球员市场价值(Deviance=0.654),特别揭示了法国前锋姆巴佩作为异常高价值案例。研究创新性地结合SHAP解释框架,识别出关键价值驱动因素,为足球产业转原创 2025-07-03 17:05:38 · 975 阅读 · 0 评论 -
合成控制双重差分(SDID)可视化实战:用synthdid绘制顶刊因果推断图表
合成双重差分法(SDID)是一种估计面板数据中处理效应的新方法。本文介绍了SDID的R语言实现包,通过加州99号提案对香烟消费的影响案例演示其应用。该包可计算处理效应点估计值、构建置信区间,并提供丰富的数据可视化功能,包括平行趋势图、控制单元贡献图和预处理趋势检验。文章对比了SDID与传统双重差分法和合成控制法的估计结果原创 2025-06-02 21:05:51 · 1117 阅读 · 0 评论 -
Stata19+H2O集成决策树开挂!GBM与RF调参预测分类回归!SHAP解释性分析亮眼!
H2O机器学习工具包为Stata用户提供了集成决策树(GBM和随机森林)的强大功能,突破传统统计模型的局限。通过直观命令即可实现数据准备、模型训练(支持超参数调优与交叉验证)、性能评估(如ROC曲线、SHAP值解释)及预测分析。以电信客户流失数据集为例,演示了从数据拆分到模型比较的全流程,展现了机器学习在复杂非线性关系中的优势,同时保持结果可解释性。该集成方案让用户在熟悉的Stata环境中即可完成高性能预测建模,无需切换平台。原创 2025-05-25 13:41:49 · 1074 阅读 · 0 评论