自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(27)
  • 收藏
  • 关注

原创 数据分析师的未来之路:写在GPT-5发布后

AI时代数据分析师如何与AI协作共赢?本文指出AI擅长数据处理、建模等重复性工作,而人类分析师的核心价值在于业务理解、指标体系设计、跨部门沟通等战略层面。未来数据分析师应转型分析导演,专注业务洞察、结果校验和数据落地,同时掌握AI协作能力。文章建议分析师深耕行业知识、指标体系设计、多源数据整合等方向,建立高效人机协作闭环,在AI时代保持竞争力。关键在于将AI作为效率工具,而非替代威胁,实现人机优势互补。

2025-08-09 19:36:19 691

原创 K 均值算法通俗指南:从原理到评估一步搞懂

K 均值(K-Means)是一种经典的无监督学习算法,广泛用于客户细分、图像处理、异常检测等场景。本文从零梳理了 K 均值算法的核心原理、常见误区、K 值选择方法,以及如何使用“惯性”与“轮廓系数”评估聚类效果。同时,我们结合真实应用示例,揭示了 K 均值的优势与局限,帮助你在实践中更高效地使用这一强大工具。适合所有数据分析、机器学习初学者与实践者阅读。

2025-08-08 21:17:56 614

原创 一场 Dark Theme A/B 测试的复盘与提效实践

在数据驱动的产品优化中,一套成熟的 A/B 实验流程是关键保障。本文基于实际落地的「Dark Theme 转化率提升」实验,详细梳理了从业务目标制定、指标口径设计、实验配置与放量控制,到实时监控、统计分析、最终上线与复盘的 10 步闭环流程。同时,结合每一步实际操作中的关键 artifact、核心代码片段和可插拔的优化建议,打造了一份兼顾落地性、可复用性与系统性的 AB 实验 SOP。适用于产品运营、数据分析、增长等相关岗位,助你从“做实验”走向“做体系”。

2025-08-07 21:05:49 551

原创 Boosting 知识点整理:调参技巧、可解释性工具与实战案例

本文是 Boosting 系列的进阶篇,聚焦于 XGBoost 的调参技巧、可解释性分析工具与完整建模实战流程。我们通过精心设计的 GridSearchCV 网格搜索,调优核心超参数;使用混淆矩阵、AUC、F1 等指标多维度评估模型效果;并结合 plot_importance 进行特征重要性可视化。此外,文章还引入了模型持久化(Pickle)与对比评估方法,帮助读者掌握从训练到部署的完整思路。。

2025-08-06 20:37:05 1400

原创 Boosting 知识点整理:机制、对比与应用场景

本文从通俗易懂的角度出发,深入剖析了 Boosting 的核心原理、代表模型 AdaBoost 与 GBM 的差异机制,并全面对比了 XGBoost、LightGBM、CatBoost 三大主流框架的优缺点与适用场景。文章还将 Boosting 与随机森林(Bagging)进行了形象对照,帮助读者理解它们在学习方式、偏差方差控制、训练效率和过拟合倾向上的关键区别。适合机器学习初学者与进阶者阅读,为后续调参与实战打下坚实基础。

2025-08-05 21:29:30 1159

原创 随机森林知识点整理:从原理到实战

本文系统梳理了随机森林算法的核心原理与实战应用。内容涵盖集成学习与 Bagging 的基础概念、随机森林的建模流程、超参数调优、特征重要性可视化、模型的并行化优势及其与 Boosting 模型的对比。文章结合 sklearn 实践代码,帮助读者掌握从理论到应用的一整套操作方式,是机器学习初学者与进阶者不可错过的参考指南。

2025-08-04 20:53:34 1112

原创 决策树模型知识点整理:从原理到实战(含可视化与调参)

决策树是一种直观且强大的机器学习模型,通过树状结构(根节点、决策节点、叶节点)实现数据分类或回归。其核心优势包括无需特征归一化、对共线性不敏感、可解释性强,并支持分类与回归任务。关键原理基于基尼不纯度计算,通过最优特征分裂提升节点纯度。实战中可使用Scikit-learn构建模型,配合可视化工具直观展示决策路径。为避免过拟合,需通过网格搜索调整max_depth等超参数。决策树凭借可解释性和通用性,成为机器学习入门和业务场景的理想选择。

2025-08-03 18:51:18 994

原创 线性回归 VS 方差分析:其实它们比你想的更像

方差分析与线性回归本质上相通:两者都是通过分解总方差(SST)为可解释(SSR/SSA)和不可解释部分(SSE)来分析数据差异。文章通过三班成绩的案例证明,ANOVA处理分类变量时,其组间/组内平方和计算与线性回归采用哑变量编码后的平方和分解完全一致。核心区别在于ANOVA仅用于假设检验,而回归还能建模预测并解释参数。理解这种内在联系有助于统计方法的融会贯通,回归因其灵活性(可处理连续变量、多特征等)而更具普适性。

2025-08-02 16:46:41 817

原创 逻辑回归建模核心知识点梳理:原理、假设、评估指标与实战建议

本文系统介绍了逻辑回归的原理与应用。逻辑回归是一种经典的二分类模型,通过Sigmoid函数将线性回归结果映射到0-1概率区间。文章详细对比了逻辑回归与线性回归的区别,讲解了Logit函数和Sigmoid函数的数学原理,并阐述了模型的核心假设。在实践部分,提供了Python实现代码、评估指标(准确率、召回率、F1、AUC等)解读,以及阈值调整策略。特别强调了模型的可解释性,包括系数分析、SHAP值可视化等方法。最后针对类别不平衡、过拟合等常见问题给出了实用建议。

2025-08-01 18:37:31 1069

原创 线性回归建模核心知识点梳理:原理、假设、可视化与正则化详解

线性回归是数据分析与机器学习的基础建模方法,广泛应用于业务分析、经济建模等领域。本文系统介绍了简单线性回归和多元线性回归的核心概念,包括模型构建、假设检验、特征选择以及正则化方法。通过Python代码示例展示了如何实现回归模型,并强调了模型评估指标如MSE和R²的重要性。文章还探讨了回归分析的四大基本假设、共线性问题及解决方案,以及防止过拟合的正则化技术。最后指出,尽管机器学习模型不断涌现,线性回归凭借其可解释性和高效性,仍是数据分析师必须掌握的核心技能。

2025-07-31 19:37:56 985

原创 TikTok 视频审核模型:用逻辑回归找出特殊类型的视频

本文介绍了使用逻辑回归构建TikTok视频审核模型的实战过程。针对海量视频中人工审核claim类视频的需求,项目以verified作者作为代理标签,通过数据清洗、特征工程(包括文本长度、交互行为等特征)和上采样处理类别不平衡问题(verified仅占5.8%)。选用逻辑回归模型看重其可解释性,最终实现64%准确率,但召回率43%和AUC 0.568显示模型仍有优化空间。项目亮点包括全流程实现、业务导向设计和模块化代码,并提出了特征增强、模型升级(如XGBoost)和SHAP解释等后续优化方向

2025-07-30 18:01:58 1281

原创 读《精益数据分析》:一次在线教育行业私域转化指标体系实践

本文基于我在某成人在线教育企业的真实经历,梳理了微信公众号引流至企业微信再到长期用户运营的完整流程,重点拆解了转化路径中各关键节点的运营策略与数据指标体系设计。我们通过构建清晰的转化漏斗,定义核心指标如“加微率”“转化率”“响应时效”,并结合实际运营建议,实现了对私域流程的数字化管理和优化。

2025-07-29 21:56:59 640

原创 出租车费用预测项目:多元线性回归的商业应用

纽约出租车费用预测项目通过数据清洗、特征工程和多元线性回归建模,实现了87%的车费波动解释(R²=0.87)。关键步骤包括:使用IQR方法处理异常值(如将负车费归零、设置62.5美元上限),构建路线级统计特征(平均距离/时长)和时间特征(高峰时段标记)。模型显示距离和时间对车费影响最大(系数7.32和2.84),但发现高峰时段费用反降0.61美元的矛盾现象。项目创新点在于用历史路线数据解决预测时信息缺失问题,最终实现平均2.11美元的预测误差(MAE)。

2025-07-28 19:32:47 1110

原创 电商数据的 BI 项目实战:从数据建模到仪表盘可视化

本文介绍了一个基于巴西电商数据的完整BI项目实战,涵盖数据建模、DAX计算和Power BI可视化设计全过程。项目通过处理9张雪花模型结构的表格,解决了多路径关联、数据分箱等挑战,构建了三个主题仪表盘:用户行为分析、订单支付概况和商家产品表现。作者分享了关键DAX公式和建模技巧,并总结了在数据建模、业务理解等方面的收获。

2025-07-27 16:42:16 1055

原创 kaggle项目:推荐最适合的农业肥料实践

本文复盘了一个基于 LightGBM 的农业预测项目,目标是为每块农田推荐最合适的肥料组合。详细介绍了特征工程、模型构建、MAP@3 评估方法及预测实现,适合初学者学习多分类模型与推荐任务的实现路径。

2025-07-26 11:05:14 1432

原创 电商订单配送延迟预测项目:找出延时高风险订单

本文基于巴西电商平台数据,构建机器学习模型预测订单延迟送达情况。通过特征工程提取价格、运费、商品体积等特征,并构造交互项和地理路由组合等新特征。采用随机森林模型实现二分类预测,在召回率与精确率间权衡优化。模型分析显示配送时长、客户所在州和运费是影响延迟的关键因素。研究成果可帮助电商平台提前识别高风险订单,优化物流调度,从被动响应转向主动干预,具有显著业务价值。项目完整展示了从数据处理到模型落地的全流程,为电商履约优化提供了实用参考。

2025-07-25 09:58:34 1170

原创 读《精益数据分析》:教育行业标签体系实战

本文系统介绍了构建高效标签体系的完整路径,实现从业务需求到技术落地的闭环:1)梳理核心业务场景与用户画像;2)设计基础属性、学习行为、转化潜力和生命周期四大类标签框架;3)明细标签定义与计算逻辑;4)建立自动化用户分层规则。结合教育培训行业案例,展示了标签体系在提升销售转化率、客户挽回率和复购率方面的显著效果。

2025-07-24 16:08:53 1290 1

原创 kaggle分析项目:steam付费游戏数据分析

本文基于 Kaggle 的 Steam 热销游戏数据集,对 2380 款游戏进行深入分析,聚焦于付费游戏市场的结构与趋势,揭示了发行时间、开发商、价格区间等市场概况,剖析了玩家对标签、难度、时长等要素的偏好,并识别了“硬核游戏”群体及其典型特征。通过对知名开发商、简中支持、免费与付费游戏的对比,提出了面向玩家、开发者和平台运营方的多维商业建议,适合关注游戏行业、用户偏好洞察、数据分析应用的读者深入阅读。

2025-07-22 18:49:58 1008

原创 员工流失预测项目:找出“高风险员工”

本文完整复盘了一个“员工流失预测模型”的构建流程,涵盖数据清洗、特征工程、XGBoost 建模、SHAP 可解释性分析及落地方法。重点聚焦“如何选出真正有预测力的特征”以及“如何与 HR 沟通推动模型应用”,适合有一定数据分析基础的职场人士参考实践。

2025-07-21 18:00:05 1406

原创 读《精益数据分析》:SaaS 产品的指标体系

本文拆解了《精益数据分析》中的 SaaS 产品增长指标体系,结合真实案例与个人实践,梳理出从注册到留存、从试用到规模化增长的“四阶段通关模型”。适合初学者理解 SaaS 关键指标如注册转化率、CAC 回收周期、NRR 等的实际含义及使用方法。文章采用故事化方式呈现,降低理解门槛,是入门 SaaS 数据分析的实用参考。

2025-07-19 11:38:09 956

原创 读《精益数据分析》:电商行业指标的构成与实际应用

电商数据分析看似数据繁多,其实关键在于选对指标。本文结合《精益数据分析》和作者实战经验,拆解电商指标体系的四层结构,并通过完美日记、汉服品牌案例,分享指标如何指导真实决策。

2025-07-17 11:17:18 992

原创 读《精益数据分析》:用精益思维选择关键指标(OMTM)

《精益数据分析》揭示了企业常犯的“虚荣指标”误区,如盲目追求DAU、GMV等表面数据,却忽视实际业务价值。文章提出“唯一关键指标”(OMTM)选择框架:通过可行动性、可比较性、可归因性三步验证法,筛选真正驱动增长的指标。不同行业案例显示,电商应关注7日首单转化率而非注册数,SaaS工具应追踪试用后付费率而非企业数。文章强调OMTM与北极星指标的区别,前者是阶段性战术指标,后者是长期战略目标。最后提供自检表和雷达图工具,帮助团队从“数据好看”转向“数据有用”,实现业务实质性增长。

2025-07-16 00:31:38 1188

原创 Kaggle项目:基于 XGBoost 的卡路里消耗预测建模实践

本文介绍了一个基于XGBoost的卡路里消耗预测模型构建实践。项目采用Kaggle数据集,通过特征工程(包括分箱处理、特征构造、RFE特征选择等)和两阶段超参数调优策略(先网格搜索初筛再精调关键参数),构建了高性能预测模型。模型利用XGBoost回归器,结合CUDA加速和early stopping优化训练效率,最终在验证集上获得稳定表现。文章详细阐述了数据处理流程、特征工程方法以及分阶段调参策略,为类似回归问题提供了可参考的解决方案框架。

2025-07-14 10:22:47 1110

原创 kaggle项目:基于 LightGBM 的播客收听时长预测建模实践

本项目通过LightGBM回归模型预测播客收听时长,完整呈现了数据处理与建模流程。针对750,000条训练数据,重点处理了Episode_Length_minutes和Guest_Popularity_percentage字段的缺失值,并修正了广告数量的异常值。特征工程阶段构造了嘉宾热度与时长乘积等组合特征。使用RMSE评估指标,最终模型在验证集上表现良好。特征重要性分析显示节目类型和时长是关键影响因素。项目存在的改进空间。

2025-07-09 23:22:48 947

原创 对比T检验、Z检验、卡方检验与方差分析

本文对比了四种常用统计检验方法的特点与应用。T检验适用于小样本均值比较,Z检验用于大样本或已知总体方差的情况,二者均需数据满足正态性。卡方检验分析分类变量关联性,要求样本量足够大且期望频数达标。方差分析比较多组均值差异,需满足正态性、方差齐性和独立性。关键区别在于:前两者处理定量数据,卡方检验处理分类数据,方差分析扩展至多组比较。实际应用中需根据数据类型、样本量和假设条件选择合适的检验方法,必要时考虑非参数替代方案。

2025-07-08 18:34:48 662

原创 Kaggle项目:基于 Random Forest 的降雨预测

本项目基于Kaggle气象数据构建降雨预测二分类模型。通过特征工程构造温差、湿温指数等新特征,并对风向分箱处理。预处理阶段处理缺失值与异常值,标准化连续变量。模型评估显示云量、湿度等关键特征贡献显著。该项目完整覆盖从数据处理到模型解释的全流程,为数据分析转型提供了实践基础。

2025-07-07 00:13:05 752

原创 Kaggle比赛项目:性格预测

摘要:该项目通过Kaggle比赛数据(18,524条样本)预测性格倾向(内向/外向)。采用结构化建模流程:缺失值填充(均值/众数)、EDA分析类别不平衡(1:3)、构建基线模型(逻辑回归/LightGBM/XGBoost)并优化F1-score。通过特征工程构造社交活跃度指标,使用SHAP分析关键特征(如独处时间、社交疲惫感),并融合模型(软投票+阈值优化至0.40)。最终公榜得分0.974089(排名546/841)。

2025-07-05 15:48:19 1572 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除