
竞赛学习笔记
数据竞赛修炼路上学习的一些经验和知识点的总结
翻滚的小@强
毕业于某985高校,计算机技术专业,研究方向是数据挖掘和时空序列预测,在学校学习过一些机器学习和深度学习的皮毛,入门过推荐系统,计算机视觉以及NLP和大数据等领域,目前在做大数据分析和挖掘相关的工作, 对人工智能,大数据等各种前沿计算机技术以及其他领域的新事物都特别感兴趣,一直奔跑在学习的路上, 欢迎伙伴们一块学习, 一起交流呀......
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Faiss(Facebook开源的高效相似搜索库)学习小记
1. 写在前面faiss是在设计推荐系统入门竞赛之新闻推荐中学习到的一个非常好用的工具包,这个是Facebook AI团队开源的针对聚类和相似性搜索库,为稠密向量提供高效相似度搜索和聚类,支持十亿级别向量的搜索,是目前最为成熟的近似近邻搜索库。它包含多种搜索任意大小向量集(备注:向量集大小由RAM内存决定)的算法,以及用于算法评估和参数调整的支持代码。Faiss用C++编写,并提供与Numpy完美衔接的Python接口。除此以外,对一些核心算法提供了GPU实现。当时的应用场景就是面对20万用户点击过的所原创 2020-11-16 13:27:20 · 3951 阅读 · 1 评论 -
安利一个缺失值填充的包fancyimpute
1. 写在前面这两天看比赛, 发现了一个比较不错的包可以用来缺失值的填充, 那就是fancyimpute, 比赛中数据的存在缺失貌似已经成了家常便饭了, 而找到正确的方式去填充这些缺失值就显得尤为重要, 关于缺失值处理的方式,之前整理到的, 有几种情况:不处理(这是针对xgboost等树模型), 有些模型有处理缺失的机制,所以可以不处理,如果缺失的太多,可以考虑删除该列, 另外还有插值补全(均值,中位数,众数,建模预测,多重插补等), 还可以分箱处理,缺失值一个箱。# 删除重复值data.drop_d原创 2020-07-25 15:21:00 · 2926 阅读 · 1 评论 -
SHAP: 在我眼里,没有黑箱
1. 写在前面很多高级的机器学习模型(xgboost, lgb, cat)和神经网络模型, 它们相对于普通线性模型在进行预测时往往有更好的精度,但是同时也失去了线性模型的可解释性, 所以这些模型也往往看作是黑箱模型, 在2017年,Lundberg和Lee的论文提出了SHAP值这一广泛适用的方法用来解释各种模型(分类以及回归), 使得前面的黑箱模型变得可解释了,这篇文章主要整理一下SHAP的使用, 这个在特征选择的时候特别好用。这次整理, 主要是在xgboost和lgb等树模型上的使用方式, 并且用一个原创 2020-07-17 19:47:06 · 11411 阅读 · 19 评论 -
数据竞赛修炼笔记之工业化工生产预测
这段时间,会有系列真实的竞赛项目陪伴,我会通过修炼笔记的方式记录我这段时间学习数据竞赛的经历,希望每个竞赛都能给我们带来收获和成长! 这个故事会很长,但我会坚持往下走,你看,天上太阳正晴,如果可以,我们一起吧…1. 写在前面终于下定决心涉足这个纠结很久的话题了,作为一个懵懂无知的竞赛小白,其实是非常渴望参加一场数据比赛的,因为数据比赛对于AIer来说真的很重要,不知道你是否遇到过这样的一些疑惑...原创 2020-03-14 21:07:16 · 4698 阅读 · 3 评论 -
时间序列数据挖掘模板: 墨尔本十年气温变化预测
1. 写在前面时间序列数据广泛存在于量化交易, 回归预测等机器学习应用, 是最常见的数据类型。所以这里通过墨尔本十年气温变化预测的任务来整理一个时间序列数据挖掘的模板,方便以后查阅方便。这个模板可以用在大部分的时间序列预测任务,从股票价格波动,到四季气温变化, 从大桥沉降预测,到城市用电预警等。要进行下面工作的整理:探索性数据挖掘和数据可视化: 绘制折线图、热力图、箱型图、小提琴图、滞后图...原创 2020-03-12 23:00:30 · 10108 阅读 · 2 评论 -
数据竞赛修炼笔记之快手用户活跃度的预测
这段时间,会有系列真实的竞赛项目陪伴,我会通过修炼笔记的方式记录我这段时间学习数据竞赛的经历,希望每个竞赛都能给我们带来收获和成长! 这个故事会很长,但我会坚持往下走,如果可以,我们一起吧…1. 写在前面终于下定决心涉足这个纠结很久的话题了,作为一个懵懂无知的竞赛小白,其实是非常渴望参加一场数据比赛的,因为数据比赛对于AIer来说真的很重要,不知道你是否遇到过这样的一些疑惑,就是涉足一个新领域...原创 2020-03-07 14:29:41 · 7571 阅读 · 12 评论 -
Kaggle入门赛 - 房价预测
赛题链接: 房价预测这是Kaggle的入门赛, 通过这个比赛,可以学会一些处理数据的基本流程和方法,包括如何理解数据, 特征相关性分析,缺失值处理,特征组合等,然后建立模型进行预测等,学会用机器学习方法处理问题的基本流程。思路分享(有以下问题要解决):数据明确 -> 查看数据集和数据的描述,理解意思 -> 解决问题的思路数据明确之后,要想这是个什么问题? (回归做预测)...原创 2019-11-18 11:19:47 · 1228 阅读 · 0 评论 -
打AI比赛的模板整理
机器学习和深度学习一旦入坑,学习知识最快的方式就是多做项目,找一些比赛打,像Kaggle, 阿里的天池等,很多很多的比赛,从实用的角度,然后再哪里不会补哪里。一开始的重点不是要求自己开始做,然后能达到多少分的排名,而是和排名靠前的大佬学习处理数据的技巧和方法,我觉得这才是关键,通过Kaggle的入门-房价预测的比赛,我学习到了很多知识,这里先整理一个宏观的比赛模板。这个模板可以适用于数据分析比赛或...原创 2019-11-18 10:13:12 · 1704 阅读 · 0 评论 -
用sklearn做特征工程
sklearn-feature-engineering前言最近参加AI比赛,发现做特征工程是其中很重要的一部分,而sklearn是做特征工程(做模型调算法)最常用也是最好用的工具没有之一,因此将学习到的知识分享处理。参考的下面这位老师的博客: https://blog.csdn.net/fuqiuai/article/details/794960051. 什么是特征工程?2. 数据预处理...转载 2019-11-08 11:34:28 · 686 阅读 · 0 评论