主要存储Datawhale团队学习_团队学习数据挖掘中与“数据挖掘机器学习”方向相关的材料.zip资源-CSDN下载

共401个文件

png：205个

md：86个

ipynb：45个

版权申诉

182 浏览量 2024-10-01 22:44:36 上传评论收藏 93.99MB ZIP 举报

Datawhale作为一个专注于数据科学领域和技术交流的组织，致力于推动团队合作和知识共享。该压缩包文件的核心内容围绕数据挖掘和机器学习这一数据科学的关键分支，这表明Datawhale团队在学习和研究方面具有明确的专业方向。文件标题和描述强调了这一材料集合的专题性，即它是由Datawhale团队在进行团队学习过程中积累和整理的，专注于数据挖掘与机器学习的资料。从文件的命名方式来看，该压缩包的内容可能包括了Datawhale团队在进行数据挖掘和机器学习学习活动时的课程资料、讲义、实例代码、数据集和研究成果。这些建议内容不仅对Datawhale团队成员自身的学习和研究具有参考价值，也可能对于整个数据科学社区具有一定的启发和借鉴意义。根据文件名称列表，我们可以推断出这份材料集合被命名为“team-learning-data-mining”，并且还包含了一个主版本“team-learning-data-mining-master”。这样的命名方式暗示了材料集合的结构可能具有层次性，其中“master”版本可能代表着该学习材料集合中的核心或基础内容，而其他版本可能是更新、补充或是专题拓展资料。在文件内容方面，我们可以预期包含以下几个方面的知识点和材料： 1. 数据挖掘基础理论：介绍数据挖掘的基本概念、发展历程以及常见的数据挖掘任务和算法等。 2. 机器学习算法：详细讲解各种机器学习算法，包括监督学习、无监督学习、半监督学习以及强化学习等，并可能涵盖常用算法的原理和应用场景。 3. 编程语言和工具：着重介绍在数据挖掘和机器学习领域常用的数据处理和算法实现工具，如Python、R、Matlab等，以及它们的库和框架，例如scikit-learn、TensorFlow、PyTorch等。 4. 实例分析和实践：包括使用真实世界数据集的案例分析，以及如何应用上述理论和工具进行数据探索、特征工程、模型建立、调优和评估等实践操作。 5. 团队合作模式：Datawhale团队在学习和研究过程中可能积累的团队合作经验和组织协作的方式方法，这对于提升团队效率和促进知识共享同样具有参考价值。 6. 最新研究成果和技术动态：除了基础知识和技能之外，该压缩包还可能包含Datawhale团队在数据挖掘和机器学习领域的最新研究发现、参加的竞赛成果、学术论文或者是对行业动态和技术趋势的分析。这份集合材料不仅对于初学者是一个良好的学习资源，对有经验的数据科学家来说，也可能是一个交流和创新的平台。通过这些材料，读者能够深入理解数据挖掘与机器学习的核心知识，并能够在实践中应用，最终为个人和团队的成长带来显著的提升。

资源推荐

资源详情

资源评论

收起资源包目录

主要存储Datawhale团队学习_团队学习数据挖掘中与“数据挖掘机器学习”方向相关的材料.zip （401个子文件）

train_data.csv 9.93MB

train.csv 2.57MB

test.csv 973KB

test_a.csv 598KB

used_car_sample_submit.csv 439KB

submision.csv 68KB

submit_example.csv 21KB

sub_a_913.csv 12KB

数据集字段说明.csv 3KB

population.csv 1KB

方差例子.gif 591KB

.gitignore 11B

model_mlp_baseline.h5 43KB

集成学习-案例分析2.ipynb 3.87MB

01 数据探索与分析.ipynb 3.62MB

Task1 地理数据分析常用工具.ipynb 2.73MB

Task1 地理数据分析常用工具-checkpoint.ipynb 2.73MB

05 特征工程.ipynb 2.34MB

05 Cluster_plus.ipynb 1.71MB

02 数据探索与分析.ipynb 1.42MB

courses.ipynb 1.17MB

06 建模预测.ipynb 883KB

Task2 数据分析.ipynb 592KB

Task2 数据分析-checkpoint.ipynb 590KB

第二章：机器学习基础.ipynb 331KB

06 Bayes_plus.ipynb 298KB

08 EM.ipynb 235KB

集成学习-案例分析1.ipynb 231KB

集成学习-案例分析-杨毅远-checkpoint.ipynb 227KB

Task1 赛题分析.ipynb 211KB

03 Logistic_regression.ipynb 181KB

Task4 模型建立.ipynb 175KB

Boosting2.ipynb 172KB

04 时间序列模型-R语言.ipynb 144KB

Task1 论文数据统计.ipynb 139KB

Task3 特征工程.ipynb 138KB

Task3 特征工程-checkpoint.ipynb 131KB

Stacking.ipynb 114KB

04 Decision_tree.ipynb 101KB

Task5 模型融合.ipynb 63KB

07 Knn.ipynb 58KB

Task5 作者信息关联.ipynb 55KB

Task3 论文代码统计.ipynb 53KB

Task2 论文作者统计.ipynb 39KB

Task2 数据清洗.ipynb 36KB

1.TC AI Earth Baseline.ipynb 36KB

baseline.ipynb 32KB

02 Linear_regression.ipynb 31KB

CH3（20210412）.ipynb 31KB

Task3 特征工程.ipynb 28KB

task5 模型融合.ipynb 24KB

Task5 模型融合-checkpoint.ipynb 24KB

09 条件随机场.ipynb 21KB

Task4 论文种类分类.ipynb 15KB

03 时间序列规则.ipynb 10KB

2.Docker提交.ipynb 9KB

Task4 模型选择.ipynb 7KB

Task6 竞赛整理.ipynb 2KB

submit.jpeg 36KB

second_step.jpeg 25KB

first_step.jpeg 19KB

3rd.jpeg 17KB

score.jpeg 15KB

2nd.jpeg 13KB

1st.jpeg 12KB

举个例子.jpg 174KB

4.jpg 94KB

metric.jpg 45KB

logo.jpg 39KB

3.jpg 36KB

下载.jpg 14KB

debug.log 147B

2.2 分块矩阵及运算.md 319KB

Task2 数据分析.md 66KB

Task4 建模调参.md 42KB

3.5 向量的内积和正交阵.md 42KB

Task2 数据分析.md 40KB

Task3 特征工程.md 40KB

Task5 模型融合.md 39KB

Task4 模型调参.md 35KB

baseline相关.md 35KB

Task4 建模调参 .md 33KB

baseline.md 30KB

04 方差分析.md 28KB

Baseline.md 28KB

人工神经网络背后的数学原理.md 27KB

Task5 模型融合.md 25KB

Task3 特征工程.md 24KB

1.TC AI Earth Baseline.md 23KB

03 常见分布与假设检验.md 22KB

机器学习算法分类知识总结.md 21KB

机器学习中的特征工程总结.md 19KB

Task1 论文数据统计.md 17KB

01 随机事件与随机变量.md 17KB

02 数理统计与描述性统计.md 17KB

10 Svm.md 16KB

Task1 赛题理解.md 16KB

三、线性模型.md 15KB

Task1 赛题理解.md 15KB

01 ml_overvirew.md 14KB

共 401 条

# 机器学习算法基础（上） ## 基本信息 - 学习周期：11天，每天平均花费时间3小时-5小时不等，根据个人学习接受能力强弱有所浮动。 - 学习形式：理论学习 + 练习 - 人群定位：有概率论、矩阵运算、求导、泰勒展开等基础数学知识。 - 先修内容：[Python编程语言](https://github.com/datawhalechina/team-learning-program/tree/master/Python-Language)，[概率统计](https://github.com/datawhalechina/team-learning-data-mining/tree/master/ProbabilityStatistics) - 难度系数：中 ## 任务安排 ### Task01：机器学习概述（1天） 理论部分 - 机器学习介绍：机器学习是什么，怎么来的，理论基础是什么，为了解决什么问题。 - 机器学习分类： - 按学习方式分：有监督、无监督、半监督 - 按任务类型分：回归、分类、聚类、降维生成模型与判别模型 - 机器学习方法三要素： - **模型** - **策略**：损失函数 - **算法**：梯度下降法、牛顿法、拟牛顿法 - 模型评估指标：R2、RMSE、accuracy、precision、recall、F1、ROC、AUC、Confusion Matrix - 复杂度度量：偏差与方差、过拟合与欠拟合、结构风险与经验风险、泛化能力、正则化 - 模型选择：正则化、交叉验证 - 采样：样本不均衡 - 特征处理：归一化、标准化、离散化、one-hot编码 - 模型调优：网格搜索寻优、随机搜索寻优 ### Task02：线性回归（2天） 理论部分 - 模型建立：线性回归原理、线性回归模型 - 学习策略：线性回归损失函数、代价函数、目标函数 - 算法求解：梯度下降法、牛顿法、拟牛顿法等 - 线性回归的评估指标 - sklearn参数详解 练习部分 - 基于线性回归的房价预测问题 - 利用`sklearn`解决回归问题 - `sklearn.linear_model.LinearRegression` ### Task03：逻辑回归（2天） 理论部分 - 逻辑回归与线性回归的联系与区别 - 模型建立：逻辑回归原理、逻辑回归模型 - 学习策略：逻辑回归损失函数、推导及优化 - 算法求解：批量梯度下降 - 正则化与模型评估指标 - 逻辑回归的优缺点 - 样本不均衡问题 - sklearn参数详解 练习部分 - 利用`sklearn`解决分类问题 - `sklearn.linear_model.LogisticRegression` - 利用梯度下降法将相同的数据分类，画图和sklearn的结果相比较 - 利用牛顿法实现结果，画图和sklearn的结果相比较，并比较牛顿法和梯度下降法迭代收敛的次数 ### Task04：决策树（2天） 理论部分 - 特征选择：信息增益（熵、联合熵、条件熵）、信息增益比、基尼系数 - 决策树生成：ID3决策树、C4.5决策树、CART决策树（CART分类树、CART回归树） - 决策树剪枝 - sklearn参数详解 练习部分 - 利用`sklearn`解决分类问题和回归预测。 - `sklearn.tree.DecisionTreeClassifier` - `sklearn.tree.DecisionTreeRegressor` ### Task05：聚类（2天） 理论部分 - 相关概念 - 无监督学习 - 聚类的定义 - 常用距离公式 - 曼哈顿距离 - 欧式距离 - 闵可夫斯基距离 - 切比雪夫距离 - 夹角余弦 - 汉明距离 - 杰卡德相似系数 - 杰卡德距离 - K-Means聚类：聚类过程和原理、算法流程、算法优化（k-means++、Mini Batch K-Means） - 层次聚类：Agglomerative Clustering过程和原理 - 密度聚类：DBSCAN过程和原理 - 谱聚类：谱聚类原理（邻接矩阵、度矩阵、拉普拉斯矩阵、RatioCut、Ncut）和过程 - 高斯混合聚类：GMM过程和原理、EM算法原理、利用EM算法估计高斯混合聚类参数 - sklearn参数详解 练习部分 - 利用`sklearn`解决聚类问题。 - `sklearn.cluster.KMeans` ### Task06：朴素贝叶斯（2天） 理论部分 - 相关概念 - 生成模型 - 判别模型 - 朴素贝叶斯基本原理 - 条件概率公式 - 乘法公式 - 全概率公式 - 贝叶斯定理 - 特征条件独立假设 - 后验概率最大化 - 拉普拉斯平滑 - 朴素贝叶斯的三种形式 - 高斯型 - 多项式型 - 伯努利型 - 极值问题情况下的每个类的分类概率 - 下溢问题如何解决 - 零概率问题如何解决 - sklearn参数详解 练习部分 - 利用`sklearn`解决聚类问题。 - `sklearn.naive_bayes.GaussianNB` --- # 机器学习算法基础（下） ## 基本信息 - 学习周期：10天，每天平均花费时间2小时-5小时不等，根据个人学习接受能力强弱有所浮动。 - 学习形式：理论学习 + 练习 - 人群定位：有概率论、矩阵运算、微积分、最优化理论等基础数学知识。 - 先修内容：[Python编程语言](https://github.com/datawhalechina/team-learning-program/tree/master/Python-Language)，[概率统计](https://github.com/datawhalechina/team-learning-data-mining/tree/master/ProbabilityStatistics) - 难度系数：中 ## 任务安排 ### Task01：线性回归（2天） 理论部分 - 模型建立：线性回归原理、线性回归模型 - 学习策略：线性回归损失函数、代价函数、目标函数 - 算法求解：梯度下降法、牛顿法、拟牛顿法等 - 线性回归的评估指标 - sklearn参数详解 练习部分 - 基于线性回归的房价预测问题 - 利用`sklearn`解决回归问题 - `sklearn.linear_model.LinearRegression` ### Task02：朴素贝叶斯（2天） 理论部分 - 相关概念 - 生成模型 - 判别模型 - 朴素贝叶斯基本原理 - 条件概率公式 - 乘法公式 - 全概率公式 - 贝叶斯定理 - 特征条件独立假设 - 后验概率最大化 - 拉普拉斯平滑 - 朴素贝叶斯的三种形式 - 高斯型 - 多项式型 - 伯努利型 - 极值问题情况下的每个类的分类概率 - 下溢问题如何解决 - 零概率问题如何解决 - sklearn参数详解 练习部分 - 利用`sklearn`解决聚类问题。 - `sklearn.naive_bayes.GaussianNB` ### Task03：EM算法（2天） 理论部分 - 相关概念 - 极大似然估计法 - 贝叶斯估计方法 - EM基本原理 - E步 - M步 - 推导、证明 - 高斯混合分布 练习部分 - 算法实现 ### Task04：条件随机场（2天） 理论部分 - 前提：相关概念 - 马尔可夫过程 - 隐马尔科夫算法 - - 条件随机场 - 转移特征和状态特征 - 矩阵形式 - 条件随机场三问题 - 计算问题 - 学习问题 - 预测问题 练习部分 - 利用高维特比算法计算给定输入序列对应的最优输出序列 ### Task05：SVM（2天） 理论部分 - 概念：最大超平面 - 数学知识：拉格朗日乘子 - SVM 硬间隔优化公式 - SVM 软间隔原理 - 核函数选修： SMO 求解SVM 练习部分 - 算法实现 --- # 贡献人员姓名 | 博客|备注 ---|---|--- 肖然||中国科学院硕士谢文昕||上海交通大学博士高立业||太原理工大学硕士赵楠||福州大学硕士杨开漠 | [Github](https://github.com/km1994)|五邑大学计算机硕士张雨||复旦大学博士马燕鹏|[CSDN](https://lsgogroup.blog.csdn.net/) 微信公众号：LSGO软件技术团队|华北电力大学张峰|[Github](https://github.com/Hirotransfer)|安徽工业大学硕士

评论收藏

内容反馈

版权申诉