DM_freshman-CSDN博客

原创 spark学习笔记

搭建spark开发环境安装Java配置环境 + 下载spark 运行pyspark 通过spark—submit提交spark任务到集群运行 Python安装findspark 和 pyspark库 spark是大数据计算框架MapReduce的继任者，不同于MapReduce将计算中间结果放入磁盘中，spark采用的是将中间结果放入内存中，同时采用并行计算DAG图的优化，减少了不同任务之间的依赖 4、DAG：是Directed Acyclic Graph（有向无环图）的简称，反映

2021-09-12 11:10:13 214

原创集成学习算法（Random Forest、adBoost、GBDT、XgBoost、lightboost）

集成学习算法（Random Forest、adBoost、GBDT、XgBoost、lightboost）最近快速过了一遍集成学习的相关算法，在这里做一个小总结。集成学习： Bagging：并行式集成学习，注重降低方差；如Random Forest Boost：串行式集成学习，注重降低偏差；adboost、GBDT、XgBoost、lightboost Random Forest算法：属于Bagging集成学习，在上一篇文章中有介绍；下面介绍的都是Boost集成学习。 adboost算法：

2021-04-12 19:28:05 1361

原创 HIve SQL学习笔记

HIve SQL学习笔记最近面试的时候一直听到面试官说Hive SQL，今天刷了一点资料稍微系统的学习一下，在这里做一个小结。首先介绍一下Hive SQL： Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供完整的SQL查询功能，可以将SQL语句转换为MapReduce任务运行。它使得针对Hadoop进行SQL查询成为可能。简单来说，Hive SQL与我们之前见到的MySQL等关系型数据库的语法是差不多的。 Hive SQL 与 SQL的区别： 1. HQ

2021-04-08 22:16:02 314

原创随机森林理解及Python调包实现

随机森林理解及Python调包实现随机森林算法原理 = 决策树 + bagging原理 + 随机随机森林和决策树一样既可以做分类又可以做回归（更多用来做分类问题）随机森林是使用集成学习的思想将多颗决策树集成一种学习器的算法，中间利用到bagging的投票思想，少数服从多数进行集成学习随机森林的随机思想体现在两方面：第一是在随机的抽取样本，假如有N个样本记录，那么对于每一颗决策树（随机森林的子树数量是由使用者自己决定的，子树数量越高效果越好，一般我们选择在处理器可以承受的情况下选择较大的子树）都进行

2021-04-03 21:20:53 1830

原创 Apriori算法|关联规则

Apriori算法|关联规则（AssociationRules）最近的课程作业是做Apriori算法实例，上网查了一些资料，在这里做一个小结。 1.个人对关联规则的认识：关联规则是一种无监督的机器学习方法，用于知识发现，而非预测。关联规则一般用在购物篮案例、推荐电影等事务性相关场景中 2.Apriori算法的实现 Python实现：使用mlxtend库实现（mlxtend库的网址：https://rasbt.github.io/mlxtend/） from mlxtend.frequent_p

2021-03-27 21:39:44 671

原创爬取美国各州实时疫情数据

爬取美国各州实时疫情数据首先选择爬虫网站数据来源，这里选取的是腾讯疫情数据实时更新网站https://news.qq.com/zt2020/page/feiyan.htm 选取相关数据接口：https://view.inews.qq.com/g2/getOnsInfo?name=disease_foreign #获取数据 import requests import json import pandas as pd #爬取数据的网址（腾讯新闻网实时更新） America_url = 'https://

2021-03-27 09:48:04 2301 2

原创朴素贝叶斯

朴素贝叶斯常用于文本分类的朴素贝叶斯算法基于贝叶斯假设而来。和逻辑回归是概率判别式模型不同，朴素贝叶斯算法是概率生成式模型，不需要直接计算生成的概率值。朴素贝叶斯算法对小规模数据处理效果较好，但是若样本属性有关联时分类效果不好。其最优化目标是是使得后验概率最大，通过贝叶斯假设使得联合概率可以分开乘积（否则则要通过极大似然方法估计参数，再转化成最优化的极值问题求解），这也就大大简化了计算，算法因此也十分简洁。代码实现如下： import numpy as np #载入文本 def loadDataSe

2021-03-22 20:58:53 220

原创逻辑回归（logistics regression）

逻辑回归（logistics regression）逻辑回归 = 线性回归 + sigmoid函数 sigmoid函数表达的是将样本分为1类的概率（二分类问题）通过sigmoid函数表示p(y|x)的概率，通过极大似然估计将参数估计变成最优化求解问题，进而采用梯度下降法或者拟牛顿法解出最优解。代码实现如下： logistic regression底层代码实现 # logistic回归梯度上升优化算法底层代码实现 import numpy as np #读取数据 def loadDataSet(f

2021-03-22 20:36:40 538 2

原创数据挖掘：数据处理

数据挖掘：数据处理最近学校开了数据建模课程，根据学习内容做个小结。数据清洗包括以下几个步骤： 1、熟悉数据，核对数据口径（必要时查阅相关资料以加深对数据的理解）。 2、探索性数据分析EDA 目的：熟悉数据集，了解数据集，对数据集进行验证来确定所获得数据集可以用于接下来的机器学习或者深度学习使用。了解变量间的相互关系以及变量与预测值之间的存在关系。引导数据科学从业者进行数据处理以及特征工程的步骤,使数据集的结构和特征集让接下来的预测问题更加可靠。 2.1查看数据的类型（分类型数据or数值型数据） 2.

2021-03-20 12:34:41 711

原创 KNN算法代码实例

KNN算法代码实例 KNN算法代码实例（有问题的地方请大家多多指教） #封装knn函数 import numpy as np def KNN(inX,dataset,lables,k): dist = (((inX - dataset) ** 2).sum(1)) ** 0.5 sort_dist = np.argsort(dist).tolist() # 按距离升序，获取对应索引 classcount = {} for i in range(k): for index, it

2021-02-16 18:49:21 656 1

weixin_47858093的博客