
大数据
frostjsy
越努力,越幸运
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
sql实现auc计算
model_v0_predict的数据形式为 id(唯一标识一条记录)|label(标签)|prediction(预测分数)|ds(时间),3条数据如下。其中sample_id为CONCAT_WS('_', req_id, utdid, item_id, price, ts, weight)以某一次请求为一个group,计算每个group的auc;以group的均值作为gauc;原创 2022-10-28 22:18:37 · 1019 阅读 · 0 评论 -
sql分段统计
例如统计分钟维度下的占比。FLOOR #向下取整。ROUND #四舍五入。CEIL #向上取整。原创 2022-10-28 22:17:08 · 620 阅读 · 0 评论 -
mysql报错pymysql.err.InterfacError插入问题解决
一、pymysql.err.InterfaceError: (0, '')错误导致原因 目前我这边导致InterfaceError: (0, '')的原因是没有连接上数据库就在进行数据插入操作;在此之前会报ERROR (2013, 'Lost connection to MySQL server during query')错误,即mysql连接丢失。二、解决方法2.1、python连接语句conn= pymysql.connect(host='10.24.21.192', po...原创 2020-06-07 18:06:18 · 1270 阅读 · 0 评论 -
MySQL以及navicat配置
MySQL下载网址:https://downloads.mysql.com/archives/community/MAC电脑MySQL及navicat配置网址:https://blog.csdn.net/jor_ivy/article/details/81323199以上链接安装步骤会报错:2059 - authentication plugin 'caching_sha2_p...原创 2019-08-26 14:35:38 · 2499 阅读 · 0 评论 -
pyspark报错Java gateway process exited before sending the driver its port number
pyspark报错Java gateway process exited before sending the driver its port number解决方案:https://www.cnblogs.com/pythoner6833/p/10241034.html原创 2020-10-19 18:08:19 · 355 阅读 · 0 评论 -
Horovod分布式相关策略
https://github.com/horovod/horovod(Horovod github代码)https://zhuanlan.zhihu.com/p/45439173 (Horovod 通信策略)https://zhuanlan.zhihu.com/p/40578792 (Horovod-基于TensorFlow分布式深度学习框架)原创 2020-10-24 00:35:34 · 190 阅读 · 0 评论 -
spark之常见的机器学习算法
1、分类、回归、聚类分类回归是一种重要的机器学习和数据挖掘技术。分类的目的是根据数据集的特点构造一个分类函数或分类模型(也常常称作分类器),该模型能把未知类别的样本映射到给定类别中的一种技术。即: 向量X=[x1,x2...xn]但标签C=[c1,c2...,ck]的映射F(W,X)=C聚类是一种无监督学习的方法,将无标签数据聚类到不同的簇中spark.ml支持的分类与回归算法2、常见算法实例介绍2.1、逻辑回归:2.1.1、逻辑斯蒂分布2.1.2、二项LR:原创 2020-10-05 11:26:30 · 3294 阅读 · 0 评论 -
spark之特征提取
1、特征处理分类特征抽取:从原始数据中抽取特征特征转换:特征的维度、特征的转化、特征的修改特征选取:从大规模特征集中选取一个子集2、特征提取2.1、TF-IDF词频-逆向文件频率;词频TF(t,d)是词语t在文档d中出现的次数。文件频率DF(t,D)是包含词语的文档的个数。tf=|t|/|d|tf-idf=tf*idf公式中使用log函数,当词出现在所有文档中时,它的IDF值变为0。加1是为了避免分母为0的情况。Spark.mllib 中实现词频率统计使用特征has.原创 2020-10-03 23:56:27 · 1166 阅读 · 0 评论 -
spark之MLLIB
一、MLlib简介MLlib是Spark的机器学习(Machine Learning)库,旨在简化机器学习的工程实践工作,并方便扩展到更大规模。MLlib由一些通用的学习算法和工具组成,包括分类、回归、聚类、协同过滤、降维等,同时还包括底层的优化原语和高层的管道API。具体来说,其主要包括以下几方面的内容:算法工具:常用的学习算法,如分类、回归、聚类和协同过滤; 特征化工具:特征提取、转化、降维,和选择工具; 管道(Pipeline):用于构建、评估和调整机器学习管道的工具; 持久性:保存和加原创 2020-10-03 21:13:04 · 3036 阅读 · 0 评论 -
spark之DataFrame
1、DataFrame的优点DataFrame的推出,让Spark具备了处理大规模结构化数据的能力,不仅比原有的RDD转化方式更加简单易用,而且获得了更高的计算性能。Spark能够轻松实现从MySQL到DataFrame的转化,并且支持SQL查询。...原创 2020-10-02 21:41:32 · 598 阅读 · 0 评论 -
spark之mysql驱动配置
1、直接启动时加载配置可以参考http://dblab.xmu.edu.cn/blog/1724-2/;启动pyspark时,必须指定mysql连接驱动jar包。cd /usr/local/spark./bin/pyspark \--jars /usr/local/spark/jars/mysql-connector-java-5.1.40/mysql-connector-java-5.1.40-bin.jar \--driver-class-path /usr/local/spark/ja原创 2020-10-02 20:20:09 · 2448 阅读 · 1 评论 -
spark之键值对RDD
1、键值对RDD生成方式1.1、通过map函数来生成通过map函数将x映射为(x,1)#在本地进行操作textFile = sc.textFile("file:///home/jsy/spark_test/test.txt")wordCount = textFile.flatMap(lambda line: line.split(" ")).map(lambda x:(x,1))2、常用键值对转换方式常用的键值对转换操作包括reduceByKey()、groupByKey()、so原创 2020-10-01 22:37:05 · 988 阅读 · 0 评论 -
spark之RDD
1、生成RDD从文件读数据2、RDD的3种运算原创 2020-09-29 10:30:10 · 694 阅读 · 0 评论 -
spark学习
1、python为数据而生相关包numpy scipy matplotlib2、spark介绍内容3、mapreduce的局限性4、spark优势spark5、RDDhttps://www.bilibili.com/video/BV1fE411f7uH?p=2(spark视频)原创 2020-09-29 01:00:51 · 200 阅读 · 0 评论 -
spark入门
1、http://dblab.xmu.edu.cn/blog/1689-2/ spark安装和使用from pyspark import SparkContextsc = SparkContext( 'local', 'test')logFile = "/user/tmp/offline/jsy/test/1.txt"logData = sc.textFile(logFile, 2).cache()numAs = logData.filter(lambda line: 'a' in ...原创 2020-09-01 16:13:24 · 187 阅读 · 0 评论