
spark
文章平均质量分 72
Macanv
脚踏实地,每天进步一点点
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Windows下PySpark 环境搭建篇以及词频统计(1)
Windows下pyspark环境搭建以及使用结巴分词进行词频统计1. 环境搭建环境搭建的教程已经有很多人写了,我就不多写了, 大家自行百度(推荐在Windows下面安装2.3.1版本的pyspark也是这个版本,避免后面踩坑https://github.com/apache/spark/pull/23055)在这里下载spark的软件包放到任意目录,解压后路径避免空格,然后将bin路径加...原创 2019-02-18 11:34:45 · 904 阅读 · 0 评论 -
Spark中得groupBy,reduceByKey和 combineByKey区别于各自用法 (5)
Spark中得groupByKey,reduceByKey和 combineByKey区别于各自用法这篇博文记录Spark中经常使用到的shuffle操作groupByKey,reduceByKey和 combineByKey,其中前面两个分别还有不带Key,可以在RDD的trans过程中自定义key的用法,在前面的计算TF-IDF文章中有使用到。下面就一一的来介绍这三个API,使用词频统计的...原创 2019-02-21 21:48:12 · 5056 阅读 · 0 评论 -
PySpark TopK 问题(分组TopK)(4)
PySpark TopK 问题(分组TopK)记录几种利用PySpark计算TopK的方法,准备使用两个例子,其中第一个例子是计算不同院系,不同班,不同学科的成绩前K名的分数。第二个例子以文本数据为例,计算在不同文本类别下出现TopK 频率的单词。1.准备数据1,111,68,69,90,1班,经济系2,112,73,80,96,1班,经济系3,113,90,74,75,1班,经济系4...原创 2019-02-21 15:29:10 · 1645 阅读 · 0 评论 -
在分布式环境Spark中关闭jieba延时加载等优化方法 (3)
在分布式环境中关闭jieba延时加载的方法这篇博客是记录在使用spark+jieba的过程中,每个task调动jieba分词的时候需要进行延时加载或者从缓存中读取模型文件从而浪费时间问题:Building prefix dict from the default dictionary ...Loading model from cache C:\Users\C\AppData\Local\T...原创 2019-02-21 14:43:02 · 2405 阅读 · 4 评论 -
Spark 使用JDBC进行select查询
spark 可以 通过jdbc直接将数据库中的一整张表直接读取出来作为一个DataFram,这样会出现几个问题: - 1. 表格太大,导致出现OOM; - 2. 读出来很多不需要的行,在join的时候,造成性能的浪费 这里记录通过JDBC通过select where语句只查询表格中的指定行java 代码如下:package utils;import Main.NewWor...原创 2018-08-24 14:34:07 · 9237 阅读 · 2 评论 -
Spark 学习笔记 TF-IDF
spark 计算TF-IDF的多种方法TF-IDF相关概念请移步百度百科下面记录自己在做关键词抽取的时候,计算TF-IDF时候的经历,使用spark不多。 下面的始终方法我都试过,最后选了第四个方案,在500W篇新闻中,计算2-gram的IDF,用时5个小时,虽然时间用的很长,但是最终是可以跑起来。1. 基于mllib.HashingTF这个方法几乎可以直接copy 官网中的...原创 2018-08-24 14:19:28 · 1653 阅读 · 0 评论 -
[3].Spark 学习笔记 使用java ---explode
这篇文章将记录如何使用spark DataFrame将列数据展开,这里使用的是explode方法将对List数据和Map分别给出展开的例子原创 2017-10-20 16:47:12 · 10378 阅读 · 1 评论 -
[2].Spark 学习笔记 使用java ---PageRank
PageRank原创 2017-09-26 16:17:10 · 993 阅读 · 0 评论 -
[1].Spark 学习笔记 使用java ---word count
准备写一个系列的笔记,记录自己学习spark的过程,因为公司使用的是java语言,所以本系列的博客都是以java语言实现的,欢迎拍砖。有更好的实现方法,请告诉我,一起学习。原创 2017-09-25 14:23:50 · 899 阅读 · 0 评论 -
PySpark TF-IDF计算(2)
使用PySpark进行TF-IDF计算这篇博文将记录使用PySpark进行TF-IDF统计的过程,将提供多种计算方法。1. 准备数据为了简单,同时为了验证自己的程序有木有错误,我使用如下的测试数据:1 我来到北京清华大学2 他来到了网易杭研大厦3 我来到北京清华大学4 他来到了网易杭研大厦5 我来到北京清华大学,我来到北京清华大学一共五行,每行代表一篇文章,每行中得文章id和正...原创 2019-02-19 20:26:40 · 5451 阅读 · 8 评论