spark scala 统计单词的个数

最新推荐文章于 2022-06-16 19:11:24 发布

原创最新推荐文章于 2022-06-16 19:11:24 发布 · 1.8k 阅读

·

1

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

大数据技术专栏收录该内容

4 篇文章

订阅专栏

spark scala 统计单词的个数

import org.apache.spark.rdd.RDD
import org.apache.spark.{SparkConf, SparkContext}

object Hello {
  def main(args: Array[String]): Unit = {
    System.setProperty("hadoop.home.dir", "E:\\bigdata\\hadoop-2.7.2\\hadoop-2.7.2")
    //创建SparkConf()并设置App名称
    val conf = new SparkConf().setAppName("WC").setMaster("local")
    //创建SparkContext，该对象是提交spark App的入口
    val sc = new SparkContext(conf)
    //使用sc创建RDD并执行相应的transformation和action
    val rdd: RDD[(String, Int)] = sc.textFile("E:\\bigdata\\scala\\project\\Hello\\src\\main\\scala\\com\\atguigu\\input.txt").flatMap(_.split(" ")).map((_, 1)).reduceByKey(_+_, 1).sortBy(_._2, false)
    rdd.collect().foreach(println)
    //停止sc，结束该任务
    sc.stop()
  }

}

博客等级

码龄12年

581
原创

168
点赞

422
收藏

47
粉丝

关注

私信

热门文章

分类专栏

联邦学习 1篇
git 5篇
LeetCode 139篇
go 14篇
分布式 3篇
大数据技术 4篇
架构设计 5篇
源码 5篇
计算机基础 5篇
云原生 14篇
开发工具 11篇
ELK 11篇
Java 40篇
机器学习 65篇
算法 75篇
设计模式 5篇
消息队列 6篇
JVM 13篇
多线程并发 3篇
Spring 31篇
数据库 11篇

展开全部收起

上一篇：: cglib 实现Bean对象copy

下一篇：: 服务器之间ssh免密钥登录

最新评论

机器学习融合模型stacking自己理解
CSDN-Ada助手: 哇, 你的文章质量真不错，值得学习！不过这么高质量的文章, 还值得进一步提升, 以下的改进点你可以参考下: (1)增加条理清晰的目录；(2)提升标题与正文的相关性；(3)增加除了各种控件外，文章正文的字数。
最长上升子序列与最长上升递增序列解题思路
CSDN-Ada助手: 哇, 你的文章质量真不错，值得学习！不过这么高质量的文章, 还值得进一步提升, 以下的改进点你可以参考下: (1)增加除了各种控件外，文章正文的字数；(2)使用更多的站内链接；(3)提升标题与正文的相关性。
mysql总结
CSDN-Ada助手: 哇, 你的文章质量真不错，值得学习！不过这么高质量的文章, 还值得进一步提升, 以下的改进点你可以参考下: (1)增加条理清晰的目录；(2)提升标题与正文的相关性。
leetcode 155. Min Stack 最小栈
CSDN-Ada助手: 动态规划难学么？
字符串的应用：删除字符串中b和ac，保证删除后的结果不包含b和ac
CSDN-Ada助手: 哇, 你的文章质量真不错，值得学习！不过这么高质量的文章, 还值得进一步提升, 以下的改进点你可以参考下: (1)使用更多的站内链接；(2)增加条理清晰的目录；(3)增加除了各种控件外，文章正文的字数。

大家在看

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。