
笔记
文章平均质量分 61
Sparky*
只有经历过一切,才有资格选择
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Git的安装与配置
Git是一个开源的分布式版本控制系统,可以有效、高速的处理从很小到非常大的项目版本管理,是目前使用范围最广的版本管理工具。原创 2022-11-24 17:24:36 · 276 阅读 · 0 评论 -
数据库管理系统
启动:net start mysql服务名停止:net stop mysql服务名。原创 2022-11-24 17:22:13 · 606 阅读 · 0 评论 -
Excel使用笔记
Excel笔记原创 2022-08-17 10:38:05 · 3661 阅读 · 0 评论 -
加密技术(对称+非对称加密)
文章目录原创 2022-01-07 09:37:37 · 653 阅读 · 0 评论 -
Spark 案例实操
文章目录数据准备1. 需求 1:Top10 热门品类1.1 需求说明1.2 实现方案一1.2.1 需求分析1.2.2需求实现 数据准备 上面的数据图是从数据文件中截取的一部分内容,表示为电商网站的用户行为数据,主要包含用户的 4 种行为:搜索,点击,下单,支付。数据规则如下: ➢ 数据文件中每行数据采用下划线分隔数据 ➢ 每一行数据表示用户的一次行为,这个行为只能是 4 种行为的一种 ➢ 如果搜索关键字为 null,表示数据不是搜索数据 ➢ 如果点击的品类 ID 和产品 ID 为-1,表示数据不是点击数据原创 2020-11-23 18:23:59 · 1050 阅读 · 0 评论 -
UDF与UDAF实现
UDF实现 import org.apache.spark.SparkConf import org.apache.spark.sql.SparkSession object Spark02_SparkSQL_UDF { def main(args: Array[String]): Unit = { // TODO 创建SparkSQL的运行环境 val sparkConf = new SparkConf().setMaster("local[*]").setA原创 2020-11-30 09:53:37 · 445 阅读 · 0 评论 -
算子案例
文章目录RDD转换算子案例1. 数据准备2.需求描述3.代码实现 数据文件链接 https://gitee.com/sparky_z/spark-data-file RDD转换算子案例 1. 数据准备 agent.log:时间戳,省份,城市,用户,广告,中间字段使用空格分隔。 2.需求描述 统计出每一个省份每个广告被点击数量排行的 Top3 3.代码实现 package rdd.operator.transform import org.apache.spark.rdd.RDD import org.ap原创 2020-11-23 10:28:56 · 961 阅读 · 0 评论 -
大数据技术原理与应用考试复习
文章目录第一章第二章第三章第四章第五章 NoSQL 第一章 信息科技为大数据时代提供技术支撑 存储设备容量不断增加 CPU处理能力大幅提升 网络带宽不断增加 大数据的“4V” 数据量大 数据种类繁多 处理速度快 价值密度低 大数据关键技术 两大核心技术:分布式存储 HDFS 和 分布式处理 MapReduce 大数据与云计算、物联网的关系 第二章 Hadoop特性 高可靠性 高效性 高可扩展性 高容错性 成本低 运行在Linux平台上 支持多种编程语言 第三章 HDFS要实现以下目标原创 2020-11-12 21:40:10 · 3777 阅读 · 0 评论 -
大数据采集与预处理技术
文章目录第1章 大数据概念1.1大数据的概念1.2大数据的关键技术1.3大数据采集与数据预处理技术 第1章 大数据概念 1.1大数据的概念 目前工业界普遍认为大数据具有5V+1C的特征:大量(volume)、多样(variety)、价值(value)、高速(velocity)、准确性(veracity)和复杂(complexity) 大数据的起始计量单位至少是P(1000个T)、E(100万个T)或Z(10亿个T) 数据的种类包括结构化、半结构化和非结构化数据 人类社会的数据产生方式大致经历了3 个阶段:原创 2020-06-17 14:51:38 · 10691 阅读 · 0 评论 -
R语言词云可视化
文章目录词云简介基础案例画自定义图形词云图文字云图jiebaR中文分词R语言读取文件读取txt文件读取CSV文件读取Excel文件 词云简介 wordcloud(或标签云)是文本数据的视觉表示。标签通常是单个单词,每个标签的重要性以字体大小或颜色显示。在中R,有两个软件包可以创建wordcloud:Wordcloud和Wordcloud2。 Wordcloud2软件包可能是用R构建wordclouds的最佳方法。请注意,它是一个html小部件。 基础案例 wordcloud2()函数用法: wordclou原创 2020-11-22 17:09:00 · 2441 阅读 · 3 评论