
笔记
uixjhn
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
八大算法思想----枚举法
最‘笨’的枚举法 故名思意,就是把解情况都列出来,看哪种情况有解符合条件,是最常用最容易想到的一种,但运行时间长,运算量大 使用要重点注意三点: 1,范围,一定要把符合的情况的全部列出来 2,终止条件,即符合解情况的条件 例子: 一,百元买百鸡: # 枚举法一定要注意两点:变量范围,终止条件 def onehunredAndChick(): # // 百元买百鸡 # // 公鸡5元,母鸡3元,小鸡3只一元 # // 枚举法求解 chicld=0 for man in ran原创 2021-10-27 14:17:00 · 300 阅读 · 0 评论 -
RDD持久化处理
持久化 在数据库中,把数据写入表里的过程。 在spark中,把内存中的RDD临时永久存储起来的过程 容错机制 如果数据在内存中丢失,向父级依赖查找数据,直到找到数据为止,最坏的情况是找到hdfs重新获取数据重新计算,自动把结果补到原来持久化的位置。 两种方式会使用持久化操作: 1,数据量大,数据复杂 2,同一个rdd多次提交,即一个rdd复用 用法: 创建持久化: 就是转换算子,直接调用就可以 cache() 完全等价于 persist(),使用默认策略持久化 如果想改变策略,使用persist(策略)指定原创 2021-09-07 21:37:40 · 258 阅读 · 0 评论 -
Rdd分区策略
并行度 1.textFile 可以读单个文件,也可以读一个目录下的所有文件。 把所有文件的内容当做一个文件的形式处理 如果指定并行度,直接使用。 如果没有指定并行度,走默认最小分区数 最小分区数=Math.min(默认并行度,2) 默认并行度 a.如果设置了spark.default.parallelism直接读取 b.如果没有设置 1)本地 当前节点CPU总核心数 2)独立 没有 3)分布式 当前集群中所有节点的CPU核心数总和原创 2021-09-03 18:34:46 · 124 阅读 · 0 评论 -
Spark中的RDD&&算子
RDD: 弹性的分布式的数据集 弹性:在一定范围内进行变化不影响整体的情况 分布式:RDD本身没有分布式概念,里面的数据是分布式存储的 数据集:数据的集合 rdd是spark计算的核心,也是计算的瞬时结果。 特点: a.rdd是一个抽象的概念,partition是具体的概念 b.rdd里的数据是不可变的 c.每个rdd经过一个函数的转换把结果赋给下一个rdd d.rdd可以并行计算 五大特性 a.一组分区的集合 b.一个函数作用于所有的切片 函数是算子里作为参数的那个函数 c.每个rdd依赖于其他的r原创 2021-09-02 16:07:55 · 165 阅读 · 0 评论 -
spark的介绍&&环境的搭建
spark的介绍&&环境的搭建 离线分析: 把一段时间的数据经过收集,整理,分析,得出一定的结论 这个结论可以帮助人们做一定的决策。 与时效性无关 处理数据的方式:批处理 实时分析: 必须有时效性,数据实时产生,实时处理。 处理数据的方式:流处理 spark 对于大规模数据处理的一个快如闪电的统一的分析引擎(计算框架) 作者: 美国加州大学伯克利分校AMP(A:算法,M:机器,P:人)实验室 目的: 通过对算法,机器和人的大规模整合来展现大数据的应用 特点: 1.速度原创 2021-09-01 15:16:12 · 127 阅读 · 0 评论 -
scala的面向对象
scala的面向对象 面向对象 定义: 是一种编程范式,是相对于面向过程来说的,将数据和方法当成整体来看待 的一种思想,比如:把大象关进冰箱,面向过程来说,就是分为三步,把冰箱打开,把大象放进冰箱,关上冰箱门;而相对于面向对象来说,就可以将冰箱当成一个对象,这个对象可以有开门,放东西,关门等功能,以及属性那:长,宽,高等这些的都可以封装在冰箱这个对象里,这就是面向对象编程 类:具有相同属性和方法的事务(具有相同属性,相同方法的一类对象集合) 对象:类的一个具体的实现 class 一个普通类 定义类 cl原创 2021-08-31 19:55:28 · 229 阅读 · 0 评论 -
Hbase过滤器
Hbase过滤器Hbase过滤器1,定义2,比较规则(符号)3,比较器4,过滤器 Hbase过滤器 1,定义 过滤器就是对数据处理,过滤掉一些没用或者不需要的数据,在MySql中就相当于 where xxx>xxx的作用 要使用这个就得先确定三个条件: 1,比较的规则,是大于还是小于,还是等于 2,比较的内容是什么,和比较的形式,比如:字符串,整数,当然hbase就是字节数组。 3,按照什么比较,比如rowkey,familycolumn等 hbase中没有大于原创 2021-08-23 15:54:35 · 133 阅读 · 0 评论