Scapel-CSDN博客

原创 Flink SQL 批处理使用HOP详解

Flink SQL 批处理使用HOP详解介绍 Flink SQL中分组窗口函数中有一个HOP(time_attr, hop interval 滑动间隔, fixed duration 窗口时间)，适合的场景基本是每隔多长时间统计一次某个时间段内的指标，例如，统计每个用户过去1分钟（窗口时间）的单击次数，每30秒（滑动间隔）更新1次。在流式计算中比较容易理解，但是批处理使用这个函数就会让人摸不着头脑。下面通过一个例子来解释。表结构及数据 SQL INSERT INTO print SEL

2021-03-26 17:47:05 4262 1

原创集群未知网络问题

提交了一个SparkStreaming程序，经常出现如下的错误： ERROR TransportResponseHandler: Still have 5 requests outstanding when connection from hadoop006/172.33.2.6:55862 is closed WARN YarnSchedulerBackend$YarnSchedulerE...

2018-12-03 15:44:44 2805 1

翻译 Flume conf文件

Flume官网的Source介绍 spooldir This source will watch the specified directory for new files, and will parse events out of new files as they appear. After a given file has been fully read into the channe...

2018-11-15 17:54:27 855

原创 Spark中foreachRDD、foreachPartition和foreach解读

foreachRDD、foreachPartition和foreach的不同之处主要在于它们的作用范围不同，foreachRDD作用于DStream中每一个时间间隔的RDD，foreachPartition作用于每一个时间间隔的RDD中的每一个partition，foreach作用于每一个时间间隔的RDD中的每一个元素。在Spark 官网中，foreachRDD被划分到Output Op...

2018-11-13 18:00:02 23572 9

转载 Kafka JMX

Kafka官网的JMX MBEAN列表： Monitor Common monitoring metrics for producer/consumer/connect/streams Common Per-broker metrics for producer/consumer/connect/streams Producer monitoring Producer Sender Me...

2018-11-09 16:57:04 385

翻译 Redis配置

Redis的配置有两种方式，编辑redis.conf，或者通过CONFIG SET CONFIG_NAME CONFIG_VALUE命令。 redis.conf内容如下： # Redis configuration file example # Note on units: when memory size is needed, it is possible to specify # it ...

2018-11-08 13:52:51 288

翻译认识Redis

Redis is an open source (BSD licensed), in-memory data structure store, used as a database, cache and message broker. It supports data structures such as strings, hashes, lists, sets, sorted sets with...

2018-11-08 09:41:28 213

原创 Java实现延时的方法

1、使用Timer类 Timer类的schedule方法可以按照时间计划执行程序。 public static void main(String[] args) { Timer timer = new Timer(); TimerTask timerTask = new MyTimerTask(); timer.schedule(timerTask,...

2018-11-07 22:28:17 21953 3

转载 Spark基础知识

Spark为什么比Hadoop快？ 1、Spark基于内存 Spark默认情况下将处理过程中的数据保存在内存中，而Hadoop的计算结果每次都保存到磁盘，增加了I/O读写的时间。这也导致在迭代计算时Spark速度愈发快于Hadoop。 2、Spark基于DAG Spark的执行任务事先已经通过DAG规划，任务管理更加精细化。 3、移动计算而非移动数据 RDD的partit...

2018-11-07 22:24:42 561