
学习笔记
文章平均质量分 53
记录或总结一些看过的知识,供自己学习查阅,并公开分享出来.如果碰巧对别人有帮助,甚好!
橘子洲头无桔子
拿不起的辞典
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
FlinkKafkaConsumer
offset什么时候提交主要看是否开启了checkpoint开启了checkpoint情况1:用户通过调用 consumer上的setCommitOffsetsOnCheckpoints(true) 方法来启用 offset 的提交(默认情况下为 true )那么当 checkpointing 完成时,Flink Kafka Consumer 将提交的 offset 存储在 checkpoint 状态中。这确保 Kafka broker 中提交的 offset 与 checkpoint 状态中原创 2021-04-06 13:42:32 · 2778 阅读 · 0 评论 -
Flink与Kafka的爱恨情仇
使用 Flink-connector-kafka 可能会遇到的问题如何消费多个 Kafka Topic通常可能会有很多类型的数据全部发到 Kafka,但是发送的数据却不是在同一个 Topic 里面,然后在 Flink 处消费的时候,又要去同时消费这些多个 Topic,在 Flink 中除了支持可以消费单个 Topic 的数据,还支持传入多个 Topic,另外还支持 Topic 的正则表达式(因为有时候可能会事先不确定到底会有多少个 Topic,所以使用正则来处理会比较好,只要在 Kafka 建立的 To原创 2020-09-23 14:31:34 · 3038 阅读 · 0 评论 -
k8s--Kubernetes
什么是Kubernetes?k8s?Kubernetes 的名字来自希腊语,意思是“舵手” 或 “ 领航员” .K8s是将8个字母“ubernete”替换为“8”的缩写.Kubernetes是Google 2014年创建管理的,是Google 10多年大规模容器管理技术Borg的开源版本。Kubernetes是容器集群管理系统,是一个开源的平台,可以实现 容器集群 的自动化部署、自动扩缩容、维护等功能。Kubernetes 特点可移植 : 支持公有云,私有云,混合云,多重云(multi-cloud原创 2020-09-14 14:12:20 · 179 阅读 · 0 评论 -
Maven中的 scope
项目阶段包括: 编译,运行,测试和发布。SCOPE 分类:compile默认scope为compile,表示为当前依赖参与项目的编译、测试和运行阶段,属于强依赖。打包之时,会打到包里去。test该依赖仅仅参与测试相关的内容,包括测试用例的编译和执行,比如定性的Junit。runtime依赖仅参与运行周期中的使用。一般这种类库都是接口与实现相分离的类库,比如JDBC类库,在编译之时仅依赖相关的接口,在具体的运行之时,才需要具体的mysql、oracle等等数据的驱动程序。此类的驱动都是为run原创 2020-08-28 17:11:13 · 251 阅读 · 0 评论 -
System.getProperties()都能获取到什么
package com.xxx.test;import java.util.Properties;import java.util.Set;/** * @description: * 测试一下 Java 中 的System.getProperties()都能获取到什么 * 平常常用到 System.getProperty("user.dir") 俩获取项目当前地址 * Java 开发人员可能对System的运用比较熟悉 * 大数据开发可能会在 提交jar作业中获取参数并且和通用.原创 2020-08-27 10:25:03 · 475 阅读 · 0 评论 -
数仓血缘分析调研分享
前期调研:数仓字段血缘解析实现—hive版为什么要使用图数据库?neo4j手册CQL教程neo4j视频Hive鲜为人知的宝石-HooksHive学习笔记——hive hook大数据血缘分析系统设计(一)大数据血缘分析系统设计(二)大数据血缘分析系统设计(三)大数据血缘分析系统设计(四)注意:LineageLogger Hook 是 Hive2.0版本 之后存在的,如果HIVE版本不够需要升级HIVE版本...原创 2020-08-09 19:55:45 · 522 阅读 · 0 评论 -
图数据库neo4j使用笔记
neo4j安装参照博客:https://blog.csdn.net/u013946356/article/details/81736232常用的基本命令:数据库服务启动:/opt/soft/neo4j-community-3.4.5/bin/neo4j start数据库服务停止:./neo4j stop查看服务状态:./neo4j status客户端客户端访问:http://172.24.103.3:7474/browser/账号:neo4j密码:123456Java项目中配置(原创 2020-08-09 19:53:09 · 1407 阅读 · 0 评论 -
java远端执行shell命令之系统上任务的框架 -- sshxcute
需求描述:在实际工作中,总会有些时候需要我们通过java代码通过远程连接去linux服务器上面执行一些shell命令,包括一些集群的状态管理,执行任务,集群的可视化界面操作等等,所以我们可以通过java代码来执行linux服务器的shell命令为了解决上述问题,google公司给提出了对应的解决方案,开源出来了一个jar包叫做sshxcute,通过这个jar包我们可以通过java代码,非常便捷的操作我们的linux服务器了使用介绍项目中idea手动添加依赖,非pom开发演示import net.原创 2020-08-09 19:31:27 · 782 阅读 · 0 评论 -
Java中的Builder模式构建对象(Scala,python不需要)
package com.troila.test;/** * @description * 在设计模式中对Builder模式的定义是用于构建复杂对象的一种模式,所构建的对象往往需要多步初始化或赋值才能完成。那么,在实际的开发过程中,我们哪些地方适合用到Builder模式呢?其中使用Builder模式来替代多参数构造函数是一个比较好的实践法则。我们常常会面临编写一个这样的实现类(假设类名叫BuilderTest),这个类拥有多个构造函数,BuilderTest(String name);Bu原创 2020-07-03 16:17:05 · 386 阅读 · 0 评论 -
SQL执行流程sql
FromONJOINWHEREGROUP BYSELECTHAVINGORDER BYLIMIT原创 2020-05-20 10:46:15 · 156 阅读 · 0 评论 -
轻松理解SQL中的各种join和union
简单理解:join本意是连接,就是把多张表的数据横向连接起来(横向扩展)(字段不一样);union本以是合并,就是把多个表结果集纵向合并起来(纵向扩展)(字段及顺序一样).下面列出了 JOIN 类型,以及它们之间的差异JOIN: 只返回俩表匹配的行(一一对应,要避免笛卡尔积)LEFT JOIN: 返回左右表匹配的行及左表不匹配的行RIGHT JOIN: 返回左右表匹配的行及右表不匹配的行FULL JOIN: 返回左右表匹配行及左表右表各自不匹配的行JOINSELECT * FROM tab原创 2020-05-20 10:43:20 · 1129 阅读 · 0 评论 -
Canal-Mysql数据同步工具
官方介绍阿里巴巴 MySQL binlog 增量订阅&消费组件canal 主要用途是基于 MySQL 数据库增量日志解析,提供增量数据订阅和消费早期阿里巴巴因为杭州和美国双机房部署,存在跨机房同步的业务需求,实现方式主要是基于业务 trigger 获取增量变更。从 2010 年开始,业务逐步尝试数据库日志解析获取增量变更进行同步,由此衍生出了大量的数据库增量订阅和消费业务。基于日志增量订阅和消费的业务包括数据库镜像数据库实时备份索引构建和实时维护(拆分异构索引、倒排索引等)业务原创 2020-05-12 18:09:40 · 790 阅读 · 0 评论 -
Hive常用语法收录
可以说hive就是一个MapReduce的客户端,可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能后台启动nohup bin/hive --service hiveserver2 &nohup bin/hive --service metastore &1bin/beelinebeeline> !connect jdbc:hive2://node03:10000创建数据库1.数据默认路径(hdfs)create database if not exis原创 2020-05-10 17:59:58 · 135 阅读 · 0 评论 -
Hive元数据库下表说明
记录背景:工作中要对HIVE的元数据进行监控,对Hive的元数据调研过程中了解到一些,在此记录:Hive的元数据一般都会存在MySQL,下面是我对mysql里hive库下各数据表的分析:数据库相关的表 DBS该表存储Hive中所有数据库的基本信息,字段如下:元数据表字段 说明 示例数据DB_ID 数据库ID 2DESC 数据库描述 测试库DB_LOCATION_URI 数据库HDFS路径 hdfs://namenode/user/hive/warehouse/lxw1234.dbNAME原创 2020-05-10 17:56:56 · 392 阅读 · 0 评论 -
YARN应该了解什么
#YARN的背景原创 2020-05-10 17:34:07 · 202 阅读 · 0 评论 -
Flink状态后端 State Backend
什么是状态?无状态计算指的是数据进入Flink后经过算子时只需要对当前数据进行处理就能得到想要的结果,有状态计算就是需要和历史的一些状态或进行相关操作,才能计算出正确的结果状态的使用场景:去重:需要记录哪些数据出现过,哪些没出现过,记录所有主键窗口计算,已进入未触发计算的数据比如计算一个小时的counter机器学习/深度学习:训练模型及参数访问历史数据:需要与昨天的数据进行对比,历史数据放在状态里状态管理和备份为什么要管理状态?管理状态最直接的方式就是将数据都放到内存中,也是最常用的方原创 2020-06-23 11:51:32 · 683 阅读 · 0 评论 -
Flink SQL实时计算案例三
import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;import org.apache.flink.table.api.EnvironmentSettings;import org.apache.flink.table.api.Table;import org.apache.flink.table.api.java.StreamTableEnvironment;import org.apache.f原创 2020-06-01 17:46:26 · 1738 阅读 · 3 评论 -
Flink Sql源表时间类型及水印字段生成
test012020-06-01T03:56:53.123 pt AS PROCTIME() pt2020-06-01T11:56:50 wt AS TO_TIMESTAMP(t4) wt2020-06-01T11:56:50 t5 AS CAST(FROM_UNIXTIME(CAST(t3 AS BIGINT)) AS TIMESTAMP) t5源端字段级类型源端发送数据格式映射后的数据格式建表语句操作(映射关系)映射后的字段t1[String]Mon Jun 01 1原创 2020-06-01 14:42:51 · 1544 阅读 · 0 评论 -
Flink SQL实时计算案例二
知识点:与维表join,开窗计算消息模拟器/** * @description loT解决方案之 多维度传感器数据分析 * 模拟传感器采集上传服务 * @author: ZhiWen * @create: 2020-05-25 11:26 **/public class MessageGenerator03 { /** *功能描述 * 该工业客户拥有1千多台设备,分布在不同城市的多个厂区,每个设备上有10个不同种类传感器,这些传感器,大概每5秒采集并上传一份数据到原创 2020-05-27 17:03:23 · 1127 阅读 · 0 评论 -
Flink SQL实时计算案例一
消息发送器import com.alibaba.fastjson.JSONObject;import com.wzw.ali.bean.Message02;import org.apache.kafka.clients.producer.KafkaProducer;import org.apache.kafka.clients.producer.ProducerRecord;import org.apache.kafka.common.serialization.StringSerializer;原创 2020-05-24 09:52:32 · 4484 阅读 · 15 评论 -
docker中容器分配内存不足
[achilles-0.0.0.0-7085] 2020-03-27 15:20:45.062 INFO 1 [flink-akka.actor.default-dispatcher-2] org.apache.flink.runtime.resourcemanager.StandaloneResourceManager Request slot with profile ResourceProfile{cpuCores=0.0, heapMemoryInMB=0, directMemoryInMB=0,原创 2020-05-16 17:42:37 · 1778 阅读 · 0 评论 -
Blink SQL介绍
阿里团队在flink 的基础上开发了blink,从而支持flink(blink)全SQL开发流式程序发展历程在 Flink 1.9 中,Table 模块迎来了核心架构的升级,引入了阿里巴巴Blink团队贡献的诸多功能,本文对Table 模块的架构进行梳理并介绍如何使用 Blink Planner。Flink 的 Table 模块 包括 Table API 和 SQL,Table API 是一种类SQL的API,通过Table API,用户可以像操作表一样操作数据,非常直观和方便;SQL作为一种声明转载 2020-05-16 17:41:32 · 2250 阅读 · 0 评论 -
Flink 应用场景
先来看看Flink是什么:看一下百度百科我的理解,同样也是分布式计算引擎,大数据童鞋都知道,大数据处理就是分布式存储和分布式计算,flink用来作大数据的流式计算.可归为四大模块:实时数据存储实时数据存储的时候做一些微聚合、过滤某些字段、数据脱敏,组建数据仓库,实时 ETL。实时数据分析实时数据接入机器学习框架(TensorFlow)或者一些算法进行数据建模、分析,然后动态的给出商品推荐、广告推荐实时监控告警金融相关涉及交易、实时风控、车流量预警、服务器监控告警、应用日志告警实时数据原创 2020-05-16 17:30:59 · 1442 阅读 · 0 评论 -
State backend(Checkpoint 的存储的位置)
Checkpoint 的存储的位置取决于配置的 State backend(JobManager 内存,文件系统,数据库…)。默认情况下,State 存储在 TaskManager 内存中,Checkpoint 存储在 JobManager 内存中。Flink 支持在其他 state backend 中存储 State 和 Checkpoint。可以通过如下方法配置:StreamExecutionEnvironment.setStateBackend(…)Flink 提供了不同的 State backe原创 2020-05-16 17:17:35 · 2064 阅读 · 0 评论 -
Flink 并行度 slot
Flink Worker与Slotsworker每一个worker(TaskManager)是一个JVM进程,它可能会在独立的线程上执行一个或多个subtask。slots为了控制一个worker能接收多少个task,worker通过task slot来进行控制(一个worker至少有一个task slot)。·每个task slot表示TaskManager拥有资源的一个固定大小的子集。假如一个TaskManager有三个slot,那么它会将其管理的内存分成三份给各个slot。资源slot化意味转载 2020-05-16 17:05:13 · 362 阅读 · 0 评论 -
Flink SQL语法检查
可以直接调用flink自己的sql 解析包/** * 解析 flink sql 语句 * * @param sql * @return */public static void parseSql(String sql) throws Exception { SqlParser parser = SqlParser.create(sql, SqlParser.configBuilder() .setParserFactory(FlinkSqlParserImpl.原创 2020-05-16 16:58:54 · 2122 阅读 · 1 评论