
BigData
大树据相关知识总结
Allocator
FOCUS
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Hbase 基础理论
HBase 基础理论HBase 基础理论Hbase是一个分布式的列数据库,适用于分布式大数据场景。Hbase本身是属于NoSQL在hadoop的大数据集群框架中可以用来做数据的存储。Hbase本身是Google的Bigtable理论的开源实现。本篇文章主要是记录Hbase的一些理论学习的心得,为后续的项目实战练习铺垫Hbas原创 2017-02-12 12:45:49 · 1334 阅读 · 0 评论 -
HADOOP_CLASSPATH配置问题
HADOOP_CLASSPATH原创 2017-02-14 21:22:28 · 27035 阅读 · 1 评论 -
HDFS原理
本文主要是从原理角度讲解HDFS文件系统,包括它的基本组成单元,构架,一些重要的机制,以及分布式文件系统的读写原理等原创 2017-04-09 17:57:46 · 2128 阅读 · 0 评论 -
Hadoop开发常用的API汇总
HADOOP HDFS HBASE MAPREDUCE JAVA APIHDFS JAVA API原创 2017-02-15 16:30:38 · 6113 阅读 · 0 评论 -
Dockerfile 的详解
Dockerfile 的详解原创 2017-04-06 22:12:24 · 861 阅读 · 0 评论 -
maven 构建 spark scala archetype
背景spark maven项目构建不像flink一样官方提供了各个版本的maven archetype, 方便在本地构建相应的项目. 由于官方没有, 所以只能自己基于一个基础的spark scala项目构建maven archetype.基于scala archetype 构建基础项目spark scala项目是基于scala项目构建, 所以选择最基本的scala archetype构建项目 再往其中添加spark运行所需的基本依赖包(spark-core, spark-mllib等按需求添加即可)原创 2020-07-22 22:54:44 · 1371 阅读 · 0 评论 -
flink PojoCsvInputFormat 处理 csv 文件数据问题小结
背景使用flink DataStream api 来处理一批数据, 数据本身就是保存在csv文件里面, 需要将csv文件里面的每一行转换为相应的POJO实例, 查询flink提供的FileInputFormat相关的类和接口(PojoCsvInputFormat)可以完成从CSV到DataStream的转换.但是在使用这个类的时候遇到一些问题, 而且网上也没有相关的答案,本文把这些问题以及解决的办法记录下来,希望能给遇到相似问题的同学一些参考.准备工作首先是csv测试文件,这里简单的使用两个字段age原创 2020-07-15 11:30:28 · 1921 阅读 · 0 评论 -
Flink docker 容器运行环境下不能够从Web UI 查看 Logs 以及Stdout的解决办法
背景最近业务需要使用Flink, 于是把之前Flink的相关技术拿出来重新回顾一下, 于是想起这个之前一直没有去解决的问题. 本文主要讲解如何解决这一问题以及发生这个问题的根本原因.运行Flink 官方docker image此处不多说,访问docker hub flink官方的Image. 选择自己需要版本的flink官方镜像(此处我选的是flink:scala_2.11 因为要使用到scala shell所以选的scala版本不是最新的) 然后按照官方给的docker-compose 文件简单改动原创 2020-06-19 17:26:19 · 7658 阅读 · 13 评论 -
hive metastore使用mysql作为backend db遇到的问题
hms使用mysql作为Backend metadata database, 但是启动爆如下错误.原生的hive不带pg以及mysql的驱动包,所以这里要自己构建镜像添加这两个包到。docker-compose 文件。.所以要预先在mysql上面创建好。这个数据库,hms才能启动成功.原创 2024-04-14 08:27:04 · 496 阅读 · 0 评论