
Bigdata
文章平均质量分 72
尘客.
大数据开发攻城狮
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
DataX从Mysql导数据到Hive分区表案例
本文介绍了如何使用DataX工具将MySQL数据导入Hive分区表。首先,下载并解压DataX安装包,无需额外配置。接着,创建Hive分区表,并确保分隔符与DataX配置一致。然后,编写DataX的Json配置文件,指定MySQL数据源和HDFS目标路径。手动创建HDFS分区目录后,执行DataX任务,确保数据成功导入。最后,通过添加分区信息和执行表分析SQL,验证数据并解决查询问题。整个过程涵盖了从数据迁移到验证的完整步骤。原创 2025-05-14 19:56:50 · 620 阅读 · 0 评论 -
编译Apache Tez 0.10.2 时报错:XXX.MojoExecutionException: ‘protoc --version‘ did not return a version
[ERROR] Failed to execute goal org.apache.hadoop:hadoop-maven-plugins:3.2.2:protoc (compile-protoc) on project tez-api: org.apache.maven.plugin.MojoExecutionException: 'protoc --version' did not return a version -> [Help 1]原创 2021-12-02 22:31:49 · 1555 阅读 · 0 评论 -
编译Atlas 2.2.0 时报错:org.apache.atlas:atlas-buildtools:jar:1.0 was not found (已解决)
如题,这个atlas-buildtools 1.0版本依赖在aliyun、repo1、repo2等多个仓库都没找到,于是报错如下一时没有找到哪个仓库有1.0版本依赖,不过0.8.1版本在中央仓库是有的懒得找了,修改源码pom.xml里面atlas-buildtools的版本为0.8.1吧。重新编译,问题解决,美滋滋...原创 2021-11-15 21:12:05 · 2734 阅读 · 5 评论 -
《大数据湖最佳实践》读书笔记
本书描述了数据湖基础知识,如基本架构、与数仓的对比、数据存储、元数据处理、数据访问控制等,读完能够让你对数据湖技术有一个概述性的认知。笔记按章节整理如下:一 数据湖概述数据湖的演化成熟度:数据水洼、数据池、数据湖、数据洋。陷入数据黑洞的数据沼泽。规划数据湖:针对不同人群的数据服务层以及对应的数据权限访问控制,原始区、产品区、工作区、敏感区数据查找:在减少数据冗余的同时能够让使用者快速查找到自己需要的数据,保持数据完整性,建立数据索引目录,类似于Hadoop NameNode基于原创 2021-06-12 16:36:25 · 1853 阅读 · 6 评论 -
论文阅读笔记:Multi-model Databases: A New Journey to Handle the Variety of Data
看到这篇论⽂,我的第⼀个疑问就是:何为Multi-mode DB?⼀开始我尝试⽤“多模数据库”去理解,但感觉并不能准确的阐述其本意,结合这篇⽂章(https://www.predictiveanalyticstoday.com/top-multi-model-databases/)以及赵⽼师分享的论⽂,基于⾃身的理解⽤⼀句话解释Multi-modelDB:可以同时针对不同数据模型如关系型、⽂本型、图型等进⾏操作的数据库称之为Multi-model数据库,以下为了撰写⽅便,采⽤不太准确的中⽂名“多模”原创 2021-03-21 17:33:45 · 1220 阅读 · 0 评论 -
记2021的第一次项目上线—— 进程缓存数据过期问题
即使在开发环境下一切运行OK,也不要放过任何一个看起来无关紧要的瑕疵,由于数据场景差异,开发环境的一个小漏洞可能会在生产环境被无限放大。原创 2021-01-30 21:05:10 · 293 阅读 · 0 评论 -
Solr vs ElasticSearch,搜索技术哪家强
简介:Solr和ElasticSearch到底有一些什么不同?我在网上搜索了一些文章,这些文章要么是列出一个表,详细地介绍两者什么功能有,什么功能没有,要么是从大类出发,比较两者的关注度,社区等等。但看完这些文章,还是没法解决我心中的疑惑,这里想跟大家分享下我的一些看法。转载 2020-12-29 15:24:27 · 297 阅读 · 0 评论 -
如何让你的Oracle SQL/SP运行在Hive上?hplsql执行Oracle存储过程
关于安装请见:https://blog.csdn.net/qq_34901049/article/details/107582460基本环境:已有基础集群环境(三个节点): CentOS 6.8Java8hadoop2.7.2hive 1.2.1使用hplsql版本:hplsql-0.3.31前面提到hplsql看起来有助于企业从传统RDB业务架构升级到完全分布式中的Oracle SP转换执行。即实现Oracle SP on Hive的效果。hplsql作为Apache Hive下的一个原创 2020-07-25 19:28:14 · 619 阅读 · 0 评论 -
如何让你的Oracle sql/sp运行在Hive上?Apache hive hplsql 安装配置
如何让你的Oracle sql/sp运行在Hive上?背景基于海量数据处理需求背景下,公司要做数据处理平台的升级,整体架构从Oracle集群到完全分布式存储计算的Hadoop/Spark体系。其中有着大量的Oracle sql/sp(以下简称SP)需要转换到Hadoop/Spark体系下,也就是SP->Spark Sql;作为技术架构上的升级,需要保留原有业务逻辑。每个SP长达数百到数千行代码,业务逻辑复杂;人工转换成本高。hplsql作为Spache Hive下的一个子模块,借助于Antlr解原创 2020-07-25 18:11:32 · 420 阅读 · 0 评论 -
Spark 底层网络模块
对于分布式系统来说,网络是最基本的一环,其设计的好坏直接影响到整个分布式系统的稳定性及可用性。为此,Spark专门独立出基础网络模块spark-network,为上层RPC、Shuffle数据传输、RDD Block同步以及资源文件传输等提供可靠的网络服务。在spark-1.6以前,RPC是单独通过akka实现,数据以及文件传输是通过netty实现,然而akka实质上底层也是采用netty实现,对...转载 2020-04-14 09:26:08 · 243 阅读 · 0 评论 -
Oracle Sql 转 Spark SQL开发实践中的思考与总结
实践背景:将一段存在五重子查询嵌套与数据转换计算的Oracle SP(Sql Procedure)用Spark SQL实现。并且采用Java进行开发(不能用最爱的Scala了。。。)这段SQL的核心逻辑接近千行代码,背后涉及到的关联表接近10个。没有文档,没有表ER图可供参考。我更愿将其定义为传统计算模型在大数据背景下的技术转型,或说是升级。在此将采用Spark SQL的sql开发模式,一般...原创 2020-03-23 20:41:26 · 1160 阅读 · 0 评论 -
数据如何变成知识(3):提取暗数据
转发自IBM社区:https://www.ibm.com/developerworks/cn/analytics/library/ba-data-becomes-knowledge-3/index.html?ca=drs-推荐阅读1:数据如何变成知识(1):从数据到知识推荐阅读2:数据如何变成知识(2):数据湖和数据沼泽在我的上一篇文章中,您了解了数据湖如何允许存储大量多格式数据,从而...转载 2020-01-06 10:45:41 · 333 阅读 · 0 评论 -
数据如何变成知识(2):数据湖和数据沼泽
转发自IBM社区:https://www.ibm.com/developerworks/cn/analytics/library/ba-data-becomes-knowledge-2/index.html?ca=drs-推荐阅读:数据如何变成知识(1):从数据到知识推荐阅读:数据如何变成知识(3):提取暗数据数据湖概念已存在多年。它最初引起了一些争议,而且被贴上了营销炒作的标签。术语...转载 2020-01-06 10:19:22 · 835 阅读 · 0 评论 -
数据如何变成知识(1):从数据到知识
转发自IBM社区:https://www.ibm.com/developerworks/cn/analytics/library/ba-data-becomes-knowledge-1/index.html?ca=drs-推荐阅读:数据如何变成知识(2):数据湖和数据沼泽推荐阅读:数据如何变成知识(3):提取暗数据过去几年,信息科学取得了重大进展。随着本地服务器给云服务让道,SQL 数...转载 2020-01-06 09:53:58 · 2366 阅读 · 0 评论 -
hive比较运算符整理
以下描述了谓词操作符,同样可以用于JOIN…ON和HAVING语句中。 操作符 支持的数据类型 描述 A=B 基本数据类型 如果A等于B则返回TRUE,反之返回FALSE A<=>B 基本数据类型 如果A和...原创 2019-11-29 10:47:45 · 799 阅读 · 0 评论 -
Phoenix安装部署与基本表操作
phoenix作为桥接hbase与基本sql操作的中间件,让我们可以更加方便的操作hbase数据库。详见:https://www.cnblogs.com/ballwql/p/8371234.html官方网址: http://phoenix.apache.org/index.html部署如下:1、解压 改名为phoenix4.14tar -zxvf apache-phoenix-4.14....原创 2019-11-29 10:10:02 · 450 阅读 · 0 评论 -
使用阿里云主机离线部署CDH步骤详解
转发大佬博客:https://www.cnblogs.com/yangp/p/8520229.html使用阿里云主机离线部署CDH步骤详解一、Linux文件系统准备1. 拍摄快照 登录阿里云控制台,拍摄快照,注意有几个关键点尽量拍摄快照,系统初始状态、CM环境准备完成、CM安装完成、CDH安装完成。2. 挂载设备 三个主机都执行。创建挂载目...转载 2019-11-20 14:55:14 · 500 阅读 · 0 评论 -
浅谈Phoenix在HBase中的应用
转发学习大佬博客:https://www.cnblogs.com/ballwql/p/8371234.html浅谈Phoenix在HBase中的应用一、前言业务使用HBase已经有一段时间了,期间也反馈了很多问题,其中反馈最多的是HBase是否支持SQL查询和二级索引,由于HBase在这两块上目前暂不支持,导致业务在使用时无法更好的利用现有的经验来查询HBase。虽然HBase本身不支...转载 2019-11-13 08:40:05 · 501 阅读 · 0 评论 -
Hbase(三) hbase协处理器与二级索引
转发大佬博文:https://www.cnblogs.com/liuwei6/p/6837674.html一、协处理器—Coprocessor 1、 起源Hbase 作为列族数据库最经常被人诟病的特性包括:无法轻易建立“二级索引”,难以执行求和、计数、排序等操作。比如,在旧版本的(<0.92)Hbase 中,统计数据表的总行数,需要使用 Counter 方法,执行...转载 2019-11-12 18:55:31 · 197 阅读 · 0 评论 -
布隆过滤器(Bloom Filter)详解
转发大佬博客:https://www.cnblogs.com/liyulong1982/p/6013002.html,方便以后的学习查找直观的说,bloom算法类似一个hash set,用来判断某个元素(key)是否在某个集合中。和一般的hash set不同的是,这个算法无需存储key的值,对于每个key,只需要k个比特位,每个存储一个标志,用来判断key是否在集合中。算法:1. ...转载 2019-11-08 16:49:40 · 2389 阅读 · 2 评论 -
如何优雅的关闭spark streaming实时任务
在分布式实时数据处理任务运行中,需要更新相关业务逻辑时,如何优雅的停止对应任务?写个脚本将kill发送到对应任务运行节点上上。不。这太暴力了,容易导致数据丢失问题。这里讨论的是优雅的关闭,想要优雅的关闭分布式实时任务的运行有很多种方法。在此通过监控hdfs的某个目录是否存在作为判断任务停止的依据,在需要停止时创建hdfs对应目录即可。为了下一次启动能够正常运行小区,关闭的时候还需要将对应hdf...原创 2019-11-07 11:28:59 · 1573 阅读 · 0 评论 -
spark sql读写普通文件、mysql、hive数据简单示例 (scala)
1、引入mysql-connector依赖或jar包2、开启mysql服务3、代码如下一、普通文件读写//1 read/write 有两种写法val spark: SparkSession = SparkSession.builder().appName("readT").master("local[*]").getOrCreate()import spark.implicit...原创 2019-11-03 10:24:14 · 1148 阅读 · 0 评论 -
spark下自定义UDAF的简单示例与使用
自定义UDAF定义步骤如下:继承抽象类UserDefinedAggregateFunction重写如下八个部分:输入类型:inputSchema: StructType中间数据运算类型:bufferSchema: StructType输出类型: dataType: DataType设置输入输出数据类型是否一致:deterministic: Boolean初始运算值的初始化复...原创 2019-11-02 09:13:18 · 647 阅读 · 0 评论 -
Spark自定义分区器简单示例
继上一篇:Spark分区器探索(HashPartitioner、RangePartitioner),现来看看自定义分区器。继承 org.apache.spark.Partitioner 类并实现下面三个方法。(1)numPartitions: Int:设置分区数。(2)getPartition(key: Any): Int:返回给定key计算出的分区编号(0到numPartitions-1)...原创 2019-10-31 16:21:42 · 782 阅读 · 0 评论 -
Spark分区器探索(HashPartitioner、RangePartitioner)
以Spark2.X为例,其支持Hash、Range以及自定义分区器。分区器决定了rdd数据在分布式运算时的分区个数以及数据在shuffle中发往的分区号,而分区的个数决定了reduce的个数;同样的shuffle过程中若分区器定义或选择不合适将大大增加数据倾斜的概率。综上,分区器的重要性不言而喻。首先要知道(1)Key-Value类型RDD才有分区器,非Key-Value类型RDD的分区值是...原创 2019-10-31 16:20:12 · 1186 阅读 · 0 评论 -
zookeeper集群安装配置笔记
使用zk版本:3.4.121 conf/zoo.cfg(mv zoo_sample.cfg zoo.cfg)dataDir=/usr/SFT/zookeeper-3.4.12/zkData#server.[myid]=[zkHost]:[communicationPort]:[electionPort]server.1=chdp11:2888:3888server.2=chdp12:28...原创 2019-09-29 19:52:15 · 1275 阅读 · 0 评论 -
hive安装与相关属性配置
在已配置好hdfs、yarn集群环境前提下进行hive的安装配置。hive被同时维护了1.x,2.x,3.x版本,在此以1.2.1版本作为实验。1、将hive解压到相应路径(根据自己实际情况,在此将hive解压到/usr/SFT/路径下,并修改为了hive-1.2.1),我的hive路径为:/usr/SFT/hive-1.2.1,以下简称HIVE_HOME#decompress hive ...原创 2019-09-29 20:08:04 · 209 阅读 · 0 评论 -
Oozie安装配置笔记
记得刚开始学习hadoop时,在涉及到多个MR job串联依赖执行中会在Driver代码段运用JobController进行调度,而在代码中进行作业调度终归是不太灵活。后面接触到了oozie作业调度,它基于工作流很好的解决了JobController在代码层面的耦合问题,提高了作业调度的灵活性。尤其在定时任务方面要比crond更加灵活。功能模块一、 模块Workflow顺序执行流程节点,...原创 2019-10-03 17:29:22 · 263 阅读 · 0 评论 -
Oozie调度案例(workflow调度多个job)
继上一篇oozie安装笔记:Oozie安装配置笔记继续复习记录。唯有实践才能真切地发现简单的东西不一定简单。1 解压oozie自带demotar -zxf oozie-examples.tar.gz2 在oozie目录下创建myjps文件夹并将oozie自带demo拷贝到该文件夹下cp -rvf examples/apps myjps/3 在myjps/apps/shell目录下...原创 2019-10-03 20:42:40 · 998 阅读 · 0 评论 -
kafka自带压测工具简单案例解析
根据压测结果可以判断当前kafka部署环境是否满足业务需求、需要做哪方面的优化。在kafka安装bin目录下有如下两个工具用于针对生产/消费端的压测:kafka-consumer-perf-test.shkafka-producer-perf-test.sh生产者端根据kafka处理数据峰值为参照进行测试。/usr/SFT/kafka-0.11/bin/kafka-producer-p...原创 2019-10-04 17:00:53 · 1324 阅读 · 0 评论 -
Flume Kafka Channel使用案例
flume有三大组件:source,channel,sink。根据不同的适用场景其中又有进一步的分类,channel见得比较比较多的有file channel(base on secondary memory)、memory channel (base on main memory)。file channel的安全性要比memory channel高,但效率次之;反之即反。在使用flume实时...原创 2019-10-04 19:00:30 · 3928 阅读 · 0 评论 -
kafka基本架构及相关原理总结
kafka是消息队列的一种,记得在web开发中会用类似于rabbitMQ之类的消息中间件以提高交互效率,同时可以在访问高峰期起到缓冲的作用,还有其他各种好处在此就不再展开了。先来看看消息队列的数据传输模式推送(消息队列主导):push可以及时将最新的数据推送到数据下游,但可能导致下游数据主机来不及消费的问题数据不对等的时候)。而有可能导致数据丢失。拉取(订阅者主导):pull可以很好的解...原创 2019-10-06 12:14:43 · 1184 阅读 · 0 评论 -
flume基本架构与相关原理总结
可能说起日志采集,首先想起的便是flume。先来看看flume官网是怎么说的:http://flume.apache.org/releases/content/1.7.0/FlumeUserGuide.html#overviewA Flume event is defined as a unit of data flow having a byte payload and an optiona...原创 2019-10-06 17:41:46 · 832 阅读 · 0 评论 -
基于Spark的交互式大数据预处理系统设计与实现(一) 概述
分享我的本科毕业论文,欢迎指教。摘 要大数据时代已经到来,面对呈几何倍增且来源多样的海量数据,企业需要运用各种数据处理分析技术从中获取需要的有价值的信息。而基于大数据的四V特性,相关机构从海量数据中提取信息面临着原始数据无规则、非结构化、不完整等各种问题。这些带有各种质量问题的数据无疑增加了企业准确获取信息的难度,进而导致一系列不必要的决策失误。若能在数据处理之前对这些数据进...原创 2019-08-16 21:32:22 · 3417 阅读 · 2 评论 -
Apache Tez 了解
转发自这位大佬博客:https://www.cnblogs.com/rongfengliang/p/6991020.html你可能听说过Apache Tez,它是一个针对Hadoop数据处理应用程序的新分布式执行框架。但是它到底是什么呢?它的工作原理是什么?哪些人应该使用它,为什么?如果你有这些疑问,那么可以看一下Bikas Saha和Arun Murthy提供的呈现“Apache Tez: 加...转载 2019-09-29 21:23:23 · 366 阅读 · 0 评论 -
hadoop历史服务器配置
在任务出错时想要详细的获取运行的MR任务信息(主要是日志),那么hadoop自带的历史服务器是个很好的选择。基本集群搭建见这篇博客:hadoop集群搭建笔记在基本集群搭建上配置下述文件mapred-site.xml<configuration><!-- set mapreduce running on yarn --><property> ...原创 2019-09-26 12:10:40 · 234 阅读 · 0 评论 -
Yarn HA搭建
基本集群搭建见这篇博客:hadoop集群搭建笔记在基本集群搭建上配置下述文件yarn-site.xml<configuration><!-- Site specific YARN configuration properties --><!-- the mode of data acquirement in reduce--><propert...原创 2019-09-26 12:03:39 · 251 阅读 · 0 评论 -
MR找共同好友的思考及优化实现(以空间换时间策略,一个map阶段解决)
这还是学习MapReduce时候的题目吧,这几天又看到了,似乎有了更多的思考。部分原始数据截图:传统方法好友关系是单向的,就比如以第一行数据为例,A的好友有B,C,D,F,E,O,但通过这行数据不能得到B的好友为A(单向关系限定)故而找共同好友中需要将这种关系进行反向思考,即A有好友B转换成B属于A的好友。据此得到第一个map的输出value:B->A C->A D-&g...原创 2019-09-02 16:08:47 · 453 阅读 · 0 评论 -
自写脚本一键启动/停止zookeeper集群
一个简单的zk批量启动脚本示例,其实就是一个简单的ssh运用,配置好免密就可以愉快的使用了。#zkStart.sh#start zk clusterfor host in chdp11 chdp12 chdp13do echo "===========start zk cluster :$host===============" ssh $host '/usr/SFT/zookeep...原创 2019-08-31 16:21:27 · 756 阅读 · 0 评论 -
[myid:] - ERROR [main:QuorumPeerMain@88] - Invalid config, exiting abnormally:/myid file is missing
在启动zookeeper集群时发现没启动成功,查看日志发现如下报错:2019-08-31 09:18:14,407 [myid:] - ERROR [main:QuorumPeerMain@88] - Invalid config, exiting abnormallyorg.apache.zookeeper.server.quorum.QuorumPeerConfig$ConfigExcep...原创 2019-08-31 11:22:07 · 7504 阅读 · 2 评论