Hadoop与SQL：程序员必备的13大数据查询工具

PDF文件

434KB | 更新于2024-08-28 | 133 浏览量 | 举报收藏

立即下载

"在Hadoop上运行SQL：程序员需知晓的13种数据工具" 在大数据分析领域，Hadoop作为核心平台，虽然最初设计时并未强调对SQL的支持，但随着传统企业的转型需求，SQL在Hadoop环境中的重要性日益凸显。SQL是一种广泛使用的结构化查询语言，对于熟悉关系型数据库的分析师和开发人员来说，它是理解和操作数据的标准工具。Hadoop通过引入各种工具，使得在非关系型数据存储上执行SQL查询成为可能，这极大地降低了大数据分析的门槛。首先，Apache Hive是这场运动的先驱，由Facebook于2009年发起。Hive提供了类似于SQL的查询语言HiveQL，允许用户在Hadoop上进行结构化的数据分析。然而，由于Hive依赖MapReduce，其查询性能受到限制，尤其是在处理大量数据时，需要多次数据传输，导致查询速度较慢。随着技术的发展，一系列新的SQL-on-Hadoop工具应运而生，旨在提高查询效率和用户体验。这些工具不仅用于商业智能，还可以作为与Hadoop数据交互的数据库产品。例如，EMC Greenplum、HP Vertica、IBM Netezza、ParAccel、Microsoft SQL Server和Teradata/AsterData等，它们提供了查询Hadoop数据的能力，有时甚至重构了底层计算和数据基础设施，以实现更高效的数据分析。其中，Apache Drill是一个值得注意的例子，它是由MapR主导的项目，提供了一种无Schema的SQL查询引擎，可以直接在Hadoop上运行，无需预先定义数据模式，提高了灵活性和查询性能。此外，还有Presto、Impala、Spark SQL等工具，它们同样为在Hadoop上执行SQL查询提供了高效解决方案。 Presto是Facebook开发的分布式SQL查询引擎，设计目标是快速响应交互式查询，适用于PB级别的大数据。Cloudera的Impala则是一个实时查询服务，它可以与Hadoop生态系统中的其他组件（如HDFS和HBase）无缝集成，提供低延迟的SQL查询。Apache Spark的Spark SQL组件则将Spark的强大计算能力与SQL接口相结合，支持批处理和流处理，提供了一种统一的数据处理方式。这些工具的出现，不仅提升了SQL在Hadoop环境中的性能，还促进了Hadoop与传统数据仓库和商业智能（BI）系统的融合，使得企业能够充分利用已有的数据和技能，同时享受到大数据分析的优势。因此，对于程序员来说，了解并掌握这些SQL-on-Hadoop工具，是适应大数据时代的关键技能之一。

在在Hadoop上运行上运行SQL：程序员需知晓的：程序员需知晓的13种数据工具种数据工具

摘要：摘要：对SQL支持并不是Hadoop最核心的技术理念，但这一特性确实能帮助很多传统企业，尤其是已经明白下一代分析的重

要性但又不想迈向MapReduce的企业，迅速走向大数据分析。为此，本文特别列举了13种从Hadoop内部可以运行SQL查询

的，高水平、可用性程度很高的工具。

在GigaOM安排Structure: Data的日程的时候，就意识到很有必要讨论在Hadoop上运行SQL查询，然而却未认识到Hadoop上

运行SQL查询竟然变的这么重要。本文是Gigaom的资深编辑Derrick Harris 撰写的一篇文章，CSDN编译如下：

其实，对SQL支持并不是Hadoop的最终目标，但是这一特性将会帮助Hadoop找寻自己的生存方式，让Hadoop在那些已经明

白下一代分析的重要性但又不想迈向MapReduce专家之路的公司中取得一席之地。

当然，Facebook发起了整场运动 ——在2009年创造了Hive，它把类似数据库SQL查询功能引向了Hadoop 。Hive现在已经是

Apache的一个开源项目，包括数据管理层以及类SQL的结构化查询语言HiveQL。在过去的数年里，Hive的确是非常有用而且

很流行，但是由于Hive对MapReduce依赖，查询速度有着“先天性不足”，因为在查询的过程中，MapReduce需要扫描整个数

据集，而且在Job的处理过程中还需要把大量的数据传输到网络。对主流用户而言，难以有很大的吸引力。

请记住，下一代的SQL-on-Hadoop工具并不仅仅只是商业智能，也不是仅仅只能读取存储在Hadoop上数据的数据库产品，

EMC Greenplum, HP Vertica, IBM Netezza, ParAccel, Microsoft SQL Server以及Teradata/Aster Data全部都允许某些方式的

Hadoop数据查询。而且这些是应用，框架以及可以让用户从内部进行Hadoop数据查询的引擎，有时候也会重构底层计算以及

数据基础设施。这种方式的优点在于：可以利用已有存储形式的数据，从理论上讲，对数据的分析应用就不需要再访问两个独

立的数据存储。

数据仓库和BI：The Structure: Data set

Apache Drill： Drill是由MapR主导、基于Hadoop之上的类似于谷歌的Demel（或者说BigQuery）交互式查询引擎。首次公布

在8月份，不过该项目正处在开发阶段，也是Apache的孵化器计划，根据其网站所言：“（Drill）明确的目标就是扩展到10000

台服务器，而且能够在几秒钟之内处理PB级的数据和数万亿条的记录。”

MapR的产品管理总监Tomer Shiran表示：“Drill与MapReduce相辅相成。在谷歌，数以千计的工程师每天都在使用Dremel和

MapReduce，未来也将有着更多的人来使用Drill与MapReduce。 ”

Hadapt：Hadapt实际上在2011年的Structure: Data大会上发布，它也是第一批SQL-on-Hadoop的厂商之一，其独特之处在

于，在市场上已经有了真正的产品，而且已经培育了自己的客户群。其独一无二的架构包括先进的SQL分析工具，为

MapReduce以及相关任务打造的split-execution引擎，也包含HDFS和相关的存储。

Hadapt提供了一体化的分析环境，旨在对Hadoop里面的数据执行分析操作，还能对SQL环境中传统的结构化数据进行分析。

而Hadapt的平台设计成了可以在私有云或公共云环境上运行，提供了从一个环境就能访问所有数据的优点，所以除了

MapReduce流程和大数据分析工具外，现有的基于SQL的工具也可以使用。Hadapt可以在Hadoop层和关系数据库层之间自

动划分查询执行任务，提供了Hadapt所谓的优化环境，这种环境可以充分利用Hadoop的可扩展性和关系数据库技术的快速

度。

Platfora：从技术来讲，这并不是一个SQL产品，Platfora现在是“红的发紫”，而且意图打造大数据商业智能（BI）的新蓝图。

大家都知道，如何能够把冗杂的数据（不管是邮件、文档、音频等）进行有效处理、视觉化，让它变成普通的用户都能看得懂

的东西，“数据”才能真正变得有价值。但是Hadpoop只有一小部分开发者（相对而言）在使用，而Platfora却想把它变成一个

任何人都可以理解、使用的工具。虽然也有其他的创业者在做类似的事情，但是Platfora在数据处理速度上有明显的优势，同

时非常直观，并且他们在用HTML5的canvas来做解决方案，既可以保证操作简便又能兼容不同设备上的数据，公司在10月份

进行的产品发布。

Qubole：Qubole是一个建设云平台进行数据分析和处理的创业公司。联合创始人兼CEO是Ashishi Thusoo，在创办Qubole之

前，Ashishi负责Facebook数据基础设施团队。在他的领导下，团队创造了世界上最大的数据分析与处理平台。他也是Apache

下载后可阅读完整内容，剩余3页未读，继续阅读

开通会员，免费下载（低至0.43元/天)

成为会员后, 你将解锁

下载资源随意下

优质VIP博文免费学

优质文库回答免费看

付费资源9折优惠

weixin_38677725

粉丝: 5

Hadoop与SQL：程序员必备的13大数据查询工具

开发界面语义化：声控 + 画图协同生成代码.doc

LABVIEW与三菱PLC通信：实现数据批量读写的高效库解决方案

欧姆龙PLC NJ系列模切机程序：高级伺服运动与张力控制的应用实例

大班主题性区域活动计划表.doc

高校教研室工作计划.doc

发那科机器人C#二次开发详解：数据读写与点位信息获取助力MES系统建设

MATLAB计算粒子速度分布 源程序代码.zip

STC单片机实现电压测量功能

市建设工程施工评标报告.doc

转炉设备验收标准.doc

组织机构字叙述.doc

一个基于Java编写的聊天软件，支持好友列表，窗口多开，JSP Web注册账户 分Client端和Server端

幼儿园生成性主题活动.doc

多模型推理竞价优化与调度方式.doc

人力资源管理三级试题.doc

可持续软件设计：绿色编程标准进入考核 KPI.doc

水生植物及景石工程技术标施工组织设计.doc

幼儿园大班工作计划.doc

java web ppt11

西门子S7-1200四轴伺服控制程序详解：涵盖点动、回原、定位与速度模式 - 伺服控制 v3.0

Git - 在主分支上创建分支并提交代码

前端跨域请求的解决方案与安全考虑.doc

最新资源

MATLAB计算粒子速度分布源程序代码.zip

一个基于Java编写的聊天软件，支持好友列表，窗口多开，JSP Web注册账户分Client端和Server端