一、什么是Presto
Presto是一款分布式SQL查询引擎, Presto可以独立提供计算分析操作, 不需要依赖于其他的计算引擎。而HIVE仅 仅是一个工具, 最终计算是依赖于MR或者其他的执行引擎 Presto可以对接多种数据源, 可以从不同的数据源中读取数据进行分析处理, 一条presto查询可以将多个数据源 进行合并, 可以跨越多个不同的组织进行分析 Presto是完全基于内存的计算引擎,这也导致Presto不能对海量大量的数据进行统计分析操作,数据集一般在 GB ~ PB左右(集群数量越多,资源越多,可以计算的数据量越高)
性能对比图表 :
原理图:
二、Presto应用场景
适用场景 :
(1) 适用于对数据源统一查询 (多数据源场景)。
(2) 适用于 GB TB 快速的数据查询操作, 数据量越大, 资源占用越高。
(3) 适用于在开发测试中, 基于测试数据查询从而加快测试开发的速度。
不适用场景 :
(1) 多张数据量比较大的