Impala 性能调优和设计

优化思路:

Impala中,提供了10大类优化思路和方法:
1.分区
2.连接查询性能考虑
3.表和列信息统计
4.Impala性能测试:
5.基准Impala查询:
6. 控制Impala的资源使用情况:
7.使用Impala查询Amazon S3的文件系统。
8.HDFS缓存
9.执行计划和查询概况
10. 数据块倾斜

表分区:基于不同列值进行查询,避免大量无效信息过滤,和常规数据库分区理念一致。

连接查询性能考虑:连接查询的主要类,你可以在SQL级,相对于变化的物理因素如文件格式或硬件配置。有关列统计和表统计的概述的相关主题也很重要,主要用于连接性能。

表和列信息统计:概要表统计和列统计的概述。收集表和列的统计,计算统计报表,帮助impala自动优化性能的查询,而不需要更改SQL查询语句。

Impala性能测试:做一些安装后的测试以确保Impala使用最优设置的性能基准测试之前,进行任何。

基准Impala查询:配置和样本数据,您使用的Impala最初的实验和测试数据往往是不适合做性能测试。

控制Impala的资源使用情况:越多的Impala内存可以利用,你可以期待更好的查询性能。但在集群中运行的其他工作一样,你必须权衡确保Hadoop所有组件有足够的内存来执行的前提下,你可能使用盖的内存,Impala可以使用,不能不能够此时彼。

参考:

CDP 7:

http://impala.apache.org/docs/build/html/topics/impala_performance.html

https://docs.cloudera.com/runtime/7.2.2/impala-reference/topics/impala-performance.html

CDH 6

https://docs.cloudera.com/documentation/enterprise/latest/topics/impala_schema_design.html

https://docs.cloudera.com/documentation/enterprise/latest/topics/impala_performance.html

https://blog.csdn.net/sunchengquan/article/details/92840624

已标记关键词 清除标记
©️2020 CSDN 皮肤主题: 技术工厂 设计师:CSDN官方博客 返回首页