阿里巴巴瑾谦/沐远:云HBaseSQL及分析Phoenix&Spark

  • 时间:
  • 浏览:3
  • 来源:uu快3游戏_uu快3计划_苹果版

HBase上的SQL层



HBASE上的SQL层Phoenix 被亲戚亲戚当你们当你们儿更多使用的一个多价值形式是二级索引。要使用Phoenix首先里还可以 了解它分为Client端和server端,server端是以一个多jar包的形式部署在HBASE的组织组织结构。server端对meta表的操作和二级索引的读写等一系列操作就有通过HBASE的ZOOKEEPER完成的。

二级索引更为亲戚亲戚当你们当你们儿关注的是Phoenix的二级索引。目前Phoenix的二级索引主要被亲戚亲戚当你们当你们儿使用的是GLOBAL INDEX和LOCAL INDEX。GLOBAL INDEX目前为止使用场景比LOCAL INDEX更为广泛,它实质上是一张HBASE表,即把一张倒开索引单独存到另一张HBASE表中。机会这人设计的价值形式使得它更多的使用与写少多读的场景。当然机会GLOBAL INDEX是一张单独的表统统它还可以使用这人主表的价值形式,比如还可以使用加盐,指定压缩等价值形式。而LOCAL INDEX是在元数据表中多加了一个多列数去存储的。机会LOCAL INDEX和元数据表是地处一张表中,故它更多的适用于写多读少的场景中,因此该价值形式使得主表的数据量还可以 过大。GLOBAL INDEX和LOCAL INDEX相比LOCAL INDEX的网络开销比较小,故当索引表数据量适量的情況下LOCAL INDEX的性能更高。

二级索引单条写性能测试结果下面是第一根二级索引单条写性能测试的数据,配置信息为:云HBASE 1.4.4.3&ALi-Phoenix4.12,4核8G SSD(一个多RS),主表SALT_BUCKETS=4,GLOBLA INDEX SALT_BUCKETS=4,下图为测试结果。

性能对比及使用在里还可以 Spark SQL这人层面的HBase集成是,大每项人使用的是Native HBaseRDD来scan HBase的数据,当有Spark SQL的日后还可以用DataFrame API来分析数据。通过执行一个多catalog的表做简单的select及filter操作后count,对比二者的数据还可以看出Spark SQL所需时间要远少于Native HBaseRDD。

二级索引案例

简介

众所周知Spark 和 HBase是大数据目前比较流行的两款产品。HBase还可以划分在OLTP这人领域,它有基于Row key点查性能好,有助自定sharding,高可用的价值形式。而Spark还可以划分在OLAP领域,它具有通用的DAG分析引擎,有助做高性能的内存迭代计算,完善SQL优化层的一系列特点。这两款产品的结合映射成了目前比较流行的一类数据库HTAP,它既具备OLAP的功能又具备OLTP的功能。

目前社区做Spark on HBase的都主要做以下三方面的功能和优化:Spark SQL、Dataset、DataFrame API支持,支持分区裁剪、列裁剪、谓词下推等优化,Cache HBase的Connections。

下面亲戚亲戚当你们当你们儿从Spark和HBase的部署层面以及执行层面来看怎么可以用Spark来分析HBase上的数据。 当要启动一个多Spark作业的日后首先里还可以 一个多driver,而driver中会做这人运算如Compiler,Analyzer,Optimizer,Planner,并最终生成一个多执行计划,而执行计划会分为多个因此每一个多都对应一个多task,而task会采集到实际的资源上执行。而HBase是通过RegionServer来部署的,而每个RegionServer负责若干个Region的读和写。

架构

索引中的Row Key格式

以下是精彩视频内容采集:

Hbase上的分析从使用的措施上来分类还可以分为NATIVE和SQL两类,而二者均地处小数量简单分析和大数据量复杂性分析有一种场景。但无论在NATIVE和SQL上做小数据量分析机会大数据量分析均需避免HBASE的这人根本问题图片,比如HBASE表数据热点问题图片,易用性以及适用更多场景。

关于SQL以及分析,未来计划将为用户做出一款体验更好的产品。该产品的架构为最上层是SQL层,该SQL同这人的分析引擎一样会有Parser、Planner、Qptimizer、Execrtor,但这套SQL会提供有一种能力分别为OLTP和OLAP,他的runtime将使用Spark Runtime。同样在HBase底层会提供二级索引以及全文索引来丰富这套SQL的表达能力以及他的性能。在HBase存储层面,HBase原始的存储有Memstore以及HFile,也机会会引入parquet/ORC来提高性能。