找回密码
 立即注册

QQ登录

只需一步,快速开始

Apache CarbonData 介绍

[复制链接]
tiko 发表于 2021-1-3 15:28:09 | 显示全部楼层 |阅读模式
Apache CarbonData 是一种新的融合存储解决方案,利用先进的列式存储,索引,压缩和编码技术提高计算效率,从而加快查询速度,其查询速度比 PetaBytes 数据快一个数量级


1、为什么要使用carbondata?
CarbonData支持完整的标准SQL支持,以及多种分析场景的支持,“一份数据支持多种使用场景”,例如大规模扫描和计算的批处理场景,OLAP**交互式分析场景,明细数据即席查询,主键低时延点查,以及对实时数据的实时查询等场景主要概括为一下几种

(1)支持海量数据扫描提取其中某些列;(2)支持根据主键进行查找的低于秒级响应;(3)支持海量数据进行交互式查询的秒级响应; (4)支持快速地抽取单独记录,并且从该记录中获取到所有列信息; (5)支持HDFS,可以与Hadoop集群进行很好的无缝兼容。
  • (1)支持海量数据扫描提取其中某些列;(2)支持根据主键进行查找的低于秒级响应;(3)支持海量数据进行交互式查询的秒级响应; (4)支持快速地抽取单独记录,并且从该记录中获取到所有列信息; (5)支持HDFS,可以与Hadoop集群进行很好的无缝兼容。

可以看出当前的很多大数据系统虽然都能支持各类查询场景,但他们都是偏向某一类场景设计的,在不是其目标场景的情况下要么不支持要么退化为全表扫描,所以导致为了应对批处理,**分析,明细数据查询等场景,常常需要通过复制多份数据,每种场景要维护一套数据。CarbonData的设计初衷正是为了打破这种限制,做到只保存一份数据,最优化地支撑多种使用场景。
2、CarbonData基础特性
(1)数据及索引:在有过滤的查询中,它可以显著地加速查询性能,减少I/O和CPU资源;CarbonData的索引由多级索引组成,计算引擎可以利用这些索引信息来减少调度和一些处理的开销;扫描数据的时候可以仅仅扫描更细粒度的单元(称为blocklet),而不再是扫描整个文件;
(2)可操作的编码数据:通过支持高效的压缩和全局编码模式,它可以直接在压缩或者编码的数据上查询,仅仅在需要返回结果的时候才进行转换,更好的查询下推;
(3)列组:支持列组,并且使用行格式进行存储,减少查询时行重建的开销;
(4)多种使用场景:顺序存取、随机访问、类OLAP交互式查询等。
3、推荐场景:希望一份存储同时满足快速扫描,**分析,明细数据查询的场景。在华为的客户使用案例中,对比业界已有的列存方案,CarbonData可以带来5~30倍性能提升。我们自己测试大约有5~6倍左右的提升。
4、文件格式介绍:
一个CarbonData文件是由一系列被称为blocklet组成的,除了blocklet,还有许多其他的元信息,比如模式、偏移量以及索引信息等,这些元信息是存储在CarbonData文件中的footer里。
当在内存中建立索引的时候都需要读取footer里面的信息,因为可以利用这些信息优化后续所有的查询。
每个blocklet又是由许多Data Chunks组成。Data Chunks里面的数据可以按列或者行的形式存储;数据既可以是单独的一列也可以是多列。文件中所有blocklets都包含相同数量和类型的Data Chunks。CarbonData文件格式如图所示。

每个Data Chunk又是由许多被称为Pages的单元组成。总共有三种类型的pages:
(1)Data Page:包含一列或者列组的编码数据;
(2)Row ID Page:包含行id的映射,在Data Page以反向索引的形式存储时会被使用;
(3)RLE Page:包含一些额外的元信息,只有在Data Page使用RLE编码的时候会被使用




版权声明
1.本主题所有言论和图片纯属会员个人意见,与黑匣子立场无关
2.本站所有主题由该帖子作者发表,该帖子作者与黑匣子享有帖子相关版权
3.其他单位或个人使用、转载或引用本文时必须同时征得该帖子作者和黑匣子的同意
4.帖子作者须承担一切因本文发表而直接或间接导致的民事或刑事法律责任
5.本帖部分内容转载自其它来源,但并不代表本站赞同其观点和对其真实性负责
6.如本帖侵犯到任何版权问题,请立即告知本站,本站将及时予与删除并致以最深的歉意
7.黑匣子官方管理员和版主有权不事先通知发贴者而删除本文
所有分享的文章内容,请勿用于非法用途,否则后果自负!!
博观而约取,厚积而薄发;
做不了知识的生产者,就做知识的搬运工。
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

站长推荐上一条 /1 下一条

QQ Archiver|手机版|小黑屋|黑匣子

GMT+8, 2021-4-12 06:27 , Processed in 0.047107 second(s), 21 queries .

Powered by 黑匣子! X3.4 © 2016-2019 Comsenz Inc.

快速回复 返回顶部 返回列表