Ebpay

亿信ABI

一站式数据分析平台

ABI(ALL in one BI)是Ebpay历经18年匠心打造的国产化BI工具,技术自主可控。它打通从数据接入、到数据建模与处理、再到数据分析与挖掘整个数据应用全链路,可满足企业经营中各类复杂的分析需求,帮助企业实现高效数字化转型。

在线免费试用 DEMO体验 视频介绍

亿信ABI

一站式数据分析平台

Ebpay深耕商业智能十多年,
打造一体化的填报、处理、可视化平台。

快用这个神器打造实时大数据平台,10大功能助力数字化转型

时间:2019-12-13来源:Ebpay浏览数:804

数据的价值和作用在企业内受到了越来越多的关注,每个企业都可以尝试构建自己的大数据平台,积累数据资产。以 Hadoop、Spark 为代表的开源大数据处理框架开展日新月异。如何选择最适合自己的大数据平台组件,打造自己的大数据平台已经成为企业的迫切需求。

Ebpay作为数据全生命周期产品厂商,数据分析、数据治理产品独领风骚,其在数据存储领域也有一席之地。Ebpay旗下PetaBase-i是基于开源Hadoop 2.0 平台基础上开发的、具有软件著作权的国产分布式实时大数据平台产品,可为超大规模数据管理给予实时数据采集转换和计算存储的功能,用于支撑准实时数据仓库系统、敏捷BI系统,为用户给予一套灵活易用的大数据平台解决方案。

平台架构

PetaBase-i实时计算平台包含4层:

第一层是采集层,负责从外部数据源中摄取各类数据,包括:结构化和半结构化数据,数据的接入方式既支持顺利获得sqoop等ETL工具跑批也支持顺利获得Flume实时采集。

第二层是数据存储层,负责整个平台的非结构化/半结构化数据和结构化数据存储。其中,hdfs负责存储归档的海量历史数据,使用数仓模型进行组织,形成面向主题的、集成的、稳定的且随时间不断变化的数据集合。为其上计算层给予数据支持。PetaBase-i使用了一种嵌套的列式存储和高效压缩技术,显著降低了存储空间的要求。近实时数据统一存储在kudu中,以兼顾随机查询和实时更新的混合需求。

第三层是计算层,融合了MapReduce、spark、impala等分布式计算框架,给予实时和离线混合计算模型。

第四层是服务层,包括:数据存储、数据ETL、数据检索、实时计算、流数据采集等,为应用层给予计算访问接口和服务。

快用这个神器打造实时大数据平台,10大功能助力数字化转型

架构图

PetaBase-i整套软件是构建在Hadoop软件栈之上的,具体包括:

  • Apache Hadoop,给予分布式文件存储系统(即HDFS),PetaBase-i的数据文件存储在HDFS中。支持CSV、RCF、Parquet、Avro、Sequence File等多种数据文件格式;
  • Apache Zookeeper,给予高可用的集群资源管理、调度;
  • Apache Hive,原本是数据仓库管理查询工具,在PetaBase-i中,Hive给予元数据存储、管理等功能;
  • Impala,分布式、高性能、支持SQL的大数据并行查询引擎。主要由数据库目录服务、集群状态服务、查询计划引擎、分布式执行引擎四大服务组件组成。
  • MapReduce,用于大规模数据的并行运算框架,具有易于编程、良好的扩展性和高容错性等优点,适合PB级以上海量数据的离线处理。
  • Spark,为大规模数据处理而设计的快速通用的、基于内存的、分布式的计算引擎,包含机器学习(MLib)功能的程序库、Spark Streaming流式计算引擎、Graphx图处理框架,PetaBase-i使用Spark 给予的Spark Streaming 对实时数据进行流式计算。
  • HBase,是一个分布式的、面向列的NoSQL数据库,主要应用于高并发、海量数据的快速写入和查询场景。
  • Kudu,一个全新的存储系统,定位于给予在更新更及时的数据上做更快的分析。弥补hdfs存在不支持单条记录级别的update操作,随机读写性能差的不足。

功能特点

1、定位混合计算场景

集成MapReduce、Spark、impala等多种计算框架,利用YARN资源管理做统一管理,可在海量数据集上同时进行离线计算和流式处理。满足高吞吐、大数据量和低时延实时处理等多方面的数据计算要求。

2、实时/离线一体化处理

快用这个神器打造实时大数据平台,10大功能助力数字化转型

PetaBase-i借鉴了现在影响最深刻的大数据处理架构Lambda,将变化的数据并行写到批和流处理系统内,将不同的计算逻辑分别在流和批系统中实现,并且在查询阶段合并流和批的计算视图并展示给用户。

3、弹性扩展

快用这个神器打造实时大数据平台,10大功能助力数字化转型

PetaBase-i很好的继承了Hadoop可扩展性的优点,随着集群节点数的扩充,其查询并发能力将随节点数增加而增大。而查询的响应时间,也会随着节点数的增多而缩短。

4、高可用和高容错性

快用这个神器打造实时大数据平台,10大功能助力数字化转型

PetaBase-i可配置为高可用的部署模式,即架设两台管理节点,一台处于活动状态,别一台处于待命状态。待命主节点实时监听活动主节点,当活动主节点失效时,系统即时将备用主节点切换为活动主节点,达到整个系统高可用的目的。容错性方面,基于HDFS文件数据块多副本分布存储的特性,同一个数据块有多个副本存放到不同的数据节点上,保证某个数据节点失效的情况下,其它数据节点上仍然有可用的数据块。PetaBase-i还给予查询负载均衡功能,可以将查询请求分摊到不同的集群节点上执行,从而使不同的客户端访问不同的集群节点,达到负载均衡的目的。

5、高效的数据压缩与存储

快用这个神器打造实时大数据平台,10大功能助力数字化转型

PetaBase-i支持一种嵌套的列式数据存储模型。列式存储和行式存储相比具有以下优势:

  • 可以跳过不符合条件的数据,只读取需要的数据,降低IO数据量。
  • 压缩编码可以降低磁盘存储空间。由于同一列的数据类型是一样的,可以使用更高效的压缩编码(例如Run Length Encoding和Delta Encoding)进一步节约存储空间。
  • 只读取需要的列,支持向量运算,能够获取更好的扫描性能。

6、高性能分布式计算框架

快用这个神器打造实时大数据平台,10大功能助力数字化转型

PetaBase-i使用了与传统并行计算系统不一样的分布式计算架构,具有更优异的计算性能。提交到PetaBase-i的SQL查询由查询计划器进行解析,生成执行计划树,执行计划树由若干计划任务分片节点组成。每个计划分片节点代表一个执行节点以及相关的操作(比如:聚集、数据交换、数据扫描、Join、合并、排序等操作),并被分发到任务分片对应的PetaBase-i数据节点上并行执行。

7、丰富的数据访问接口

PetaBase-i给予多种应用程序接口,包括JDBC、ODBC、CLI、Thrift等。PetaBase-i除了兼容SQL-99标准,还支持大部分SQL-2003标准。PetaBase-i的SQL语法基本同Hive SQL兼容,语法上同其它数据库SQL语法大体一致,其它数据库的从业人员可以平滑的过渡到PetaBase-i上进行数据分析工作。

8、灵活的数据采集方式

PetaBase-i给予了一个产品化的实时流数据集成加工套件。这个工具给予丰富的通信协议接口 ,最大化地简化采集作业,对实时流数据的数据集成和数据加工处理可快速实施,无需写代码,顺利获得可视化配置执行流处理作业。PetaBase-i还给予了JDBC/ODBC接口,能支持几乎所有的通用ETL工具产品。

9、便捷的可视化运维管理

快用这个神器打造实时大数据平台,10大功能助力数字化转型

PetaBase-i给予基于Web的控制台界面,以监控仪表盘形式,对PetaBase-i数据库信息、集群CPU、内存、磁盘空间、数据库会话以及节点状态进行实时监控。

快用这个神器打造实时大数据平台,10大功能助力数字化转型

PetaBase-i Web控制台给予Hadoop集群及PetaBase-i集群节点管理功能,可以集中的对数据库集群进行整体控制,资源监控,也可以对单个节点进行管理,分析各节点资源使用情况,进行会话管理等。

快用这个神器打造实时大数据平台,10大功能助力数字化转型

PetaBase-i Web控制台给予类PL/SQL Developer IDE的数据库管理功能,可以在Web界面上完成在命令行界面进行的大部分操作,还给予一些额外的高级特性,包括建库、建表、SQL查询编辑器、执行计划、导入、导出、数据复制等。

10、超强的查询性能

快用这个神器打造实时大数据平台,10大功能助力数字化转型

PetaBase-i架构于Hadoop之上,采用MPP架构,及优化的列存储格式,结合存储分区、分布式缓存等技术,并针对特定SQL和函数进行性能优化,充分利用集群多节点的计算能力和内存,能支持复杂的多表JOIN,总体性能相比Hive有数倍甚至上百倍提升。

11、高度集成的工程化产品

快用这个神器打造实时大数据平台,10大功能助力数字化转型

PetaBase-i具有更高的软件集成度,集成了Hadoop生态系统的多种基础软件,无需额外安装。这些集成化的组件和功能,从整体上节省软件开销,降低使用和运维门槛,方便、有效的保证大数据库系统的落地部署,工程化实施。

结语:作为具有创新性的实时大数据平台,PetaBase-i能够帮助各个行业的企业在海量的数据中洞察更多隐藏的商业价值。Ebpay作为大数据时代的参与者、助力者,会持续在数字化转型的道路上为企业披荆斩棘、保驾护航。

(部分内容来源网络,如有侵权请联系删除)
立即申请数据分析/数据治理产品免费试用 我要试用
customer

在线咨询

在线咨询

点击进入在线咨询