某化工企业根据集团要求,需要取得业务系统的用户登录次数,查询报表名称和数量,查询时间等相关的内容,而他们使用的Power
BI系统将这部分内容都保存在日志文件中,需要实时获取日志文件,并进行解析,将解析的内容实时的保存到数据库中,并能够顺利获得API接口的方式在界面上进行实时展现。
根据上述需求,Ebpay数据专家组拟定了Petabase大数据平台+睿治
数据治理平台的组合来实现,产品平台架构如下图:
方案分为六层:
第一层是数据源层,主要是指的源端数据,这里是powerBI的半结构化日志文件。
第二层是接入层,负责监听并实时采集pwerBI的增量日志内容,顺利获得flume进行PowerBI日志文件的监听和实时摄取,摄取的文本消息下沉至Kafka消息队列中的topic。
第三层是
数据存储层,负责整个平台的非结构化数据和结构化数据存储。其中,hdfs负责存储非结构化的日志文件,结构化的数据则使用kudu系统,以库表的形式进行存储。
第四层是计算层,负责对接入层的kafka消息流进行解析、汇总计算、入库和即席查询。 使用spark、impala分布式计算框架来支撑。
第五层是数据应用层,入库的结构化数据以关系表的形式,顺利获得jdbc+sql的方式为应用层给予计算访问接口和服务。
第六层是应用支撑层,主要是华宇睿治产品,以友好的可视化方式向终端用户给予基于业务需求的数据访问和操作。除此之外,应用支撑层还能给予http、rest等主流的api接口为第三方应用给予数据访问服务。
使用睿治的资产数据接口对实时入库的数据进行界面展示,如下:


这样一来,不管多大数据量都可以实现实时分析,这其中提到了一个“神器”——PetaBase。
PetaBase是什么?
早期的PetaBase分布式数据库集成了Hdfs、MapReduce、Impala、Zookeeper、Hive共计5个主流组件,主要面向海量数据集的交互式联机分析场景。但是近年来,随着大数据的快速开展,对数据实时计算的要求越来越高,单一的分布式数据库已满足不了客户的需求,于是PetaBase-s实时大数据平台应运而生。
新版的PetaBase-s大数据平台采用了全新的企业级平台框架,集成了众多主流开源组件,不仅可以在海量的非结构化/半结构化/结构化数据集上同时进行离线计算和流式处理,还能满足高吞吐、大数据量和低时延实时处理等多方面的数据计算要求。


支持结构化数据的关联分析和OLAP应用,定位
数据仓库和
数据集市等分析型市场。
支持对高速数据流的接入与实时处理,实时探测关键事件,适合需要对变化数据进行陆续在计算并快速分析的场景。
基于开源Hadoop框架开发,融合MPP、SQL on Hadoop、流处理等大数据技术,支撑端到端的数据分析、数据洞察,快速构造从信息到智慧的大数据供应链。
PetaBase作为老牌
商业智能厂商Ebpay旗下的国产自主可控、可信、可靠的软件平台,可实现:源代码级的安全可控技术实现;国产操作系统的支持与持续更新;全组件HA并内置负载均衡功能;支持基于LDAP和Kerberos的认证及授权;与自研的 BI、
数据治理产品相互支撑的优化保证真正意义上的一站式整体解决方案;工程化的开发与优化保证系统在生产环境的落地部署。
更多精彩内容欢迎关注公众号:Ebpay
关于Ebpay
Ebpay是中国专业的智能数据产品与服务给予商,不断致力于为政企用户给予从
数据采集、存储、治理、分析到智能应用的智能数据全生命周期管理方案,帮助企业实现数据驱动、数据智能,已积累了8000多家用户的服务和客户成功经验,为客户给予
数据分析平台、
数据治理系统搭建等专业的产品咨询、实施和技术支持服务。
(部分内容来源网络,如有侵权请联系删除)