云原生数据湖分析DLA(Data Lake Analytics)是新一代大数据解决方案,采取计算与存储完全分离的架构,支持数据库与消息实时归档建仓。DLA提供弹性的Spark与Presto,满足在线交互式查询、流处理、批处理、机器学习等诉求,也是传统Hadoop方案上云的有竞争力的解决方案,其中弹性是DLA最为核心的竞争力。

弹性能力

Spark CU版弹性:按照Job实际使用弹出资源,只对实际运行的资源进行计费,比传统方案节约50%+的成本。spark CU弹性
Presto CU版弹性:分时弹性(设置时间段来使用CU资源)。Presto CU弹性
Presto扫描量版本:按照扫描量计费,只对实际运行的SQL进行计费。扫描量版本

优势总结

对比类目 自建Hadoop系统 阿里云 DLA + OSS方案
产品体系 复杂、组件较多 一体化、端到端(入湖=>管理=>ETL =>分析查询),产品体验好;组件精耕细作Presto、Spark;
弹性 云原生、弹性强、一分钟可弹300节点参与计算
性价比 开源方案 内置大量优化+弹性,比开源自建集群至少降低50%+的成本
DB&消息(如Kafka)归档到Hudi(存储在OSS) 无或者自己写Code 链路大量优化、Hudi大量优化,产品化支持(实现中)
学习与运维成本 高(需要较长时间搭建、配置、运维、学习) 低(即开即用、零运维成本)
安全、多租户 基于 Kerberos&Ranger,较为复杂 支持数据库模式库、表授权模式,多租户
功能 开源功能,缺乏云连接器的支持,云内部系统对接与优化 针对阿里云OSS & OTS &ADB 等数据源深度优化,Presto与Spark内核大量优化