本文档主要介绍数据湖分析服务DLA包含的核心功能以及应用场景。

数据湖分析服务DLA支持以下功能:
功能名称 功能描述 参考文档
账号管理 账号分为DLA账号、RAM账号。您可以创建DLA子账号,并关联RAM子账号,关联后可以通过RAM子账号提交Spark作业。 账号概览
虚拟集群管理 使用CU版本的DLA服务,需要创建虚拟集群来进行高频数据查询。适用于查询频率高、查询数据量较大的场景,同时也能够给您使用DLA的费用预算带来一定的确定性。 创建虚拟集群
元数据管理 可视化全局管理视图,可以进行元数据的操作,例如创建Schema、查看库表信息、查询数据等。 查询Schema详情
元信息发现 元数据爬取功能可以自动为OSS上面的数据文件创建及更新数据湖元数据,方便分析和计算。具有自动探索文件数据字段及类型、自动映射目录和分区、自动感知新增列及分区、自动对文件进行分组建表的能力。 OSS数据源
一键入湖 通过DLA控制台配置数据源(RDS数据源、ECS自建数据库数据)和目标OSS数据仓库,系统按照您设定的数据同步时间自动、无缝的帮您把数据源中的数据同步到目标数据仓库OSS中,同时在数据仓库和DLA中创建与数据源表相同的表结构,基于目标数据仓库进行数据分析,不影响数据源端的线上业务运行。 概述
实时数据湖 基于DLA Serverless的Spark Streaming以及数据湖增量存储格式Apache HUDI来构建,通过HUDI增量写入OSS的数据,同时自动在DLA的元数据系统构建元数据。 基于DLA+DTS同步RDS数据来构建实时数据湖
DLA Serverless Presto DLA Serverless Presto是云原生数据湖团队基于Presto打造的交互式分析引擎,Presto开发的初衷就是为了解决使用Hive来进行在线分析速度太慢的问题,因此它采用全内存流水线化的执行引擎,相较于其它引擎会把中间数据落盘的执行方式,Presto在执行速度上有很大的优势,特别适合用来做Adhoc查询、BI分析、轻量级ETL等数据分析工作。 Serverless Presto概述
DLA Serverless Spark DLA Serverless Spark基于云原生架构,提供面向数据湖场景的数据分析和计算。开通DLA服务后,您只需简单的配置,就可以提交Spark作业;无需关心Spark集群部署。 Serverless Spark概述