云原生数据湖分析DLA(Data Lake Analytics)是无服务器(Serverless)化的云上交互式查询分析服务,支持通过Presto和Spark引擎分析多种数据源中的数据。快速入门旨在介绍如何开通DLA、构建数据湖、调用Presto和Spark引擎进行数据分析与计算,帮助您掌握DLA的基本使用流程。
如果您是首次使用云原生数据湖分析DLA的用户,我们建议您先阅读以下部分:
云原生数据湖分析DLA入门指南(本指南)-本指南提供了有关使用云原生数据湖分析DLA的基本流程。操作流程概览如下:
- 开通云原生数据湖分析服务
- 可选:创建虚拟集群:CU版适用于查询频率高、查询数据量较大的场景,同时也能够给您使用DLA的费用预算带来一定的确定性。推荐您使用CU版本来进行数据分析与计算。
说明 如果您使用系统默认的扫描量版本来进行数据分析与计算,则无需创建虚拟集群,可以跳过此步骤。CU版与扫描量版的具体差异,请参见扫描量版本与CU版本的差异。
- 构建数据湖:您可以通过以下多种方式来构建数据湖。例如:
- 手工上传文件到OSS,然后通过元数据爬取功能创建表来构建数据湖。具体操作请参见上传文件和OSS数据源。
- 通过其他产品投递文件到OSS(如通过操作审计控制台投递日志文件到OSS),然后通过元数据爬取功能创建表来构建数据湖。具体操作请参见创建单账号跟踪和OSS数据源。
- 通过一键建仓和多仓合并建仓(仅支持数据库)、实时数据湖(支持数据库和消息日志)功能来构建数据湖。具体操作请参见一键建仓多库合并建仓和实时数据湖。
- 连接数据源:您也可以通过DLA直接连接其他数据源或者OSS来进行数据分析与计算。具体操作请参见Presto引擎连接数据源和Spark引擎连接数据源。
- 数据分析与计算:您可以调用Serverless Presto和Spark引擎来进行数据分析与计算。具体请参见Serverless Presto和Serverless Spark。
- 数据应用:您可以通过DataWorks和DMS来调度DLA Presto和DLA Spark任务,也可以将OSS数据的查询分析结果以BI报表形式进行展示。具体请参见快速搭建Quick BI可视化报表。