本文档主要介绍云原生数据湖分析(Data Lake Analytics,DLA)文档中涉及的基本概念。
数据湖
数据湖是一个集中式存储库,允许您以任意规模存储所有结构化和非结构化数据,数据湖支持存储EB级别的数据,阿里云数据湖存储以OSS为代表!
数据湖分析
数据湖分析就是针对数据湖数据分析的方案。云原生数据湖分析(简称DLA)是新一代大数据解决方案,采取计算与存储完全分离的架构,支持数据库(RDS\PolarDB)与消息实时归档建仓,提供弹性的Spark与Presto,满足在线交互式查询、流处理、批处理、机器学习等诉求,也是传统Hadoop方案上云的有竞争力的解决方案。
虚拟集群VC(Virtual Cluster)
虚拟集群VC(Virtual Cluster)是对底层资源的抽象,可以针对VC配置网络打通及一些基本的信息。当您选CU版本计费时,需要构建VC集群。扫描量版本的资源是平台构建一批VC,用户无需直接为资源付费,资源会按照扫描量转化为实际的费用,主要是为了满足用户无需持有资源且能得到立即响应的体验。
DLA账号
账号分为DLA账号、RAM账号,DLA账号与RAM账号可以进行关联。
DLA元数据
元数据:支持库(Schema,是表的集合)、表(Table,是同构行记录的集合)、列(Column,描述一行数据的某个属性)、视图(View,将某个查询的结果抽象成一张表)等,每个库(Schema)只能对应一种数据源,元数据是Presto引擎、Spark引擎均可安全访问。
DLA语法标准
- DDL:参考Hive标准。
- DCL:MySQL数据库标准。
- DML:DLA Presto兼容开源Presto标准,DLA Spark SQL是开源Spark的标准。