DLA Lakehouse实时入湖方案利用数据湖技术,重构数仓语义,分析数据湖数据,实现数仓的应用。本文介绍Lindorm实时入湖建仓分析的操作步骤。
方案介绍
DLA Lakehouse的Lindorm实时入湖建仓分析助力企业构建大数据离在线一体化,主要包括三方面。
- Lindorm实时入湖建仓引擎:支持T+10min近实时入湖,同时支持Schema推断、动态列增加、分区管理、小文件合并及Clustering等能力。
- Lindorm DFS存储:Lindorm入湖建仓数据回流到Lindorm DFS中,用户无需额外购买其他存储,有效地降低运维管理成本。
- 完全弹性的分析:DLA支持Serverless Presto和Serverless Spark的分析与计算能力,完全按需计费。
方案架构如下图所示。
使用限制
- Lindorm宽表引擎版本必须大于等于2.1.28。
- Lindorm通道服务版本必须大于等于3.5.0。
- Lindorm文件引擎版本必须大于等于3.10.3。
前提条件
- 已在DLA中开通云原生数据湖分析服务。更多信息,请参见开通云原生数据湖分析服务。
- 已创建Spark引擎的虚拟集群。更多信息,请参见创建虚拟集群。
- 已创建Presto CU版虚拟集群。更多信息,请参见DLA Presto CU版本快速入门。
- 如果您使用RAM子账号登录,还需要进行如下操作:
- 已授予RAM子账号AliyunDLAFullAccess权限。更多信息,请参见为RAM账号授权。
- 已将DLA子账号绑定到RAM子账号。更多信息,请参见DLA子账号绑定RAM账号。
- 已在Lindorm中开通数据湖分析。
注意事项
Lindorm通道中的消息数据默认只保留7天,如果数据过期,同时入湖任务失败,再重新启动时读取不到过期的数据,会有丢失数据的风险。
操作步骤
- 若使用RAM子账号登录,需授予RAM子账号创建库表的权限。
- 创建湖仓。湖仓创建成功后,湖仓列表页签中将展示创建成功的湖仓任务。
- 创建入湖负载。入湖负载创建成功后,在工作负载列表页签中将展示创建成功的工作负载。
- 启动工作负载。
- 在工作负载列表页签中,定位到创建成功的入湖负载,在操作列单击启动。
- 在弹出的再次确认窗口单击确定。
工作负载任务启动成功后,状态变为RUNNING。 - 待工作负载任务运行一段时间后,进行数据分析。
- 在工作负载列表页签单击入湖负载的库前缀。
- 在弹出的Lindorm湖仓查询提示窗口单击确定。
- 在SQL执行页面,系统已经选中了目标库,您可以直接输入SQL语句进行数据分析。
Lindorm与DLA的字段类型转换表
目前支持的字段类型转换如下。
Lindorm字段类型 | DLA字段类型 |
---|---|
long、usigned_long、short、unsigned_short、int、unsigned_integer、byte | bigint |
string、date、unsigned date、time、unsigned time、timestamp、unsigned timestamp、decimal | string |
float、double、unsigned double | double |
boolean | boolean |
varbinary、binary、encoded binary | binary |
说明 不支持的Lindorm字段类型不会同步到DLA中。
常见问题
Q:为什么Lindorm中开通数据湖分析后,下拉选择入湖表没有显示已创建的表?
A:目前数据湖分析仅支持有Schema的表,即Lindorm通过CQL创建的表。更多信息,请参见Lindorm CQL操作文档。